close

【Facebook ICCV17入選】15篇論文,何凱明3篇,LeCun1篇

原標題:【Facebook ICCV17入選】15篇論文,何凱明3篇,LeCun1篇



大會早鳥票已經售罄,現正式進入全額票階段。還記得去年一票難求的AI WORLD 2016盛況嗎?今年,即將於2017年11月8日在北京國傢會議中心舉辦的AI World 2017世界人工智能大會上,我們請到騰訊優圖實驗室傑出科學傢賈佳亞教授、曠視科技(Face++)首席科學傢孫劍等中國計算機視覺的領軍人物。想瞭解計算機視覺的最新動態,

新智元編譯

來源:research.fb.com

編譯:弗格森

【新智元導讀】Facebook公佈瞭今年入選計算機視覺頂級會議ICCV的15篇研究成果。涉及語義和圖像分割、物體識別、圖像分類、視覺與語言的結合、圖像生成、3D視覺等多個方面。

來自世界各地的計算機視覺專傢將於本周聚集在於威尼斯舉行的國際計算機視覺會議(ICCV),介紹計算機視覺和相關領域的最新進展。來自Facebook的研究將在15篇經過同行評審的出版物和海報中發表。 Facebook研究人員還將出席眾多的研討會和講座。

以下是 Facebook 在本年度的 ICCV 上呈現的研究完整列表,根據研究主題進行瞭整理:

詞義和圖像分割

論文:Mask R-CNN

作者:Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick

論文地址:https://research.fb.com/publications/mask-r-cnn/

這篇論文開發瞭一種新的系統,對於照片中的每個像素,它可以預測像素會對哪些物體作出反應,也可以預測像素會對哪一個物體作出反應。所以系統不僅會描繪羊,然後告訴你它們是羊(“語義”分割),但它也會告訴你哪些部分的圖像對應於哪隻羊(“實例”分割)。Mask R-CNN是成功完成此項工作的系統之一。 Facebook的 CTO Mike Schroepfer在今年早些時候在F8的主題演講中展示瞭Mask R-CNN的Demo。

論文:Predicting Deeper into the Future of Semantic Segmentation

作者:Pauline Luc, Natalia Neverova, Camille Couprie, Jakob Verbeek, Yann LeCun

論文地址:https://research.fb.com/publications/predicting-deeper-into-the-future-of-semantic-segmentation/

本文開發瞭一種深度學習模型,從一個視頻中的特定幀(靜態)嘗試預測下一幀將是什麼樣子。所以在某種意義上,它是試圖猜測視頻接下來會展示什麼內容的。本文表明,研究最後所得到的模型可用於提高計算機視覺系統在語義分割等任務中的質量。

論文:Segmentation-Aware Convolutional Networks Using Local Attention Masks

作者:Adam W. Harley, Konstantinos G. Derpanis, Iasonas Kokkinos

論文地址:https://research.fb.com/publications/segmentation-aware-convolutional-networks-using-local-attention-masks/

在深度神經網絡中,網絡的層次越深,一個卷積網絡中的眾多神經元對圖像進行“審查”的部分就越大。這可能會導致局部性(localized)變差以及模糊的反應,因為,神經元需要對圖像非常大的部分進行“審查”。在這項研究中,我們通過每一個神經元隻出現在自己感興趣的區域,進而銳化這種反應。

論文:Dense 一般家庭抽肥and Low-Rank Gaussian CRFs Using Deep Embeddings

作者:Siddhartha Chandra, Nicolas Usunier, Iasonas Kokkinos

論文地址:https://research.fb.com/publications/dense-and-low-rank-gaussian-crfs-using-deep-embeddings/

雖然卷積網絡可以非常準確地將圖像中的像素分類為不同的類別(汽車,飛機,...),但相鄰的決策通常不一致:一半物體可能被標記為“床”,另一半則被標記為“沙發”。本文提出瞭一種耦合所有像素分類的技術,以非常有效的方式產生一致的預測。

物體檢測

論文:Focal Loss for Dense Object Detection

作者:Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár

論文地址:https://research.fb.com/publications/focal-loss-for-dense-object-detection/

本文提出瞭一種新的物體檢測系統。該系統在技術上與現有的目標檢測技術不同。當下,大多數系統由多個“階段”組成,每個階段都由不同的模型實現,本文開發瞭一個在單個階段解決整個對象檢測問題的模型。這種簡單性很有吸引力,因為它使得系統更容易實現和使用。

論文:Low-shot Visual Recognition by Shrinking and Hallucinating Features

作者:Bharath Hariharan, Ross Girshick

論文地址:https://research.fb.com/publications/low-shot-visual-recognition-by-shrinking-and-hallucinating-features/

物體檢測系統通常是基於成千上萬的圖像進行訓練,這些圖像中包含瞭它們需要識別出來的物體。本文著重於解決在僅看到該類別的很少示例之後識別新的對象類型的問題。它通過“設想”我們想要識別的物體的額外例子來實現。

論文:Transitive Invariance for Self-supervised Visual Representation Learning

作者:Xiaolong Wang, Kaiming He, Abhinav Gupta

論文地址:https://research.fb.com/publications/transitive-invariance-for-self-supervised-visual-representation-learning/

本文提出通過觀察對象在視頻中的外觀變化來學習更好的對象檢測模型。例如,駕駛的車輛的視頻會顯示來自不同幀的不同角度的汽車。因為你知道每個框架其實都描述瞭同一輛車,所以你可以使用這些信息來學習更好地理解同一個物體的不同視角的模型。所得到的模型可用於改進對象檢測器。

圖像分類

論文:Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

作者:Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra

論文地址:https://research.fb.com/publications/grad-cam-visual-explanations-from-deep-networks-via-gradient-based-localization/

大多數現代圖像分類系統都基於稱為卷積網絡的模型。這些網絡工作得很好,但它們也是一個“黑匣子”的問題。本文開發瞭一種新技術,可以通過可視化照片中的哪些區域讓系統以特定的方式對其進行分類,從而“打開盒子”。

論文:Learning Visual N-Grams from Web Data

作者:Ang Li, Allan Jabri, Armand Joulin, Laurens van der Maaten

論文地址:https://research.fb.com/publications/learning-visual-n-grams-from-web-data/

大多數圖像識別系統都是通過手動註釋的大型圖像集合進行訓練。此註釋過程繁瑣而且不能擴展。本文開發瞭一種圖像識別系統,該系統接受瞭5000萬張照片和用戶評論的訓練,無需手動註釋。該系統可以識別跨越多個單詞的對象,地標和場景,例如“金門大橋”或“自由女神像”。

視覺與語言的結合

論文:Inferring and Executing Programs for Visual Reasoning

作者:Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Judy Hoffman, Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick

論文地址:https://research.fb.com/publications/inferring-and-executing-programs-for-visual-reasoning/

本論文研究的是視覺推理問題:根據一個圖像,它的目的是回答諸如“藍盒前面的東西的形狀是什麼”的問題。它通過使用將問題轉換為簡單的計算機程序的“模塊網絡”來實現,並且使用神經網絡來實現該程序中的每個指令。本文還發佈瞭一個新的視覺推理數據集,稱為CLEVR-Human。

論文:Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning

作者:Abhishek Das, Satwik Kottur, Jos. M. F. Moura, Stefan Lee, Dhruv Batra

論文地址:https://research.fb.com/publications/learning-cooperative-visual-dialog-agents-with-deep-reinforcement-learning/

台中通馬桶價錢 本文開發瞭一個chatbot來回答關於圖像的問題。例如,你可以問這個chatbot:“那個女人的傘的顏色是什麼?”。如果圖像中有兩個女人,chabot會問:“哪個女人?”你回答:“黑頭發的人”,chatbot會告訴你:“傘是藍色的”。我們台中抽水肥推薦還沒有真正解決這個問題,但這是試圖解決這個問題的首批論文之一。

論文:Learning to Reason: End-to-End Module Networks for Visual Question Answering

作者:Ronghang Hu, Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Kate Saenko

論文地址:https://research.fb.com/publications/learning-to-reason-end-to-end-module-networks-for-visual-question-answering/

本文介紹瞭一種用於回答諸如“紫色圓柱體左邊的球的顏色是什麼”的新技術。該技術通過將問題轉換為小型計算機程序來實現。然後,程序中的每個指令由神經網絡執行。程序“生成器”和程序“執行器”都是從圖像和問題的配對中學習的。

論文:Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training

作者:Rakshith Shetty, Marcus Rohrbach, Lisa Anne Hendricks, Mario Fritz, Bernt Schiele

論文地址:https://research.fb.com/publications/speaking-the-same-language-matching-machine-to-human-captions-by-adversarial-training/

本文涉及自動生成標題的問題,即圖像的自然語言描述。主要的技術創新是,它試圖使系統產生的字幕看起來更像是人類制作的字幕。

圖像生成

論文:Unsupervised Creation of Parameterized Avatars

作者:Lior Wolf, Yaniv Taigman, Adam Polyak

論文地址:https://research.fb.com/publications/generative-collaborative-networks-for-cross-domain-configuration-extraction/

本文開發瞭一個新的系統,根據你的臉部的常規照片,生成一個像你一樣的頭像。主要技術創新是系統以“無監督”的方式進行培訓。這意味著它沒有配對的臉部圖像和相應的頭像進行訓練:它看到的是一堆臉和一堆頭像。系統學習自動找出哪些頭像對應於哪個臉。

3D 視覺

論文:Deltille Grids for Geometric Camera Calibration

作者:Hyowon Ha, Michal Perdoch, Hatem Alismail, In So Kweon, Yaser Sheikh

論文地址:https://research.fb.com/publications/deltille-grids-for-geometric-camera-calibration/

物體的三維模型被用於虛擬現實等應用中。這些模型是通過從“天頂”的角度拍攝物體制作,而不是用數百臺相機同時進行拍攝。這些相機需要進行校準,使得將所有圖像組合成對象的3D模型的系統準確地知道相機所在的位置。幾十年來,這種校準是通過拍攝標準checkerboard來完成的。本論文表明,通過使用帶有三角形場的checkerboard,可以更精確地校準攝像機。

ICCV 2017上Facebook的其他活動

Instance-Level Visual Recognition Tutorial

Talks by Georgia Gkioxari, Kaiming He, and Ross Girshick

Closing the Loop between Vision and Language Workshop

Larry Zitnick, Opening keynote

Dhruv Batra, Invited talk

Generative Adversarial Networks Tutorial

Soumith Chintala presents his GANs-in-the-wild paper

Role of Simulation in Computer Vision workshop

Devi Parikh, Invited talk

Workshop on Web-Scale Vision and Social Media

Ang Li, Invited talk on his Facebook internship project

Workshop on Computer Vision for Virtual Reality

Organized by Frank Dellaert and Richard Newcombe

COCO + Places Workshop

Team FAIR presents its competition submission

PoseTrack Challenge Workshop

Yaser Sheikh, Invited talk

Georgia Gkioxari, Rohit Girdhar, Du Tran, Lorenzo Torresani and Deva Ramanan present their challenge submission返回搜狐,查看更多



責任編輯:

聲明:本文由入駐搜狐號的作者撰寫,除搜狐官方賬號外,觀點僅代表作者本人,不代表搜狐立場。

閱讀 ()

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

一川抽水肥清理行|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運

X戰警多鏡頭行車記錄器專業網|多鏡頭行車記錄器|多鏡頭行車紀錄器比較|多鏡頭行車紀錄器推薦|多鏡頭行車紀錄器影片

arrow
arrow
    創作者介紹
    創作者 cmi862q8g0 的頭像
    cmi862q8g0

    口水的網購清單

    cmi862q8g0 發表在 痞客邦 留言(0) 人氣()