TPAMI 2024 | 計算機視覺中基于圖神經網絡和圖Transformers的方法和最新進展
本篇綜述工作已被《IEEE 模式分析與機器智能匯刊》(IEEE TPAMI)接收,作者來自三個團隊:香港大學俞益洲教授與博士生陳超奇、周洪宇,香港中文大學(深圳)韓曉光教授與博士生吳毓雙、許牧天,上海科技大學楊思蓓教授與碩士生戴啟元。
近年來,由于在圖表示學習(graph representation learning)和非網格數據(non-grid data)上的性能優勢,基于圖神經網絡(Graph Neural Networks,GNN)的方法被廣泛應用于不同問題并且顯著推動了相關領域的進步,包括但不限于數據挖掘(例如,社交網絡分析、推薦系統開發)、計算機視覺(例如,目標檢測、點云處理)和自然語言處理(例如,關系提取、序列學習)。考慮到圖神經網絡已經取得了豐碩的成果,一篇全面且詳細的綜述可以幫助相關研究人員掌握近年來計算機視覺中基于圖神經網絡的方法的進展,以及從現有論文中總結經驗和產生新的想法。可惜的是,我們發現由于圖神經網絡在計算機視覺中應用非常廣泛,現有的綜述文章往往在全面性或者時效性上存在不足,因此無法很好的幫助科研人員入門和熟悉相關領域的經典方法和最新進展。同時,如何合理地組織和呈現相關的方法和應用是一個不小的挑戰。
- 論文標題:A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective
- 論文地址:
https://arxiv.org/abs/2209.13232(預印版)
https://ieeexplore.ieee.org/document/10638815(IEEE 版)
盡管基于卷積神經網絡(CNN)的方法在處理圖像等規則網格上定義的輸入數據方面表現出色,研究人員逐漸意識到,具有不規則拓撲的視覺信息對于表示學習至關重要,但尚未得到徹底研究。與具有內在連接和節點概念的自然圖數據(如社交網絡)相比,從規則網格數據構建圖缺乏統一的原則且嚴重依賴于特定的領域知識。另一方面,某些視覺數據格式(例如點云和網格)并非在笛卡爾網格上定義的,并且涉及復雜的關系信息。因此,規則和不規則的視覺數據格式都將受益于拓撲結構和關系的探索,特別是對于具有挑戰性的任務,例如理解復雜場景、從有限的經驗中學習以及跨領域進行知識傳遞。
在計算機視覺領域,目前許多與 GNN 相關的研究都有以下兩個目標之一:(1) GNN 和 CNN 主干的混合,以及 (2) 用于表示學習的純 GNN 架構。前者通常旨在提高基于 CNN 的特征的遠程建模能力,并適用于以前使用純 CNN 架構解決的視覺任務,例如圖像分類和語義分割。后者用作某些視覺數據格式(例如點云)的特征提取器。盡管取得了豐碩的進展,但仍然沒有一篇綜述能夠系統、及時地回顧基于 GNN 的計算機視覺的發展情況。
在本文中,我們首先介紹了圖神經網絡的發展史和最新進展,包括最常用、最經典的圖神經網絡和圖 Transformers。然后,我們以任務為導向對計算機視覺中基于圖神經網絡(包括圖 Transformers)的方法和最新進展進行了全面且詳細的調研。具體來說,我們根據輸入數據的模態將圖神經網絡在計算機視覺中的應用大致劃分為五類:自然圖像(二維)、視頻、視覺 + 語言、三維數據(例如,點云)以及醫學影像。在每個類別中,我們再根據視覺任務的不同對方法和應用進一步分類。這種以任務為導向的分類法使我們能夠研究不同的基于圖神經網絡的方法是如何處理每個任務的,以及較為公平地比較這些方法在不同數據集上的性能,在內容上我們同時還涵蓋了基于 Transformers 的圖神經網絡方法。對于不同的任務,我們系統性地總結了其統一的數學表達,闡明了我們組織這些文章的邏輯關系,突出了該領域的關鍵挑戰,展示了圖神經網絡在應對這些挑戰的獨特優勢,并討論了它的局限和未來發展路線。
圖神經網絡發展史
GNN 最初以循環 GNN 的形式發展,用于從有向無環圖中提取節點表示。隨著研究的發展,GNN 逐漸擴展到更多類型的圖結構,如循環圖和無向圖。受到深度學習中 CNN 的啟發,研究人員開發了將卷積概念推廣到圖域的方法,主要包括基于頻域的方法和基于空域的方法。頻域方法依賴于圖的拉普拉斯譜來定義圖卷積,而空域方法則通過聚合節點鄰居的信息來實現圖卷積。這些方法為處理復雜的圖結構和不規則拓撲提供了有效的工具,極大地推動了 GNN 在多個領域,尤其是計算機視覺中的應用和發展。
具體來說,我們詳盡地調查了如下這些任務:
- 建立在自然圖像(二維)上的視覺任務包括 Image Classification (multi-label、few-shot、zero-shot、transfer learning),Object Detection,Semantic Segmentation,和 Scene Graph Generation。
- 建立在視頻上的視覺任務包括 Video Action Recognition,Temporal Action Localization,Multi-Object Tracking,Human Motion Prediction,和 Trajectory Prediction。
- 視覺 + 語言方向的任務包括 Visual Question Answering,Visual Grounding,Image Captioning,Image-Text Matching,和 Vision-Language Navigation。
- 建立在三維數據上的視覺任務包括 3D Representation Learning (Point Clouds、Meshes),3D Understanding (Point Cloud Segmentation、3D Object Detection、3D Visual Grounding),和 3D Generation (Point Cloud Completion、3D Data Denoising、3D Reconstruction)。
- 建立在醫學影像上的任務包括 Brain Activity Investigation,Disease Diagnosis (Brain Diseases、Chest Diseases),Anatomy Segmentation (Brain Surfaces、Vessels、etc)。
總結來說,盡管在感知領域取得了突破性的進展,如何賦予深度學習模型推理能力仍然是現代計算機視覺系統面臨的巨大挑戰。在這方面,圖神經網絡和圖 Transformers 在處理 “關系” 任務方面表現出了顯著的靈活性和優越性。為此,我們從面向任務的角度首次對計算機視覺中的圖神經網絡和圖 Transformers 進行了全面的綜述。各種經典和最新的算法根據輸入數據的模態(如圖像、視頻和點云)分為五類。通過系統地整理每個任務的方法,我們希望本綜述能夠為未來的更多進展提供啟示。通過討論關鍵的創新、局限性和潛在的研究方向,我們希望讀者能夠獲得新的見解,并朝著類似人類的視覺理解邁進一步。