150頁「幾何深度學習」上線:用對稱性和不變性解決機器學習問題
近十年來,數據科學和機器學習領域取得了巨大的進展。借助深度學習方法,許多高維學習任務(例如計算機視覺、蛋白質折疊)在適當的計算規模下也能夠完成。雖然在高維空間中,學習通用函數是一個非常困難的問題,但大多數任務上方法不是通用的,并且物理世界的基礎低維和結構存在一些必要的預定義規律。
圖神經網絡和幾何深度學習近期的一系列進展,有希望幫助機器學習解決更加深入復雜的問題。
幾何深度學習,是從對稱性和不變性的角度對廣義機器學習問題進行幾何統一的嘗試。這些原理不僅是卷積神經網絡的突破性性能和圖神經網絡的近期成功的基礎,而且還為構建新型的、面向特定問題的歸納偏差提供了一種有原則的方法。
近日,一本名為《幾何深度學習》的新書通過可在各種應用程序中應用的幾何統一原理來揭示其中的規律性。這種「幾何統一」具有兩方面的意義:一方面,它提供了一個通用的數學框架來研究一些神經網絡架構,例如 CNN,RNN,GNN 和 Transformer。另一方面,它提供了一個建設性的程序,可以將先驗物理知識整合到神經架構中,并提供原則性的方法來構建一些新的架構。
教你如何組建機器學習架構
《幾何深度學習》(Geometric Deep Learning, Grids, Groups, Graphs, Geodesics, and Gauges)是深度學習幾何統一項目的第一版在線書,作者們表示該書自 2020 年 2 月起開始寫起,目前版本的頁數已超過了 150 頁。
該研究的四位作者 Michael M. Bronstein、Joan Bruna、Taco Cohen、Petar Veličković來自帝國理工、紐約大學、DeepMind 等研究機構。

鏈接:
https://geometricdeeplearning.com/
arXiv 論文:
https://arxiv.org/abs/2104.13478
在這本書中,研究者從對稱性,不變性和群論的角度出發,試圖提煉出「構建所有常用神經架構所需的知識」。涵蓋了諸如 CNN、GNN、Transformer 和 LSTM 之類的常用模型,同時還包括球面卷積神經網絡(Spherical CNN)、SO(3)-Transformer 和 Gauge Equivariant Mesh CNN 等新模型。
全書包括內容簡介、高位空間中的學習、幾何先驗知識、幾何域、幾何深度學習模型、存在的問題與應用、歷史觀點共 7 章內容。以下是該書目錄:


預備知識
該書作者之一,DeepMind 資深研究科學家 Petar Veličković表示:「如果你此前尚未接觸過群論知識,則我們構建的一些概念看起來會有些不太真實。
為此,你可以事先觀看一些作者之間視頻分享的內容作為前置,也許這可以使某些無法以文字準確描述的內容變得更加「生動」。
Petar Veličković在劍橋大學的分享——圖神經網絡的理論基礎:
https://www.youtube.com/watch?v=uF53xsT7mjc
Michael Bronstein 在 ICLR 2021 上的 Keynote:
https://iclr-conf.medium.com/announcing-the-iclr-2021-invited-speakers-db4aba84038a
此外,書中內容包括如下一些概念:
域:定義數據的所有「點」的集合。例如,對于圖像來說,域是所有像素的集合;對于圖來說,域是所有節點和邊的集合。注意,該集合可能是無限的或者連續的,但是將其想象為有限的可能會讓一些數學運算變得容易。
對稱群:集合Ω到Ω自身雙射的集合(g: Ω → Ω)。例如,通過將圖像上每個像素向右移動一個 slot,并不會改變圖像上的對象。
由于要求對象在進行對稱變換時保持不變,因此引入了如下屬性:
對稱操作必須是可組合的。例如,如果將球體繞 x 軸旋轉 30 度,然后繞 y 軸旋轉 60 度,并假設每次旋轉不會改變球體上的對象,那么連續使用多次變換,那么球體上的對象也沒有發生改變,即繞 x 軸旋轉 30 度,然后繞 y 軸旋轉 60 度也是一種對稱操作。通常,如果 g 和 h 是對稱操作,那么 g o h 也是對稱操作。
對稱操作必須是可逆的——如果我沒有更改底層對象,那么我必須能夠返回自己的來源(否則意味著丟失信息)。因此如果將球體順時針旋轉 30 度,那么是可以通過逆時針旋轉 30 度來「撤消」原動作的。如果 g 是對稱的,則 g ^-1 必須存在(并且也是對稱的),這就使得 g o g ^-1 = id (恒等)。
保持域不變的恒等函數(id)也必須是對稱的。
所有這些屬性相加,你就會發現所有對稱集與組合運算符(o)一起組成了一個 group,這是在書中廣泛使用的數學結構。

在機器學習社區中,對稱性的重要性早已被人們認可,尤其是在模式識別和計算機視覺應用中,有關等變特征檢測的早期工作可以追溯到 Shun’ichi Amari 和 Reiner Lenz 在上個世紀的研究。在神經網絡的領域中,Marvin Minsky 和 Seymour Papert 提出的感知器的群不變性定理對(單層)感知器學習不變性的能力進行了基本界定。這是其后多層架構研究的起點,最終引向了深度學習。