深度學習后圖靈獎得主Bengio研究核心是什么?因果表示學習
在近日發表的一篇論文中,圖靈獎得主 Yoshua Bengio 等詳細介紹了其團隊當前的研究重心:將機器學習與因果推理相結合的因果表示學習。研究者不僅全面回顧了因果推理的基礎概念,并闡釋了其與機器學習的融合以及對機器學習的深遠影響。該論文已被《Proceedings of the IEEE》期刊接收。
一直以來機器學習和因果推理是兩個相對獨立的研究方向,各有優缺點。
但在過去數年,兩者開始互相借鑒,推進彼此的發展。如機器學習領域的蓬勃發展促進了因果推理領域的發展。采用決策樹、集成方法、深層神經網絡等強大的機器學習方法,可以更準確地估計潛在結果。在機器之心 2018 年的報道文章中,圖靈獎得主、因果關系模型倡導者之一 Judea Pearl 也探討了當前機器學習理論的局限性以及來自因果推理的七個啟發。
于是,近年來,將兩者結合起來的因果表示學習(Causal Representation Learning)吸引了越來越多的關注,成為人類邁向 Human Level AI 的潛在方向。
機器之心曾在 2020 年初,精選了幾篇因果表示學習領域的最新文獻,細致分析了不同方法的基本架構,幫助感興趣的讀者了解因果學習與機器學習可結合的方向和可能。(參考:反事實推理、特征分離,「因果表示學習」的最新研究都在講什么?)
今天,我們再為大家推薦一篇因果表示學習論文:Yoshua Bengio 團隊發表的《Towards Causal Representation Learning》,該論文已被《Proceedings of the IEEE》期刊接收。
在 2020 年底的一場講座中,Bengio 稱這是他們當前研究項目的核心。

論文鏈接:https://arxiv.org/pdf/2102.11107.pdf
Yoshua Bengio 等人在這篇論文中回顧了因果推理的基礎概念,并將其與機器學習的關鍵開放性問題聯系起來,如遷移與泛化,進而分析因果推理可能對機器學習研究做出的貢獻。反過來看也是如此:大多數因果研究的前提是因果變量。因此目前 AI 與因果領域的核心問題是因果表示學習,即基于低級觀測值發現高級因果變量。最后,該論文描繪了因果對機器學習的影響,并提出了該交叉領域的核心研究方向。
這篇論文的主要貢獻如下:
- 論文第二章介紹了物理系統中因果建模的不同層級,第三章展示了因果模型與統計模型的區別。這里不僅探討了建模能力,還討論了所涉及的假設與挑戰。
- 論文第四章將獨立因果機制(Independent Causal Mechanisms,ICM)原則擴展為基于數據估計因果關系的核心組件,即將稀疏機制轉移(Sparse Mechanism Shift)假設作為 ICM 原則的結果,并探討它對學習因果模型的影響。
- 論文第五章回顧了現有基于恰當描述子(或特征)學習因果關系的方法,覆蓋經典方法和基于深度神經網絡的現代方法,主要聚焦促成因果發現的底層原則。
- 論文第六章探討了如何基于因果表示數據學習有用的模型,以及從因果角度看機器學習問題。
- 論文第七章分析了因果對實際機器學習的影響。研究者使用因果語言重新詮釋了魯棒性和泛化,以及半監督學習、自監督學習、數據增強和預訓練等常見技術。研究者還探討了因果與機器學習在科學應用中的交叉領域,并思考如何結合二者的優勢,創建更通用的人工智能。
因果建模的層級
獨立同分布設置下的預測
統計模型是對現實的粗淺描述,因為它們只需建模關聯。對于給定的輸入樣本 X 和目標標簽 Y,我們可能會想近似 P(Y |X) 以回答如下問題:「該圖像包含狗的概率是多少?」或者「在給定診斷測量指標(如血壓)下,病人心臟衰竭的概率是多少?」。在合適的假設下,這些問題可以通過基于 P(X, Y) 觀察足量的獨立同分布(i.i.d.)數據來得到答案。
分布偏移下的預測
干預式問題(Interventional question)的挑戰性要比預測更高,因為它們所涉及的行為超出了統計學習獨立同分布設置。干預(intervention)可能影響因果變量子集的值及其關系。例如「增加一個國家中鸛鳥的數量能否促進人類生育率的增長?」、「如果煙草被更多地添加了社會污名化色彩,抽煙的人是否會減少?」
回答反事實問題
反事實問題需要對事情的發生原因進行推理,在事情發生后設想不同行為的后果,決定哪些行為可以達到期望的結果。回答反事實問題要比回答干預式問題更難。但是,這對于 AI 而言或許是關鍵挑戰,因為智能體能從想象行為的后果和了解哪些行為帶來特定結果中獲益。
數據的本質:觀測、干預、(非)結構化
數據格式在推斷關系類型中發揮重大作用。我們可以辨別數據模態的兩軸:觀測數據 vs 干預數據,手動工程數據 vs 原始(非結構化)感知輸入。
觀測與干預數據:人們常常假設但很少嚴格得到的一種極端數據格式是觀測獨立同分布數據,其每個數據點均獨立采樣自相同的分布。
手動工程數據與原始數據:在經典 AI 中,數據常被假設成可結構化為高級和語義有意義的變量,這可能部分對應于底層圖的因果變量。
因果模型與推理
這部分主要介紹統計建模與因果建模的區別,并用形式化語言介紹了干預與分布變化。
獨立同分布數據驅動的方法
對于獨立同分布數據,強大的泛一致性(universal consistency)可以確保學習算法收斂至最低風險。這類算法確實存在,例如最近鄰分類器、支持向量機和神經網絡。但是,目前的機器學習方法通常在面對不符合獨立同分布假設的問題時性能較差,而這類問題對人類而言輕而易舉。
Reichenbach 原則:從統計學到因果關系
Reichenbach [198] 清晰地描述了因果與統計相關性之間的聯系:

X 與 Y 一致的情況屬于特例。在沒有額外假設的情況下,我們無法利用觀測數據區分這些情況。此時,因果模型要比統計模型包含更多信息。
如果只有兩個觀測值,則因果結構發現會很難,但當觀測值數量增多后,事情反而容易多了。原因在于,這種情況下存在多個由因果結構傳達的非平凡條件獨立性。它們將 Reichenbach 原則泛化,并且可以用因果圖或結構因果模型的語言進行描述,將概率圖模型與干預概念融合在一起。
結構因果模型(SCM)
SCM 考慮與有向無環圖(directed acyclic graph, DAG)的頂點相關的一組觀測值(或變量)X_1, . . . , X_n。該研究假設每個觀測值根據以下公式得出:

從數學角度講,觀測值也是隨機值。直觀來看,我們可以把獨立噪聲理解為在圖上擴散的「信息探頭」(就像在社交網絡上擴散的流言的獨立元素)。這當然并不只是兩個觀測值,因為任何非平凡條件獨立語句都要求至少三個變量。
統計模型、因果圖模型與 SCM 的區別
下圖 1 展示了統計模型與因果模型之間的差異。
統計模型可以通過圖模型來定義,即帶圖的概率分布。如果圖的邊是因果性的,則該圖模型為因果模型(這時,該圖即為「因果圖」)。結構因果模型由一組因果變量和一組結構方程構成,這些方程基于噪聲變量 U_i 分布。

獨立因果機制
獨立性概念包含兩個方面:一個與影響有關,一個與信息相關。在因果研究歷史中,不變、自主和獨立的機制以多種面目出現。例如,Haavelmo [99] 的早期工作假設改變 structural assignment 的其中一個,會使其他保持不變;Hoover [111] 介紹了不變準則:真正的因果序是在恰當干預下的不變性;Aldrich [4] 探討了這些思想在經濟學中的歷史發展;Pearl [183] 詳細探討了自主性(autonomy),認為當其他機制服從外部影響時,因果機制能夠保持不變。
該研究將任意現實世界分布視為因果機制的產物。此類分布的變化通常是由至少一個因果機制的變化導致。根據 ICM 原則,研究者得出了以下假設:

在 ICM 原則中,研究者表述了兩個機制(形式化為條件分布)的獨立性意味著這兩個條件分布不應互相影響。后者可被理解為要求獨立干預。
因果發現與機器學習
根據 SMS 假設,很多因果結構被認為需要保持不變。所以,分布偏移(如在不同「環境或語境」中觀察一個系統)能夠為確定因果結構提供很大的幫助。這些語境可以來自干預、不穩定時間序列或者多視圖。同樣地,這些語境可以被解讀為不同的任務,從而與元學習產生關聯。
傳統的因果發現和推理假設單元(unit)是由因果圖連接的隨機變量。但是,真實世界的觀測結果最初往往并未結構化為這些單元,例如圖像中的物體。因此,因果表示學習的出現試圖從數據中學習到這些變量,正如超越了符號 AI 的機器學習不要求算法操作的符號預先給定一樣。基于此,研究者試圖將隨機變量 S_1, …, S_n 與觀測值連接起來,公式如下:

其中 G 是非線性函數。下圖 2 展示了一個示例,其中高維觀測是對因果系統狀態進行查看的結果,然后利用神經網絡對其進行處理,以提取在多種任務上有用的高級變量。

為了結合結構因果建模和表示學習,我們應努力將 SCM 嵌入到更大的機器學習模型中,這些模型的輸入和輸出也許呈現高維和非結構特點,但其內部工作至少部分由 SCM 控制(可使用神經網絡對其進行參數化)。
研究者在下圖 3 中展示了一個可視化示例,其中恰當因果變量的變化很稀疏(移動手指導致手指和方塊位置發生變化),但在像素空間等其他表示中變化則很稠密(手指和方塊的移動導致很多像素值發生變化)。

研究者從因果表示學習的角度討論了現代機器學習面臨的三個問題,分別是解耦表示學習、可遷移機制學習以及干預式世界模型和推理學習。
因果推理對機器學習的影響
上文所有討論都需要一種不依賴常見 i.i.d. 假設的學習范式。研究者希望做出一種較弱的假設:應用模型的數據可能來自不同的分布,但涉及的因果機制(大多)相同。
半監督學習(SSL)
假設潛在因果圖為 X → Y,并且同時想要學習映射 X → Y,則這種情況的因果因式分解如下:

從 SSL 的角度來看,后續發展包括進一步的理論分析和條件式 SSL。將 SSL 視為利用邊際 P(X) 和非因果條件式 P(Y |X) 之間的依賴性,這一觀點與驗證 SSL 合理性的常見假設一致。
此外,SSL 領域的一些理論結果使用因果圖中眾所周知的假設(即使這些假設沒有提及因果關系):協同訓練理論陳述了無標注數據的可學習性,并且依賴預測器基于給定標簽有條件獨立的假設。我們通常期望該預測器(僅)由給定標簽引起,即反因果設置。
對抗脆弱性
現在假設我們處在因果設置中,其中因果生成模型可因式分解為獨立的組件,組件之一(本質上)是分類函數。因此,我們或許會期望,如果預測器近似具備固有可遷移性和魯棒性的因果機制,則對抗樣本應該更難找到。
最近的工作支持了這種觀點:對抗攻擊的一種潛在防御方法通過建模因果生成方向來解決反因果分類問題,這種方法在視覺領域中被稱為合成式分析(analysis by synthesis)。
魯棒性和強泛化性
為了學習一個魯棒的預測器,我們應該擁有一個環境分布的子集

,并求解

在實踐中,求解公式 (18) 需要指定一個具有干預相關集合的因果模型。如果觀測環境集合 ε 與可能的環境集合 Ρ_ɡ不一致,則我們將得到額外的估計誤差,在最壞的情況下,該估計誤差可能會任意大。
預訓練、數據增強與自監督
學習用于解決 (18) min-max 優化問題的預測模型難度較高。該研究將機器學習中的多個常見技術解釋為近似 (18) 的方法。第一個方法是豐富訓練集的分布;第二個方法通常與前一個結合使用,即依賴數據增強來增加數據多樣性;第三個方法是依靠自監督學習 P(X)。
一個有趣的研究方向是將所有這些技術結合起來,即基于來自多個模擬環境的數據進行大規模訓練、數據增強、自監督和魯棒性微調。
強化學習
相比機器學習主流研究,強化學習 (RL) 更接近因果研究,因為它有時能夠高效地直接估計 do-probabilities。但是,在離策略學習設置下,尤其是批(或觀測)設置下,因果問題變得細微。應用于強化學習的因果學習可以分為兩個方面:因果歸納和因果推理。
強化學習設置下的因果歸納與經典因果學習設置下所面臨的挑戰大有不同,因為因果變量通常是給定的。但是,越來越多的證據表明恰當環境結構化表示的有效性。例如:
- 世界模型;
- 泛化、魯棒性與快速遷移;
- 反事實;
- 離線強化學習
科學應用
當機器學習應用于自然科學領域時,一個基本的問題是:我們可以在多大程度上用機器學習來補充對物理系統的理解。一個有意思的方向是使用神經網絡進行物理仿真,它與手工設計的模擬器相比效率要高得多。另一方面,缺乏系統的實驗條件可能會在醫療等應用領域遭遇挑戰。
因果關系在幫助理解醫學現象方面具有巨大的潛力。在新冠疫情期間,因果中介分析(causal mediation analysis)有助于,在觀察到辛普森悖論的教科書式示例時,真正查出不同因素對病死率的影響。
科學應用的另一個示例是天文學,研究者們使用因果模型在儀器混淆的情況下識別系外行星。
多任務學習與持續學習
多任務學習是指構建一個可以在不同環境中解決多個任務的系統。這些任務通常具有一些共同的特征。通過學習跨任務的相似性,系統在遇到新任務時可以更有效地利用從先前任務中獲得的知識。
在這一方面,我們顯然已經走了很長一段路,且沒有明確地將多任務問題視為因果問題。在海量數據和算力的推動下,人工智能在廣泛的應用領域里取得了顯著的進步。這也讓人們產生了一個問題:「為什么我們不能直接訓練一個巨大的模型來學習環境動態(如強化學習中的設定),使其包含所有可能的干預呢?」畢竟,分布式表示可以泛化至未見樣本,如果基于大量干預進行訓練,則我們可能會得到一個在大量干預之間實現良好泛化的大型神經網絡。
要這么做的話,首先如果數據的多樣性不夠,則最糟糕的情況是未見分布偏移造成的誤差仍然可能很高。此外,如果我們擁有一個能夠成功應對特定環境中所有干預的模型,則我們可能希望在具備相似動態的不同環境中使用它,盡管不一定動態完全相同。
本質上,i.i.d. 模式識別只是一種數學抽象,因果關系對于大多數形式的 animate learning 而言可能是必不可少的。然而直到現在,機器學習仍忽略對因果關系的完整集成,該研究認為機器學習會從集成因果概念中獲得收益。研究者認為,將當前的深度學習方法與因果關系的工具和思想結合起來,可能是邁向通用 AI 系統的必經之路。