OpenAI Preparedness團隊首席Aleksander Madry:機器學習模型的內部計算如何將輸入轉化為預測? 原創
考慮一個標準的ResNet50模型,該模型經過訓練用于圖像分類任務。我們是否能夠理解這個模型中的卷積濾波器如何將輸入圖像轉換為其預測的標簽?或者,GPT-3中的注意力頭如何contribute到下一個標記的預測?理解這些模型組件——包括濾波器或頭等架構“構建塊”——如何集體塑造模型行為(包括模型失?。┦抢щy的。畢竟,深度網絡在很大程度上是黑匣子——由模型組件之間高度非線性交互構成的復雜計算圖。
受到這一挑戰的啟發,解釋性工作的一個方向旨在通過表征單個組件的功能,例如視覺模型中的曲線檢測器和對象特定濾波器,或語言模型中的知識神經元和歸納頭,來闡明內部模型計算。作為這一工作方向的一部分開發的方法旨在以各種方式“放大”特定的模型行為和/或組件。
改變模型組件如何集體改變個體預測?
顯式建模模型計算
為了解決上述問題,研究人員引入了一個稱為組件建模的任務。組件建模的目標是構建一個簡單且可解釋的估算器,以了解模型的輸出如何響應于對其組件的干預或消除。直觀地說,這里的關鍵想法(如下圖所示)是,如果我們真正理解模型組件對預測的貢獻,我們應該能夠估計如果我們改變一些組件,預測將如何改變:
這項研究側重于組件建模的一種特殊“線性”情況,稱之為組件歸因。如下所示,對于給定模型預測的組件歸因首先為每個模型組件分配一個分數,然后估計消除一組組件的反事實效果,作為它們相應分數的總和:
組件歸因很簡單——它將給定的預測分解為來自每個模型組件的加法貢獻。它們也是可解釋的,因為分配給組件的“分數”表示該組件對感興趣的預測的“貢獻”(同時擺脫了模型的內部計算的復雜性)。
此外,研究人員在數據建模工作中探索了一種類似的思路——通過預測來理解,其目標是將模型行為預測為訓練數據的函數。組件模型和組件歸因可以被看作是“組件空間”中的數據模型和數據歸因(或線性數據建模)的類比,而不是“訓練數據集空間”。
通過回歸估計組件歸因(COAR)
事先不清楚組件歸因是否足夠表達深度網絡中從組件到預測的(固有的非線性)映射。然而,研究人員發現在視覺模型(例如ImageNet ViTs)和語言模型(例如Phi-2)上,實際上可以計算準確的組件歸因——即,線性性足以預測組件消除的效果!如下所示:
為了計算這些歸因(即上面的系數向量w),研究人員提出了一種簡單的方法——稱為COAR(通過回歸進行組件歸因),它將此任務轉化為標準的監督學習問題,并分兩步解決:
- 構建組件消除數據集。隨機消除隨機子集的組件,并記錄每個感興趣示例的消除本身以及模型輸出如何改變。這樣可以得到一個組件消除數據集及其對模型預測的相應效果。
- 擬合線性回歸模型。擬合一個線性模型,該模型接受“消除向量”作為輸入(編碼消除的組件的二進制向量)并預測給定示例的預測上的消除效果。該線性模型的學習權重作為組件歸因,量化了每個組件對模型預測的貢獻。
COAR歸因準確嗎?
回到在ImageNet數據集上訓練的ResNet-50模型,將這個模型視為由22,720個組件組成,每個組件對應一個卷積濾波器。能否使用COAR來預測這個模型將如何對組件消除做出響應(在這種情況下,消除對應于將給定一組濾波器的參數置零)?
為了回答這個問題,研究人員使用COAR來估計ImageNet驗證集中每個50,000個示例的組件歸因。結果是一組50,000個組件歸因—每個歸因估計每個組件對相應ImageNet示例上模型預測的貢獻。
為了確定結果的歸因是否有效,研究人員簡單地檢查組件歸因是否準確估計了(隨機地)消除模型輸出上的隨機子集的組件的效果。
例如,上圖聚焦在一個單獨的ImageNet示例上。每個點對應于一組(隨機的)模型組件。給定點的y值是消除該組件集的反事實效果(即,將相應參數設置為零);x軸是對該反事實效果的估計,由示例的組件歸因給出。隨機組件消除的基本事實和歸因估計的效果展現了高達0.70的高相關性,這意味著至少對于這個示例,組件歸因在預測模型行為方面相當不錯!
在下圖中,將其轉化為一個綜合分析。也就是說,評估了所有驗證示例中基本事實消除效果和基于歸因的估計之間的平均相關性——為了測試COAR的限制,研究人員還改變了消除的組件比例,并研究了COAR的性能變化。作為基線,研究人員將幾種“組件重要性”的概念調整到組件歸因設置中。
總的來說,研究人員發現COAR在數據集和模型中一直以很大的優勢 consistently outperforms多個歸因基線。
譯自(有刪改):https://gradientscience.org/modelcomponents-editing/
誰是Aleksander M?dry?
Aleksander M?dry是波蘭裔計算機科學家,麻省理工學院(MIT)教授,OpenAI Preparedness團隊首席科學家。Aleksander M?dry的研究涉及機器學習、優化和圖論,著重于操作化技術,使得機器學習算法能夠安全地在現實世界中部署。他工作的主要焦點之一是開發能夠處理對抗攻擊的強大而高效的算法。這一研究方向導致了一種使神經網絡更加抗對抗攻擊和剖析對抗樣本廣泛存在根源的方法的開發。他還致力于基于連續優化的方法來解決組合優化問題,例如最大流問題和二部圖匹配問題。
Aleksander M?dry在2006年和2007年分別從弗羅茨瓦夫大學獲得了計算機科學和物理學的學士學位。然后,他在MIT攻讀計算機科學博士學位,于2011年完成。他的博士論文“從圖到矩陣,再到圖:圖算法的新技術”獲得了ACM博士論文獎榮譽提名和MIT喬治·M·斯普勞爾斯獎,被評為計算機科學領域的最佳論文。隨后,他曾在微軟研究新英格蘭分部擔任博士后研究員,并在瑞士洛桑聯邦理工學院擔任教職,然后加入了麻省理工學院電氣工程和計算機科學系的教職。
Aleksander M?dry因其研究貢獻獲得了許多獎項和榮譽,包括NSF職業生涯獎。他的工作曾多次獲得諸如IEEE計算機科學基礎研究會議(FOCS)等會議的最佳論文獎。2019年,他被歐洲理論計算機科學協會授予普雷斯伯格獎。
本文轉載自公眾號AIGC最前線
