分解大模型的神經元!Claude團隊最新研究火了,網友:打開黑盒
神經網絡的不可解釋性,一直是AI領域的“老大難”問題。
但現在,我們似乎取得了一絲進展——
ChatGPT最強競對Claude背后的公司Anthropic,利用字典學習成功將大約500個神經元分解成了約4000個可解釋特征。
圖片
具體而言,神經元具有不可解釋性,但經過這一分解,Anthropic發現每一個特征都代表了不同的含義,比如有的分管DNA序列,有的則表示HTTP請求、法律文本等等,也就是具備了可解釋性。
圖片
而通過人為地刺激其中任一特征,就能引導模型給出我們預期之內的輸出。
比如開啟DNA特征就能使模型輸出DNA,開啟阿拉伯文字特征就讓模型輸出阿拉伯文字。
圖片
Anthropic激動地表示:
他們這一方法很可能克服AI不可解釋性這一巨大障礙。
而一旦我們能夠了解語言模型的工作原理,就能很容易地判斷一個模型是否安全,從而決定它是否應該被社會和企業所采用。
圖片
具體來看。
用字典學習分解語言模型
首先,光針對語言模型來說,它的不可解釋性主要體現在網絡中的大多數神經元都是“多語義的”。
即它們可以對多個不相關的事物進行響應。
例如,一個小型語言模型中的某個神經元會同時對學術引文、英語對話、HTTP請求、韓語文字等不同內容表現出強烈的激活狀態。
圖片
而這會阻礙我們了解神經網絡每一小部分的具體功能和交互過程,從而無法對整個網絡的行為進行推斷。
那么,是什么原因造成了多語義性這一特征?
早在去年,Anthropic就推測其中一個潛在的因素是“疊加”(superposition)。
這指的是模型將許多不相關的概念全部壓縮到一個少量神經元中的操作。
圖片
同時,Anthropic也指出,字典學習——就是提取事物最本質的特征,最終讓我們像查字典一樣獲取新知識,是解決這一問題的辦法。
在此之前,他們已提出了一個疊加玩具模型,并證明:
如果一個對模型有用的特征集在訓練數據中是稀疏的,那么該神經網絡在訓練過程中可以自然地產生疊加。
基于該玩具模型,他們提出了三種策略來找到一組稀疏且可解釋的特征:一是創建沒有疊加的模型,然后通過鼓勵激活稀疏性;
二是使用字典學習在表現出疊加的模型中找到超完備的特征基礎;
三是將前兩種方法混合使用。
經過實驗證明,方法一不足以杜絕多語義性,方法二則存在嚴重的過擬合問題。
于是在此,團隊又采用了一種稱為稀疏自動編碼器的弱字典學習算法。
它能夠從經過訓練的模型生成學習特征,提供比模型神經元本身更單一語義的分析單元。
總的來說,該算法建立在大量先前的成果之上,尤其是在神經網絡激活上使用字典學習的相關方法,以及解耦(disentanglement)相關的內容。
最終所得編碼器在從疊加中提取可解釋性特征方面取得了“令人信服的成功”。
具體來說,Anthropic采用一個具有512個神經元的MLP單層transformer,通過在具有80億個數據點的MLP激活上訓練稀疏自動編碼器,最終將MLP激活分解為相對可解釋的特征,擴展因子范圍可以從1x(512個特征)增長到256x(131072個特征)。
Anthropic團隊將他們得到的可解釋性分析全部集中在一個稱為A/1的運行中,共包含4096個特征,每個特征都注明了含義,它們可以按照預期被人工激活。
下面是它們的可視化圖表:
圖片
集成長篇報告發布,7個關鍵結論
現在,Anthropic將以上全部成果以報告的形式發布。
報告題目為《邁向單義性:通過字典學習分解語言模型》(Towards Monosemanticity: Decomposing Language Models With Dictionary Learning)。
篇幅非常長,共分為四部分,分別為:
- 問題設置,闡述研究動機,以及他們訓練的transformer和稀疏自動編碼器。
- 特征詳細調查,即“存在性證明”,證明他們發現的特征確實是功能上特定的因果單元。
- 全局分析,表明所得特征是可解釋的,并且它們能夠解釋MLP層的重要部分。
- 現象分析,描述特征的幾個屬性,包括特征分割性、普遍性等,以及它們如何形成一個有趣的、類似“有限狀態自動機”的系統。
總的來看,關鍵結論一共有7個:
1、我們能夠用稀疏自動編碼器提取相對單一語義的特征,但大多數學習到的特征都是相對可解釋的。
2、稀疏自動編碼器產生可解釋的特征,在神經元基礎中基本是不可見的。
3、稀疏自動編碼器功能可用于干預和引導transformer的生成。
例如,激活Base64特征會導致模型生成Base64文本,激活阿拉伯文字特征會生成阿拉伯文本。
4、稀疏自動編碼器產生相對通用的特征。特征彼此之間的相似性比它們與自己模型神經元之間的相似度更高(對應“普遍性”一節)。
5、當我們增加自動編碼器的大小時,特征似乎會“分裂”。比如一個小型字典中的Base64特征在較大的字典中會分成三個,每個都具有更微妙但仍可解釋的含義(對應“特征分割性”一節)。
6、僅512個神經元就可以代表數萬個特征。
7、特征可以在類似“有限狀態自動機”的系統中實現連接,從而完成復雜的行為(比如生成HTML功能)。
圖片
One More Thing
在評論區,有網友評價:
神經元就像一個神秘的盒子,Anthropic這項工作就相當于研究如何偷看盒子中的內容。
圖片
顯然,這項工作還只是一個開頭——
Anthropic同時還在加緊招聘可解釋性相關的研究員和工程師。
圖片
點開來看,薪資在25萬美元(約180萬元)-52萬美元之間,研究內容跟如上報告息息相關。
報告鏈接: https://transformer-circuits.pub/2023/monosemantic-features/index.html
參考鏈接:https://twitter.com/anthropicai/status/1709986949711200722