成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

俯視LLM的靈魂:一文搞懂稀疏自動編碼器 原創 精華

發布于 2024-6-27 15:06
瀏覽
0收藏

俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區

俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區

稀疏自動編碼器 (SAE) 最近因機器學習模型的可解釋性而變得流行(盡管SAE自 1997 年以來一直存在)。機器學習模型正在使LLMs變得越來越強大和有用,但它們仍然是黑匣子,如何看穿LLM的靈魂,且若能理解它們是如何工作的,那對于大模型的進化有足夠的幫助和啟示意義。

使用SAE,可以開始將模型的計算分解為可理解的組件。本文將簡介的介紹下SAE的工作原理,然后讀者可以回頭去溫習“大模型的靈魂解讀:Anthropic AI的Claude3 Sonnet可解釋性研究”,應該更加深有感觸。

1.自動編碼器

神經網絡最自然的組成部分是單個神經元。單個神經元并不對應于單個概念。語言模型中的任何概念,例如學術引用、英語對話、HTTP 求和韓語文本都是神經單元的疊加,或者換句話說是神經元的組合表示。

產生這種現象的原因可能是因為世界上存在的很多變量是稀疏的。例如,一個名人的出生地可能不到十億分之一的訓練Tokens,LLMs在訓練的過程中掌握了這點,加上訓練的Token遠遠大于神經元的數量,因此自然而然就會進行疊加表示。

稀疏自動編碼器最近作為一種將神經網絡分解為可理解組件的技術而廣受歡迎。SAE 的靈感來自神經科學中的稀疏編碼假說。有趣的是,SAE是解釋人工神經網絡的最有前途的工具之一。SAE 類似于標準自動編碼器。

常規自動編碼器是一種神經網絡,旨在壓縮然后重建其輸入數據。例如,它可以接收一個 1000 維向量(1000個數字的列表)作為輸入,通過編碼器層饋送該輸入以將輸入壓縮為512維向量,然后通過解碼器饋送壓縮編碼表示以產生1000維輸出向量。重建通常是不完美的,因為壓縮過程會有信息損失。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


稀疏自動編碼器將輸入向量轉換為中間向量,該中間向量的維度可以高于、等于或低于輸入。當應用于LLM時,中間向量的維度通常大于輸入的維度。在這種情況下,如果沒有額外的約束,任務就很簡單。

SAE可以使用單位矩陣完美地重建輸入,作為額外的約束,在訓練過程中的損失函數中添加了稀疏性懲罰,這會引導SAE創建稀疏中間向量。例如,可以將1000維輸入擴展為200維編碼表示向量,并且可以訓練SAE使其在編碼表示中僅包含約20個非零元素。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


上圖中黑色的方塊代表著稀疏的激活值

將SAE應用于神經網絡中的中間激活,神經網絡可以由許多層組成。在前向傳遞期間,每層內部和之間都有中間激活。例如,GPT-3有96 層。在前向傳遞期間,輸入中的每個標記都有一個12,288 維向量(包含 12,288 個數字的列表),該標記從一層傳遞到另一層。此向量累積了模型在每一層處理下一個Token時用于預測下一個Token的所有信息,但它是不透明的,很難理解其中包含哪些信息。


若使用SAE來理解這種中間激活的方法如下:SAE基本上是一個矩陣 -> ReLU 激活 -> 矩陣。例如,如果GPT-3 SAE的擴展因子為4,則輸入激活為12,288維,SAE的編碼表示為49,512 維 (12,288 x 4)。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


第一個矩陣是形狀的編碼器矩陣(12,288,49,512),第二個矩陣是形狀的解碼器矩陣(49,512,12,288)。通過將GPT的激活與編碼器相乘并應用 ReLU,我們生成了一個 49,512 維的SAE編碼表示,該表示是稀疏的,因為 SAE 的損失函數激勵了稀疏性。


通常的目標是在SAE的表示中少于 100個數字為非零。通過將SAE的表示與解碼器相乘,我們產生了一個12,288 維重建的模型激活。這種重建并不完全匹配原始的 GPT 激活,畢竟這么一折騰,信息會有所丟失。


現在只在模型中的一個位置訓練單個SAE。例如,可以在第25層和第26層之間的中間激活上訓練單個 SAE。為了分析 GPT-3 中所有96層的輸出中包含的信息,可以訓練 96 個單獨的SAE——每層一個。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


上圖說明了這個過程,是拿激活值出來訓練。原激活值通過與編碼矩陣相乘,之后通過激活函數,然后得到稀疏表示,最后通過解碼矩陣還原。


如果還想分析每層中的各種中間激活,這將需要數百個SAE。對這些SAE 的訓練數據來自通過 GPT 模型提供各種文本并收集每個選定位置的中間激活(樣本)。

2.功能

SAE表示的每個活動數字都對應于可以理解的組件。假設12,288 維向量對 GPT-3 [1.5, 0.2, -1.2, ...] 來說意味著“橋”。SAE 解碼器是形狀矩陣 (49,512, 12,288),但我們也可以將其視為49,512個向量的集合,每個向量都是形狀(1, 12,288)。如果SAE解碼器向量519學習了與GPT-3相同的“橋”概念,則解碼器向量將近似等 [1.5, 0.2, -1.2, ...] 。每當 SAE 激活的元素 519不為零時,就相當于對應“橋”的向量。上面描述了SAE的工作原理,用專業的術語來講就是“解碼器對應于殘差流空間中特征的線性表示”。

特征519代表什么?目前的做法是只看那些能最大限度地激活功能的輸入,并對其可解釋性做出直覺反應。每個功能激活的輸入通常是可解釋的。例如,??Anthropic在Claude Sonnet??上訓練了SAE,并發現了單獨的 SAE功能,這些功能可以在與金門大橋、神經科學和熱門旅游景點相關的文本和圖像上激活。其他功能在不太明顯的概念上激活。

這里值得一提的是,在大量的激活值上面進行訓練,通過稀疏矩陣的確可以明顯看到一些特征,因為這個向量大部分的數值都為0了。通過研究Decoder矩陣就可以研究大模型在學習某個知識的時候,到底是如何融會貫通的。

如果存在基于特定主題激活的神經元,那么激活某些神經元是否會強制生成這些主題?回想一下AutoEncoder結構,雖然同時擁有編碼器和解碼器,但在訓練后,只有編碼器用于將激活向量轉換為字典向量。是否可以使用解碼器從所選特征重建激活向量?換句話說,能操縱神經元嗎?答案可以用 Anthropic 的一句話來概括:“稀疏的自編碼器功能可用于干預和控制變壓器的生成?!?nbsp;下圖單獨操縱神經元以實現不同的結果。

俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


由于 SAE 解碼器向量與LLMs中間激活的形狀匹配,因此可以通過簡單地將解碼器向量添加到模型激活中來執行因果干預。這里通過將解碼器向量乘以比例因子來縮放干預的強度。當人類學研究人員將金門大橋SAE解碼器向量添加到大模型的激活中時,大模型不得不每次回復中都提到金門大橋。

如何評估SAE,目前存在L0和Loss Recovered兩個指標 。L0是SAE編碼中非零元素的平均數。Loss Recovered是用重建的激活替換GPT或者其他大模型的原始激活并測量不完美重建的額外損失。這兩個指標之間通常存在蹺蹺板效應,需要進行權衡,。畢竟SAE會選擇降低重建精度以增加稀疏性。

許多新的SAE方法,例如Deepmind的門控SAE和OpenAI的TopK SAE,都修改了稀疏性懲罰以改善這種權衡。

下圖來自 Google Deepmind的Gated SAE 論文,它引入了門控稀疏自動編碼器 (Gated SAE),它比使用流行方法的訓練實現了帕累托改進。在 SAE 中,用于鼓勵稀疏性的 L1 懲罰引入了許多不良偏差,例如收縮 - 系統性地低估特征激活。門控 SAE 分離 “確定使用哪些方向”和“估計這些方向大小的功能”。這使得在典型的超參數范圍內解決了收縮問題,具有類似的可解釋性,并且只需要一半的觸發特征即可實現相當的重建保真度。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區

門控SAE的紅線更靠近圖表的左上角,這意味著在這種權衡中表現更好。

俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


3.應用


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區


上圖展示一種研究方法,a) 對語言模型的內部激活進行采樣,無論是殘差流、MLP 子層還是注意頭子層;b) 使用這些激活來訓練神經網絡,稀疏自動編碼器,其權重形成特征字典<注意是Decoder Matrix?。?gt;;c) 使用諸如 OpenAI 的自動解釋性分數之類的技術來解釋生成的特征。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區



上圖以“括號”為例顯示每個特征之間的關系,同時每個特征上面都有人工解釋。邊緣厚度表示連續殘差流層中字典特征之間的因果關系強度,以消融為衡量標準。許多跨層的字典特征具有相似的解釋,并且通常指向激活空間中的相似方向,以余弦相似度為衡量標準。

本文轉載自??魯班模錘??,作者: 龐德公 

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2024-7-1 12:55:17修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 黑人精品欧美一区二区蜜桃 | 91精品国产美女在线观看 | 北条麻妃一区二区三区在线观看 | 婷婷福利视频导航 | 国产欧美二区 | 亚洲自拍偷拍视频 | 欧美激情在线观看一区二区三区 | 国产精品久久久久久久久久免费看 | 男女羞羞免费视频 | 日本亚洲精品 | 国产农村一级国产农村 | 精品成人在线 | av男人的天堂av | 欧美日韩成人影院 | 国产精品久久久久久久久久 | 黄色免费av | 在线观看国产视频 | 黄片毛片| www.黄网| 99精品视频免费观看 | 婷婷福利 | 91精品国产91 | 欧美精品一区二区三区在线四季 | 成人精品一区二区三区中文字幕 | 蜜桃传媒av| 久久久久久国产 | 亚洲精品国产偷自在线观看 | 亚洲一区二区三区桃乃木香奈 | 午夜影视免费片在线观看 | 在线电影日韩 | 美女三区 | 久久国产精品网站 | 99久久精品国产一区二区三区 | 亚洲视频在线观看 | 伊人成人免费视频 | 天天澡天天操 | 久久精品亚洲欧美日韩久久 | 久久99视频 | 国产一区二区av | 午夜专区 | 国产自产c区|