從黑箱到透明工廠:Anthropic用回路追蹤技術給LLM裝上思維監控屏? 原創
本文旨在介紹利用歸因圖技術對大型語言模型的計算回路進行逆向工程,目的是試圖徹底搞清大型語言模型的決策過程。
引言
多年來,基于Transformer的大型語言模型(LLM)在從簡單的信息檢索系統到能夠進行編碼、寫作、開展研究的復雜智能體等一系列任務上取得了長足的進步。然而,盡管這些模型功能強大,但它們在很大程度上仍然是黑匣子。給定輸入,它們可以完成任務,但我們缺乏直觀的方法來理解任務的具體完成方式。
LLM旨在預測統計上最佳的下一個單詞/標記。但是,它們是否只專注于預測下一個標記,還是會提前規劃?例如,當我們要求模型寫一首詩時,它是一次生成一個單詞,還是在輸出單詞之前預測押韻模式?或者,當我們被問及一些基本的推理問題,例如達拉斯所在的州首府是什么?它們通常會產生看起來像是一連串推理的結果,但模型真的運用了這些推理嗎?我們無法洞察模型的內部思維過程。要理解LLM,我們需要追溯其底層邏輯。
對大型語言模型(LLM)內部計算的研究屬于“機械可解釋性”領域,旨在揭示模型的計算回路。Anthropic是致力于可解釋性研究的領先人工智能公司之一。2025年3月,他們發表了一篇題為《??回路追蹤:揭示語言模型中的計算圖?》的論文,旨在解決回路追蹤問題。?
本文旨在解釋他們的論文工作背后的核心思想,并為理解LLM中的回路追蹤奠定基礎。
LLM中的回路是什么?
在定義語言模型中的“回路”之前,我們首先需要了解LLM的內部結構。它是一個基于Transformer架構的神經網絡;因此,將神經元視為基本計算單元,并將其跨層激活模式解釋為模型的計算回路,這似乎是顯而易見的。
然而,論文《??邁向單義性??》表明,僅僅追蹤神經元的激活并不能清楚地理解這些神經元被激活的原因。這是因為單個神經元通常是多義的,它們會對一系列不相關的概念做出反應。?
此論文進一步表明,神經元由更基本的單元(稱為特征)組成,這些單元能夠捕獲更多可解釋的信息。事實上,一個神經元可以被看作是多個特征的組合。因此,我們的目標是追蹤特征激活,而不是追蹤神經元激活,也就是驅動模型輸出的實際意義單元。
這樣,我們可以將回路定義為模型用來將給定輸入轉換為輸出的特征激活和連接序列。
現在,我們知道了我們在尋找什么。接下來,讓我們更深入地了解一下基于Transformer的大型語言模型的基本架構。
技術架構
目前,我們已經確定需要追蹤特征激活而不是神經元激活。為了實現這一點,我們需要將現有LLM模型的神經元轉換為特征,即構建一個以特征形式表示計算的替代模型。
在深入探討這個替代模型是如何構建的之前,我們先簡單回顧一下基于Transformer的大型語言模型的架構。
下圖展示了基于Transformer的語言模型的運作方式。其思路是,使用嵌入將輸入轉換為標記(token)。這些標記被傳遞到注意力模塊,該模塊計算標記之間的關系。然后,每個標記被傳遞到多層感知器(MLP)模塊,該模塊使用非線性激活函數和線性變換進一步細化標記。在模型生成最終輸出之前,此過程會在多層中重復進行。
本圖片由作者本人繪制
既然我們已經闡述了基于Transformer的LLM的結構,接下來我們來看看什么是轉碼器。作者使用了一個“轉碼器”來開發替換模型。
轉碼器
轉碼器本身是一種神經網絡(通常比LLM的維度高得多),旨在用更易于解釋、功能等效的組件(特征)替換轉換器模型中的MLP塊。
本圖片由作者本人繪制
它分三個階段處理來自注意力模塊的標記:編碼、稀疏激活和解碼。實際上,它將輸入縮放到更高維空間,應用激活以強制模型僅激活稀疏特征,然后在解碼階段將輸出壓縮回原始維度。
本圖片由作者本人繪制
在對基于轉換器的LLM和轉碼器有了個基本了解之后,讓我們看看如何使用轉碼器來構建替換模型。
構建替代模型
如前所述,Transformer模塊通常由兩個主要組件組成:注意力模塊和MLP模塊(前饋網絡)。為了構建替換模型,需要將原始Transformer模型中的MLP模塊替換為轉碼器。這種集成是無縫的,因為轉碼器經過訓練可以模擬原始MLP的輸出,同時通過稀疏和模塊化特征公開其內部計算。
雖然標準轉碼器在單個Transformer層中訓練以模仿MLP行為,但本文作者使用了跨層轉碼器(CLT),它可以捕獲跨多個層級的多個轉碼器塊的組合效應。這一點非常重要,因為它使我們能夠追蹤某個特征是否分布在多個層級上,而這對于回路追蹤至關重要。
下圖展示了如何使用跨層轉碼器(CLT)構建替換模型。第一層的轉碼器輸出有助于構建所有上層模型的MLP等效輸出,直至最后。
本圖片由作者本人繪制
提示:下圖來自本文開始處的論文,展示了如何構建替換模型。它是利用特征替換原始模型的神經元。
本圖片的出處是??這里??
現在,我們了解了替換模型的架構。接下來,讓我們看看如何在替換模型的計算路徑上構建可解釋的表示。
模型計算的可解釋呈現:歸因圖
為了構建模型計算路徑的可解釋表示,我們從模型的輸出特征出發,逆向追溯特征網絡,以發現哪個先前的特征對其做出了貢獻。這通過后向雅可比矩陣來實現,該矩陣可以計算前一層的特征對當前特征激活的貢獻程度,并遞歸應用直至到達輸入。每個特征被視為一個節點,每個影響因素被視為一條邊。此過程可能生成包含數百萬條邊和節點的復雜圖,因此需要進行剪枝以保持圖的緊湊性和手動可解釋性。
作者將此計算圖稱為歸因圖,并開發了檢查它的工具,這成為了本文的核心貢獻。
下圖展示了一個示例歸因圖。
本圖片的出處是??這里??
現在,有了所有這些理解,我們就可以討論特征可解釋性了。
使用歸因圖實現特征可解釋性
研究人員使用Anthropic公司的Claude 3.5Haiku模型的歸因圖來研究其在不同任務中的表現。在詩歌生成中,他們發現該模型不僅僅是生成下一個詞,它還會進行一種規劃,既向前規劃,又向后規劃。在生成一行詩之前,該模型會識別幾個可能押韻或語義合適的詞作為結尾,然后向后推演,生成一行自然地指向該目標的詩句。令人驚訝的是,該模型似乎可以同時記住多個候選結尾詞,并根據最終選擇的詞重構整個句子。
這項技術提供了一個清晰的、機制化的視角,展現了語言模型如何生成結構化、富有創意的文本。這對于人工智能界來說是一個重要的里程碑。隨著我們開發出越來越強大的模型,追蹤和理解其內部規劃和執行的能力對于確保人工智能系統的一致性、安全性和可信度至關重要。
當前方法的局限性
歸因圖提供了一種追蹤單個輸入模型行為的方法,但它們尚無法提供可靠的方法來理解全局回路或模型在多個示例中使用的一致機制。這種分析依賴于用轉碼器替換多層感知器(MLP)計算,但目前尚不清楚這些轉碼器是真正復制了原始機制,還是僅僅近似輸出。此外,當前方法僅強調活躍特征,但非活躍或抑制性特征對于理解模型行為同樣重要。
結論
總之,通過歸因圖進行回路追蹤是理解語言模型內部工作原理的早期的但非常重要的一步。雖然這種方法還有很長的路要走,但回路追蹤的引入標志著通往真正可解釋性道路上的一個重要里程碑。
參考文獻
- ??https://transformer-circuits.pub/2025/attribution-graphs/methods.html???
- ??https://arxiv.org/pdf/2406.11944???
- ??https://transformer-circuits.pub/2025/attribution-graphs/biology.html???
- ??https://transformer-circuits.pub/2024/crosscoders/index.html???
- ??https://transformer-circuits.pub/2023/monosemantic-features??
譯者介紹
朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。
原文標題:??Circuit Tracing: A Step Closer to Understanding Large Language Models??,作者:Sudheer Singh
