成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<tfoot id="mddax"><em id="mddax"><track id="mddax"></track></em></tfoot>

<u id="mddax"><tbody id="mddax"></tbody></u>

<kbd id="mddax"><acronym id="mddax"><strike id="mddax"></strike></acronym></kbd>

<s id="mddax"></s>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

從黑箱到透明工廠：Anthropic用回路追蹤技術給LLM裝上思維監控屏? 原創

51CTO內容精選

發布于 2025-4-16 06:09

瀏覽

0收藏

本文旨在介紹利用歸因圖技術對大型語言模型的計算回路進行逆向工程，目的是試圖徹底搞清大型語言模型的決策過程。

引言

多年來，基于Transformer的大型語言模型（LLM）在從簡單的信息檢索系統到能夠進行編碼、寫作、開展研究的復雜智能體等一系列任務上取得了長足的進步。然而，盡管這些模型功能強大，但它們在很大程度上仍然是黑匣子。給定輸入，它們可以完成任務，但我們缺乏直觀的方法來理解任務的具體完成方式。

LLM旨在預測統計上最佳的下一個單詞/標記。但是，它們是否只專注于預測下一個標記，還是會提前規劃？例如，當我們要求模型寫一首詩時，它是一次生成一個單詞，還是在輸出單詞之前預測押韻模式？或者，當我們被問及一些基本的推理問題，例如達拉斯所在的州首府是什么？它們通常會產生看起來像是一連串推理的結果，但模型真的運用了這些推理嗎？我們無法洞察模型的內部思維過程。要理解LLM，我們需要追溯其底層邏輯。

對大型語言模型（LLM）內部計算的研究屬于“機械可解釋性”領域，旨在揭示模型的計算回路。Anthropic是致力于可解釋性研究的領先人工智能公司之一。2025年3月，他們發表了一篇題為《??回路追蹤：揭示語言模型中的計算圖?》的論文，旨在解決回路追蹤問題。?

本文旨在解釋他們的論文工作背后的核心思想，并為理解LLM中的回路追蹤奠定基礎。

LLM中的回路是什么？

在定義語言模型中的“回路”之前，我們首先需要了解LLM的內部結構。它是一個基于Transformer架構的神經網絡；因此，將神經元視為基本計算單元，并將其跨層激活模式解釋為模型的計算回路，這似乎是顯而易見的。

然而，論文《??邁向單義性??》表明，僅僅追蹤神經元的激活并不能清楚地理解這些神經元被激活的原因。這是因為單個神經元通常是多義的，它們會對一系列不相關的概念做出反應。?

此論文進一步表明，神經元由更基本的單元（稱為特征）組成，這些單元能夠捕獲更多可解釋的信息。事實上，一個神經元可以被看作是多個特征的組合。因此，我們的目標是追蹤特征激活，而不是追蹤神經元激活，也就是驅動模型輸出的實際意義單元。

這樣，我們可以將回路定義為模型用來將給定輸入轉換為輸出的特征激活和連接序列。

現在，我們知道了我們在尋找什么。接下來，讓我們更深入地了解一下基于Transformer的大型語言模型的基本架構。

技術架構

目前，我們已經確定需要追蹤特征激活而不是神經元激活。為了實現這一點，我們需要將現有LLM模型的神經元轉換為特征，即構建一個以特征形式表示計算的替代模型。

在深入探討這個替代模型是如何構建的之前，我們先簡單回顧一下基于Transformer的大型語言模型的架構。

下圖展示了基于Transformer的語言模型的運作方式。其思路是，使用嵌入將輸入轉換為標記（token）。這些標記被傳遞到注意力模塊，該模塊計算標記之間的關系。然后，每個標記被傳遞到多層感知器（MLP）模塊，該模塊使用非線性激活函數和線性變換進一步細化標記。在模型生成最終輸出之前，此過程會在多層中重復進行。

從黑箱到透明工廠：Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片由作者本人繪制

既然我們已經闡述了基于Transformer的LLM的結構，接下來我們來看看什么是轉碼器。作者使用了一個“轉碼器”來開發替換模型。

轉碼器

轉碼器本身是一種神經網絡（通常比LLM的維度高得多），旨在用更易于解釋、功能等效的組件（特征）替換轉換器模型中的MLP塊。

從黑箱到透明工廠：Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片由作者本人繪制

它分三個階段處理來自注意力模塊的標記：編碼、稀疏激活和解碼。實際上，它將輸入縮放到更高維空間，應用激活以強制模型僅激活稀疏特征，然后在解碼階段將輸出壓縮回原始維度。

從黑箱到透明工廠：Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片由作者本人繪制

在對基于轉換器的LLM和轉碼器有了個基本了解之后，讓我們看看如何使用轉碼器來構建替換模型。

構建替代模型

如前所述，Transformer模塊通常由兩個主要組件組成：注意力模塊和MLP模塊（前饋網絡）。為了構建替換模型，需要將原始Transformer模型中的MLP模塊替換為轉碼器。這種集成是無縫的，因為轉碼器經過訓練可以模擬原始MLP的輸出，同時通過稀疏和模塊化特征公開其內部計算。

雖然標準轉碼器在單個Transformer層中訓練以模仿MLP行為，但本文作者使用了跨層轉碼器（CLT），它可以捕獲跨多個層級的多個轉碼器塊的組合效應。這一點非常重要，因為它使我們能夠追蹤某個特征是否分布在多個層級上，而這對于回路追蹤至關重要。

下圖展示了如何使用跨層轉碼器（CLT）構建替換模型。第一層的轉碼器輸出有助于構建所有上層模型的MLP等效輸出，直至最后。

從黑箱到透明工廠：Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片由作者本人繪制

提示：下圖來自本文開始處的論文，展示了如何構建替換模型。它是利用特征替換原始模型的神經元。

從黑箱到透明工廠：Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片的出處是??這里??

現在，我們了解了替換模型的架構。接下來，讓我們看看如何在替換模型的計算路徑上構建可解釋的表示。

模型計算的可解釋呈現：歸因圖

為了構建模型計算路徑的可解釋表示，我們從模型的輸出特征出發，逆向追溯特征網絡，以發現哪個先前的特征對其做出了貢獻。這通過后向雅可比矩陣來實現，該矩陣可以計算前一層的特征對當前特征激活的貢獻程度，并遞歸應用直至到達輸入。每個特征被視為一個節點，每個影響因素被視為一條邊。此過程可能生成包含數百萬條邊和節點的復雜圖，因此需要進行剪枝以保持圖的緊湊性和手動可解釋性。

作者將此計算圖稱為歸因圖，并開發了檢查它的工具，這成為了本文的核心貢獻。

下圖展示了一個示例歸因圖。

從黑箱到透明工廠：Anthropic用回路追蹤技術給LLM裝上思維監控屏?-AI.x社區

本圖片的出處是??這里??

現在，有了所有這些理解，我們就可以討論特征可解釋性了。

使用歸因圖實現特征可解釋性

研究人員使用Anthropic公司的Claude 3.5Haiku模型的歸因圖來研究其在不同任務中的表現。在詩歌生成中，他們發現該模型不僅僅是生成下一個詞，它還會進行一種規劃，既向前規劃，又向后規劃。在生成一行詩之前，該模型會識別幾個可能押韻或語義合適的詞作為結尾，然后向后推演，生成一行自然地指向該目標的詩句。令人驚訝的是，該模型似乎可以同時記住多個候選結尾詞，并根據最終選擇的詞重構整個句子。

這項技術提供了一個清晰的、機制化的視角，展現了語言模型如何生成結構化、富有創意的文本。這對于人工智能界來說是一個重要的里程碑。隨著我們開發出越來越強大的模型，追蹤和理解其內部規劃和執行的能力對于確保人工智能系統的一致性、安全性和可信度至關重要。

當前方法的局限性

歸因圖提供了一種追蹤單個輸入模型行為的方法，但它們尚無法提供可靠的方法來理解全局回路或模型在多個示例中使用的一致機制。這種分析依賴于用轉碼器替換多層感知器（MLP）計算，但目前尚不清楚這些轉碼器是真正復制了原始機制，還是僅僅近似輸出。此外，當前方法僅強調活躍特征，但非活躍或抑制性特征對于理解模型行為同樣重要。

結論

總之，通過歸因圖進行回路追蹤是理解語言模型內部工作原理的早期的但非常重要的一步。雖然這種方法還有很長的路要走，但回路追蹤的引入標志著通往真正可解釋性道路上的一個重要里程碑。

參考文獻

??https://transformer-circuits.pub/2025/attribution-graphs/methods.html???
??https://arxiv.org/pdf/2406.11944???
??https://transformer-circuits.pub/2025/attribution-graphs/biology.html???
??https://transformer-circuits.pub/2024/crosscoders/index.html???
??https://transformer-circuits.pub/2023/monosemantic-features??

譯者介紹

朱先忠，51CTO社區編輯，51CTO專家博客、講師，濰坊一所高校計算機教師，自由編程界老兵一枚。

原文標題：??Circuit Tracing: A Step Closer to Understanding Large Language Models??，作者：Sudheer Singh

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

大型語言模型

贊

收藏

回復

舉報

回復

相關推薦

從AIGC到AGI，為什么我們需要更多的“技術信仰派”？

51CTO技術棧 ? 4011瀏覽 ? 0回復
AI學會隱藏思維暗中推理！不依賴人類經驗解決復雜任務，更黑箱了

Crystalcxt ? 2550瀏覽 ? 0回復
LLM高效微調詳解-從Adpter、PrefixTuning到LoRA

angel ? 4138瀏覽 ? 0回復
LLM微調技術LoRA圖解

51CTO內容精選 ? 3333瀏覽 ? 0回復
Anthropic 公開了自家的模型“操作說明”，業界大贊：Nice，非常透明！

51CTO技術棧 ? 2325瀏覽 ? 0回復
AI內容創作：機遇與挑戰并存，SynthID技術引領透明新的發展方向

Halo咯咯 ? 2154瀏覽 ? 0回復
智能決策進化之路：從長上下文LLM到自主RAG系統

Halo咯咯 ? 3608瀏覽 ? 0回復
Reyes：一個從0到1開始訓練的多模態大模型（技術報告）

大模型自然語言處理 ? 2396瀏覽 ? 0回復
文檔解析技術指南：從傳統Pipeline到端到端大模型

Baihai_IDP ? 2943瀏覽 ? 0回復
LLM架構從基礎到精通之門控循環單元（GRUs）

柏企閱文 ? 3080瀏覽 ? 0回復
LLM Agent 協作評估難？這 3 款評估監控工具來幫忙

Baihai_IDP ? 2580瀏覽 ? 0回復
后 DeepSeek R1 時代：從資本壁壘到技術普惠

Baihai_IDP ? 2165瀏覽 ? 0回復
從傳統到智能：LLM操作系統的崛起與變革

十一月雨_55 ? 2341瀏覽 ? 0回復
從語言到認知：LLM如何超越人類語言網絡

頓數AI ? 1855瀏覽 ? 0回復
語言、邏輯與大型語言模型——從古代哲學抽象思維到人工智能的演進

上堵吟1 ? 1824瀏覽 ? 0回復
從0到$2500萬ARR：Lovable如何用LangSmith實現AI智能體高效監控與調試？

ermulong ? 1804瀏覽 ? 0回復
給 Cursor 也裝上 Memory Bank，節省包月請求，提高代碼一致性

凝固的雨_1 ? 1233瀏覽 ? 0回復
用 GRPO 給 Text-to-SQL 模型裝上“推理引擎”，讓語言模型不只是生成代碼！

Halo咯咯 ? 1282瀏覽 ? 0回復
給大模型裝上"認知工具"，數學推理能力直接起飛

sbf_2000 ? 217瀏覽 ? 0回復

51CTO內容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： AI犬種識別革命：像專家一樣思考的形態特征解碼器

下一篇：開發者值得關注的六大AI調試工具

社區精華內容

目錄

主站蜘蛛池模板：午夜大片 | 天堂精品视频 | 国产精品国产 | 国产精品无码专区在线观看 | 国产亚洲精品美女久久久久久久久久 | 男人的天堂亚洲 | 亚洲精品在线视频 | 黄色毛片网站在线观看 | 中文字幕免费 | 欧美影院久久 | 在线观看视频福利 | 国产小网站 | 日韩精品久久久 | 97影院2 | 九九热在线观看视频 | 午夜在线 | 成人超碰| 亚洲一区中文字幕 | 日本三级网址 | 日日噜噜噜夜夜爽爽狠狠视频97 | 中日字幕大片在线播放 | 激情综合五月 | 日韩av一区二区在线 | 精品久久久久久久久久久久久 | 91在线一区二区三区 | 亚洲高清在线观看 | av一区二区三区 | 日韩a在线| 久久久久久免费免费 | 九九在线精品视频 | 色婷婷综合网 | 毛片av免费在线观看 | 免费在线看黄视频 | 亚洲一区二区免费视频 | 男女视频网站 | 亚洲欧洲一区 | 国产精品久久久久久吹潮 | 久久久免费电影 | 午夜视频一区 | 波波电影院一区二区三区 | 欧美一级淫片免费视频黄 |

<tfoot id="sfxnf"></tfoot>

<table id="sfxnf"></table>

<table id="sfxnf"></table>

<big id="sfxnf"></big>