揭秘AI內部機制:AI理解的重大突破
Anthropic連發兩篇相互關聯的大模型內部機制研究報告【文獻1、文獻2】:
構建了AI“顯微鏡”,并用它追蹤了大模型思維,這是繼去年?揭秘大模型黑盒之后的重大進展。
【文獻1】構建了替代模型(replacement model)作為AI“顯微鏡”
通過這個替代模型,亦步亦趨的捕獲針對每一個提示語的歸因圖(attribution graph)
歸因圖用于描述模型在特定輸入提示下生成目標詞元輸出時所經歷的推理步驟。
歸因圖的邊表征節點間的線性影響關系,節點代表以下對象:
- 激活的特征
- 輸入提示中的詞元嵌入
- 重構誤差
- 輸出邏輯值
每個特征的活動強度由其輸入邊的權重之和決定。
歸因圖展示了特征如何在特定輸入提示下相互作用以生成模型輸出。
而特征在所有上下文環境中交互的全局圖景更值得關注,全局交互由模型權重決定:
相鄰層神經元間的直接影響就是它們之間的連接權重;若神經元間隔較遠,則影響會通過中間層傳遞。
這本質上是筆者在?降低大模型幻覺的必由之路中描述的 Transformer視角下的范疇中采樣,即在復雜高維的對象米田嵌入圖中的采樣路徑。
圖片
學者們接著在【文獻2】中應用此AI“顯微鏡”對自家大模型Claude 3.5 Haiku在多種情景下內部機制做了“生物學”探查,非常有趣。
筆者關注到兩個情景:詩歌中的規劃 和 多語言電路,很有感觸和共鳴。
詩歌規劃,研究發現大模型在寫詩行時提前計劃其輸出:
在開始編寫每一行之前,模型會識別可能出現在末尾的押韻單詞,預先選擇的押韻選項將決定模型構建整行的方式。
這顛覆了大模型僅僅做下一個詞元預測的流行的行業錯誤認知,大模型是這么學習語料的,但不代表也是這么推理生成的。
詩詞韻律規劃更符合筆者在?MIT對大模型數理原理的強有力證明中描述的采樣過程:
“在外部感官輸入下(被提示置于某種上下文),大模型內部將限定在相應的高維語言概率空間的子空間內推理;推理是在子空間中采樣,類比時跨范疇采樣;
采樣不斷進行,基于內部概率化了的世界模型(預訓練獲得的先驗),針對感官輸入(提示),做變分推斷,最小化自由能,獲取最佳采樣分布q*,作為對導致感官輸入的外部后驗的預測。”
圖片
多語言電路,研究發現大模型混合使用了“特定于語言的”,和“抽象的、獨立于語言的”電路,更大的模型中,“抽象的、獨立于語言的”成分更突出。
這非常貼切的印證了筆者??在 DeepSeek R1 & R2 技術原理??中,對大模型中不同層次/尺度語言處理機制的描述:
而推理不過是在LLM構建的高維概率語言空間里,對信息概率分布采樣做變分;
這個過程可以映射到不同的上層自然語言,以及對應的語音,甚至進一步映射到某種符號語言 - 代碼或數學公式;
而抽象的符號語言也可以用自然語言描述,從而進一步轉換為對信息概率分布的處理過程。
Anthropic團隊對大模型內部機制的探索不斷取得重要進展,越來越接近模型本質的機理。與目前來自Nature,Science,學術界,企業界的幾十項研究成果一樣,均指向這一?數理認知框架。
文獻1 https://transformer-circuits.pub/2025/attribution-graphs/methods.html
文獻2 ?https://transformer-circuits.pub/2025/attribution-graphs/biology.html
本文轉載自???清熙???,作者:王慶法
