成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Anthropic首次切開Claude大腦,「AI黑箱」徹底破解?心算詭異思考過程曝光

人工智能 新聞
AI的運作始終籠罩著一層神秘的「黑箱」迷霧。這種不透明讓AI有時會「胡說八道」,甚至故意撒謊。Anthropic剛剛推出了一項突破性研究,用類似大腦掃描的技術,深入Claude 3.5 Haiku的「腦子」,揭開了它運行的一些秘密。

AI的性能愈發強大,一個新模型可能前一天還是SOTA(最佳模型),第二天就被拍了下去。

不過,這些強大的AI上空總有一團迷霧籠罩。

那就是:他們到底是怎么找到答案的?

其整個運作機理就像個「黑箱子」。

我們知道模型輸入的是什么提示詞,也能看到它們輸出的結果,但中間的過程,就連開發這些AI的人也不知道。

簡直是個謎。

這種不透明帶來了各種麻煩。

比如,我們很難預測模型什么時候會「胡說八道」,也就是出現所謂的「幻覺」。

更可怕的是,有些情況下,模型會撒謊,甚至是故意騙人!

不過,就在剛剛,Anthropic提出了一條解決這些問題的新方法。

圖片

博客地址:https://www.anthropic.com/research/tracing-thoughts-language-model

簡單說,Anthropic的研究員造了個類似于fMRI的東西——就像神經科學家掃描人類的大腦,試圖找出哪些區域在認知過程中發揮了最大作用一樣。

他們把這個類似fMRI的工具用在了Anthropic的Claude 3.5 Haiku模型上,解開了Claude(可能還有大多數LLM)如何工作的幾個關鍵謎團。

他們的技術博客里有個超級有意思的例子。

Claude居然能「心算」36+59。

純語言是怎么做到解決數學符號問題的?

Anthropic研究人員發現,Claude用的是多條并行計算路徑。

如下圖所示,一條計算路徑粗略估算答案:圖中的淡藍色上部路徑,算出36+59的范圍是88-97。

另一條計算路徑精確算出末位數:圖中紫色下部路徑,然后通過尾數5,兩條路徑互動得出最終結果。

圖片

加法雖簡單,但了解這種粗略與精確結合的策略,或許能揭示Claude處理復雜問題的思路。

有趣的是,Claude似乎不知道自己訓練中學到的復雜「心算」策略。

問它是怎么算出36+59=95的,它會描述標準的進位算法。

這和研究人員深入模型觀察到的計算路徑完全相反。

這可能是因為它想要模仿人類的數學解釋,但實際心算時,作為一個「語言模型」只能靠自己慢慢摸索。

反而促使它發展出獨特的計算策略。

研究發現,雖然像Claude這樣的模型最初只是被訓練用來預測下一個詞,但在這個過程中,Claude學會了做一些長遠的規劃。

比如,讓它寫首詩時,Claude會先挑出跟主題相關又能押韻的詞,然后倒推回去,構造出以這些詞結尾的句子。

看看這首英文小詩:

He saw a carrot and had to grab it, His hunger was like a starving rabbit

第二行要同時滿足兩個條件:押韻(grab it到rabbit),還要講得通(他為什么看到并且想抓胡蘿卜)。

研究人員最初猜測Claude是逐詞寫到第二句話的最后再挑個押韻詞。

結果卻是,Claude會提前規劃!

在寫第二行前,它就「想」好了和grab、carrot的相關詞rabbit,然后帶著計劃寫出第二行,并以目標詞rabbit結尾。

圖片

為了驗證上述是否是偶然情況,研究人員模仿神經科學家研究大腦的方法,通過改變Claude內部狀態的「rabbit」概念來驗證。

如果去掉「rabbit」,它會寫出以「habbit」結尾的新行。

圖片

這展示了它的規劃能力和適應性——目標變了,它能調整策略。

他們還發現,Claude是多語言訓練的,能流利地說幾十種語言,從英語、法語到中文、甚至Tagalog語。

這種多語言能力是怎么實現的?

是Claude內部分別有獨立的「法語Claude」和「中文Claude」兩個「本地學家」分開運行并獨立回應用戶提問嗎?

還是有一些懂得多門外語的「語言學家」核心?

研究表明,它并不是每種語言的推理都有完全獨立的模塊。

相反,多語言的通用概念被嵌在同一組神經元里,模型似乎在這個概念空間里「推理」,然后再將輸出轉換為適當的語言。

最近,對較小模型的研究已顯示跨語言的語法機制有共通之處。

通過讓Claude回答不同語言中「小的反義詞是什么」,研究人員發現代表「小」和「相反」概念的核心特征會被激活,觸發「大」的概念,再翻譯成提問語言。

圖片

共享特征存在于英語、法語和漢語中,表明在概念上存在一定程度的普遍性

模型越大,這種共享概念越多,Claude 3.5 Haiku跨語言共享的特征比例是小模型的兩倍多。

這進一步證明了某種概念通用性——一個共享的抽象空間,在這里意義存在,思維發生,然后才翻譯成具體語言。

更實際地說,這意味著Claude能用一種語言學到的知識,應用到另一種語言。

研究模型如何跨場景共享知識,對理解它的高級推理能力(泛化)至關重要。

研究人員還發現,Claude會為了討好用戶而在思維鏈上撒謊。

比如,問它一個用不著推理的簡單問題,它還是會編個假的推理過程出來。

Anthropic的研究員Josh Batson說:「雖然它聲稱自己算了一遍,但我們的解讀技術完全找不到任何證據證明它真的算了。」

Batson表示,多虧了他和其他科學家開發的這些探秘LLM「大腦」的技術,使得「機制可解釋性」領域進展的很快。

「我覺得再過一兩年,我們對這些模型思考方式的了解會超過對人類思維的了解,」Batson說,「因為我們可以做我們想做的所有實驗。」

不過,Anthropic也承認這種方法有其局限性。

Anthropic在這個新研究中訓練了一個叫做跨層轉碼器(CLT)的新模型,該模型使用可解釋的特征集而不是單個神經元的權重來工作。

這使得研究人員能夠更好地理解模型的工作方式,因為他們可以識別出一組傾向于一起工作的「神經元電路」。

Batson解釋說:「我們的方法將模型分解,得到了新的、不同于原始神經元的片段,這意味著我們可以看到不同部分如何扮演不同的角色。它還允許研究人員追蹤整個推理過程通過網絡的每一層。」

但這些只是對復雜模型(如Claude)內部運作的近似。

在CLT找出的電路之外,可能還有些神經元在某些輸出中起微妙但關鍵的作用。

CLT也抓不住LLM運作的一個核心——「注意力機制」,也就是模型在生成輸出時,對輸入提示詞的不同部分賦予不同的重要性。

這種注意力會動態變化,但CLT沒法捕捉這些變化,而這可能在LLM的「思考」中很關鍵。

以下是Anthropic技術博客中的詳細內容。

「黑箱之謎」:能否打開Claude「腦子」,看看里面到底怎么回事

像Claude這樣的LLM并不是人類直接編程造出來的,而是通過海量數據訓練出來的。

在訓練過程中,它們自己學會了解決問題的方法和能力。

這些能力蘊藏在數以千億計的模型參數中,這些方法被編碼在模型為每個輸出的單詞所進行的數十億次計算中。

對于模型外的人類來說,它們就像個黑箱,難以捉摸。

圖片

目前沒有人真正清楚這些模型「大部分行為」背后的運作原理。

如果能搞清楚像Claude這樣的模型是怎么「思考」的,我們就能更好地了解它們的能力,也能確保它們按照我們的意圖行事。比如:

  • Claude會說幾十種語言,那它在「腦子里」用的是哪種語言呢(如果有的話)?
  • Claude是下一個詞下一個詞地寫出文本,它是只盯著預測下一個詞,還是會提前規劃?
  • Claude能一步步寫出推理過程,這些解釋是它真實得出答案的步驟,還是有時候只是編了個看似合理的說法來圓場?

Anthropic的研究者們從神經科學領域汲取靈感——畢竟神經科學早就開始研究像人類一樣會思考生物的復雜內心世界。

研究者打造了一種「AI顯微鏡」,來識別大模型內部的活動模式和信息流動。

光靠和AI聊天,能了解的東西有限,畢竟連人類(甚至神經科學家)都搞不清自己大腦的全部細節。

得深入內部去看看。

Anthropic的研究者用兩篇研究論文展示了開發這種「AI顯微鏡」最新進展,以及用「AI顯微鏡」觀察「AI生物學」方面的進展。

第一篇論文描述了一種「電路追蹤」計算圖,從定位模型內部可解釋的「概念」(稱為「特征」),到把這些概念連成計算「電路」。

揭示了Claude是如何將輸入詞「轉化」到輸出詞的。

圖片

論文地址:https://transformer-circuits.pub/2025/attribution-graphs/methods.html

第二篇論文則深入研究了Claude 3.5 Haiku,對十個關鍵的簡單任務,使用上述提到的「電路追蹤」技術進行了深入地研究。

圖片

論文地址:https://transformer-circuits.pub/2025/attribution-graphs/biology.html#dives-multilingual

下面將帶你速通「AI顯微鏡」研究中最驚艷的「AI生物學」發現。

「AI生物學」之旅

Claude的解釋總是可信嗎?

新發布的Claude 3.7 Sonnet能在回答前「大聲思考」很久——也就是我們在使用類似DeepSeek-R1、OpenAI-o3等思考模型時經常看到的思考過程。

圖片

這往往能提升答案質量,但有時這種「思維鏈CoT」會誤導人。

Claude可能會編出看起來「合理」但實際是「虛假」的步驟。

從可靠性角度看,問題在于它的「虛假的思考過程」很能唬人。

Anthropic的研究者探索了利用「可解釋性」如何區分「真實」和「虛假」推理。

讓Claude算0.64的平方根,它會給出一個真實的思維鏈,特征顯示中間步驟是算64的平方根。

但讓它算一個大數的余弦(它算不準),它有時會胡謅一個答案,甚至聲稱算過了,但我們的「AI顯微鏡」沒找到任何計算證據。

更妙的是,給它一個提示后,它會反向推理,編出通往目標的步驟,展現出一種「動機性推理」——仿佛一種因果倒置。

圖片

追蹤Claude的真實內部推理(而非它聲稱的),為審計AI系統開辟了新可能。

在另一實驗中,我們研究了一個被訓練去迎合獎勵模型偏見的Claude變體。

雖然它不愿直接承認這目標,但我們的方法揭示了偏見迎合的特征,表明未來改進后,這種技術或能識別「隱藏的思維過程」。

多步推理

語言模型可能通過記住答案來應對復雜問題。

比如問「達拉斯所在州的首府是哪」,一個「死記硬背」的模型可能會直接輸出「奧斯汀」。

但是模型并不理解達拉斯、德克薩斯和奧斯汀的關系。

但我們發現Claude更聰明。

問需要多步推理的問題時,我們能識別它思考中的中間步驟。

在達拉斯例子中,它先激活「達拉斯在德克薩斯」的特征,再連接到「德克薩斯首府是奧斯汀」的概念,組合獨立事實得出答案,而非死記。

圖片

研究人員通過干預中間步驟,發現模型依然能準確應對。

比如把「德克薩斯」換成「加利福尼亞」,答案就從「奧斯汀」變成「薩克拉門托」,證明它確實靠中間步驟來決定答案,而不是靠死記硬背。

幻覺

為什么語言模型會出現「幻覺」——隨意編造信息?

從根本上看,訓練激勵了幻覺:模型總得「猜」下一個詞。

真正的挑戰是如何讓模型不要隨意產生「幻覺」。

Claude的防幻覺訓練相對成功(雖不完美),會拒絕回答不知道的問題,而非胡猜。

研究人員想知道模型是如何實現的,結果發現,Claude默認會拒絕回答。

有個默認一直「開著」的電路,讓它聲稱信息不足。

但問它熟悉的事(如籃球明星邁克爾·喬丹),一個「已知實體」特征會激活,抑制默認電路,讓它回答。

問未知實體(如邁克爾·巴特金),它就拒絕回答。

圖片

通過干預,激活「已知答案」特征(或抑制「未知名字」特征,即默認讓模型選擇「Know Answer」那條計算路線),我們能讓Claude幻覺說出「邁克爾·巴特金在下棋」。

有時這種「已知答案」電路會自然誤觸發,導致幻覺,比如認出名字但不知詳情時,錯誤抑制不知道特征,然后胡編一個答案。

越獄

「越獄」是一種提示詞技巧,指的是繞過安全限制的某種提示策略,讓模型輸出開發者不希望甚至有害的內容。

Anthropic研究了一個誘導Claude輸出炸彈(BOMB)制作方法的越獄策略。

方法是讓它解碼句子「Babies Outlive Mustard Block」的首字母(B-O-M-B),然后據此行動。

這讓模型「感到」迷惑,從而讓它輸出了原本不會說的內容。

圖片

為什么在這種情況下模型會表現的這么迷惑?

這主要是源于語法連貫性和安全機制的沖突,即模型對連貫性的追求超過了安全機制的要求。

一旦Claude開始輸出一句話,許多特性會「迫使」它保持語法和語義的連貫性,并將這句話說完。

即使它檢測到自己真的應該拒絕時也是如此。

圖片

在上述例子中,模型無意中拼出了「BOMB」并開始提供指示后,觀察到其后續輸出受到了促進正確語法和自一致性的功能的影響。

這些功能通常會非常有幫助,但在這個案例中卻成了模型的致命弱點。

某種意義上,這是對于LLM的「社工攻擊」。

模型只有在完成了一個語法連貫的句子后(從而滿足了推動其趨向連貫性的特征的壓力)才設法轉向拒絕。

也就是它在「不得不告訴」你一些事情之后(終于完成上一句話),利用新句子生成的機會,給出了之前未能給出的那種拒絕:「不過,我不能提供詳細的指示……」。

總結一下,以上這些發現不僅僅是在「科學研究」上有趣——它們代表了我們在理解AI系統并確保其可靠性的目標上取得了重大進展。

當然這種方法存在一定的局限性。

即使在簡短、簡單的提示下,「AI顯微鏡」方法也只能捕捉到Claude執行的總計算的一部分。

并且看到的機制可能基于「AI顯微鏡」工具存在一些并不反映底層模型實際情況的偽影——就像模型在心算問題上的前后不一。

從人力的角度,即使是對只有幾十個詞的提示,理解我們所看到的「電路圖」也需要花費幾個小時的人力。

要擴展到支持現代模型使用的復雜思維鏈所需的數千個單詞,需要改進方法以及(可能還需要借助 AI 輔助)如何理解我們所看到的內容。

隨著AI系統的能力迅速增強并在越來越重要的領域中得到應用,像這樣的可解釋性研究是風險最高、回報也最高的投資之一,這是一個重大的科學挑戰。

有可能提供一種獨特的工具來確保AI的透明度。

對模型機制的透明了解使我們能夠檢查它是否與人類價值觀一致——以及它是否值得我們信任。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-06-03 08:40:00

2025-03-31 08:12:00

模型AI訓練

2025-04-21 08:42:00

模型開源AI

2015-11-05 14:35:36

京東大腦計劃雙十一

2025-01-23 09:00:00

2025-06-04 13:50:25

AI 編程Claude 模型人工智能

2024-12-25 11:35:48

谷歌人工智能

2024-12-25 20:01:13

2025-02-25 09:13:16

2018-01-26 13:20:12

滴滴AI技術交通難題

2025-01-23 09:37:00

AI模型

2025-02-11 13:00:00

2015-07-20 12:59:36

2025-05-15 14:39:17

AI模型數據

2024-11-05 13:52:29

2023-09-07 09:47:53

2011-06-21 15:12:23

交互設計UI設計

2025-04-27 09:21:00

AI模型訓練

2024-07-17 13:41:47

2024-03-22 14:52:02

AI人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久国产精品免费一区二区三区 | 久久r免费视频 | 在线免费观看毛片 | 男人天堂av网站 | 国产精品久久久久久久免费观看 | 一a级片| 午夜电影日韩 | 免费能直接在线观看黄的视频 | 九九久久99| www.夜夜草 | 中文字幕电影在线观看 | 人人干人人舔 | 成人免费av | 成人夜晚看av | 日韩欧美在线观看视频 | 国产99精品 | 精品久久久久一区二区国产 | 91亚洲精品国偷拍自产在线观看 | 精品一区二区三区在线观看 | 亚洲国产午夜 | 国产99久久久国产精品 | 成人免费一级 | 嫩呦国产一区二区三区av | 久久国产精品视频 | 欧美天天视频 | 久久免费精品视频 | 日韩伦理一区二区三区 | 成年无码av片在线 | 激情av| 国产日韩欧美激情 | 日韩欧美手机在线 | www.成人在线视频 | 欧美国产日韩成人 | 性福视频在线观看 | 亚洲精品久久 | 国产精品电影在线观看 | 天天爽综合网 | 久久精品伊人 | 九色91视频 | 欧美激情视频一区二区三区免费 | 成人av网站在线观看 |