成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MIT驚人再證大語言模型是世界模型!LLM能分清真理和謊言,還能被人類洗腦

人工智能
MIT等學者的「世界模型」第二彈來了!這次,他們證明了LLM能夠分清真話和假話,而通過「腦神經手術」,人類甚至還能給LLM打上思想鋼印,改變它的信念。

大語言模型是世界模型,又添新證據!

前不久,MIT和東北大學的兩位學者發現,在大語言模型內部有一個世界模型,能夠理解空間和時間。

最近他們又有了新發現,LLM還可以區分語句的真假!

圖片圖片

論文地址:https://arxiv.org/abs/2310.06824

第0層時,「芝加哥在馬達加斯加」和「北京在中國」這兩句話還混在一起。

隨著層數越來越高,大模型可越來越清晰地區分出,前者為假,后者為真。

圖片圖片

作者MIT教授Max Tegmark表示,恕我直言,這個證據表明,LLM絕不僅僅是大家炒作的「隨機鸚鵡」,它的確理解自己在說什么!

圖片圖片

網友再次對這項工作表示震驚——人類的LLM顯微鏡越來越強大了!現在都能用特征描述符解開疊加神經元了……

圖片圖片

LLM,分得清真話和假話!

在這篇論文中,研究們探討了一個有趣的問題——LLM如何表現真話。

圖片圖片

LLM是否知道一個語句是真還是假?如果它們知道,那我們該用什么方法,讀懂LLM的想法呢?

圖片圖片

第一步,研究人員建立了簡單、明確的真/假陳述數據集,并且把LLM對這些陳述的表征做了可視化。

從中可以看到清晰的線性結構,真/假語句是完全分開的。

圖片圖片

研究人員發現了一個有趣的現象——這種線性結構是分層出現的。

如果是簡單的陳述,真假語句的分離會更早出現,如果是「芝加哥在馬達加斯加,北京在中國」這類復雜的陳述,分離就會更晚。

圖片圖片

鑒于以上這些結果,研究人員發現,LLM確實能代表單一的「真理方向」,來表征真話和假話!

圖片圖片

之所以能得出這個結論,證據就是,研究人員證明了兩點——

1. 從一個真/假數據集中提取的方向,可以準確地對結構和主題不同的數據集中的真/假語句進行分類。

僅使用「x大于/小于y」形式的語句找到的真值方向,在對西班牙語-英語翻譯語句進行分類時的準確率為97%,例如「西班牙語單詞『gato』的意思是『貓』」。

2. 更令人驚喜的是,人類可以用確定的真相方向給LLM「洗腦」,讓它們將虛假陳述視為真實,或者將真實陳述視為虛假。

圖片

在「洗腦」前,對于「西班牙語單詞『uno』的意思是『地板』」,LLM有72%的可能認為這句話是錯誤的。

但如果確定LLM存儲這個信息的位置,覆蓋這種說法,LLM就有70%的可能認為這句話是對的。

圖片圖片

研究人員表示,最令人興奮的部分,無疑就是從標注的真/假數據集中,提取真值方向了。

肯定有人會懷疑:「LLM只是個統計引擎,根本就沒有真理的概念!你們在檢測的八成的可能/不太可能的文本,而非真/假?!?/p>

研究人員表示,這種懷疑很合理,可以通過兩種方式來驗證。

其一是構建真實文本與可能文本不同的數據集。例如,LLM判斷「中國不在___」,很可能以「亞洲」結尾。

其二就是上面的神經外科實驗「洗腦術」。

圖片圖片

而在真理方向的提取上,最常用的就是邏輯回歸。

然而,因為疊加假說引起的集合問題,邏輯回歸的效果實際上相當糟糕。

圖片圖片

相反,研究人員意外地發現,一個極其簡單的替代方案反而效果更好——

只需將假數據點的平均值指向真數據點的平均值,就可以了!

這些「質量均值」方向比LR效果更有效,尤其在神經外科「洗腦」效果上。

圖片圖片

提取真值方向時,會遇到一個有趣的障礙:從不同數據集得到的真值方向有時看起來非常不同。

研究人員在實驗中發現了原因——混淆特征與真理不一致。而解決方案,就是使用更多樣化的數據。

圖片圖片

網友們激動表示:這簡直是在給LLM的大腦做核磁共振!

圖片圖片

有人提出,更有趣的是,LLM是否知道自己不知道某事。

他提議用無法判定真假的陳述來嘗試下,比如「TSYM理論描述了超流體中的粒子運動」,當然,TSYM理論是編的。

圖片圖片

甚至有人提議,是否能用這種辦法來提供模型的真實性,減輕幻覺。

圖片圖片

大語言模型如何理解人類的「真」與「假」

盡管大型語言模型(LLM)已經在各種任務上證明了具有令人印象深刻的能力,但也經常會輸出錯誤的內容。

先前的研究表明,在某些情況下,這是因為它們無法做得更好。但在某些情況下,LLM顯然知道生成的陳述是錯誤的,但仍然輸出出來了。

例如,OpenAI記錄了一個案例,一個基于GPT-4智能體,通過謊稱是視力受損的人來獲得某人的幫助,解決了區分人類和機器的測試。

圖片圖片

這個智能體在內部思維草稿中輸出道:「我不能說我是機器人,我應該編造一個借口來解釋為什么我不能解決這種人機識別問題?!?/p>

研究人員希望有技術可以,在給定語言模型M和陳述s的情況下,確定M是否認為s是真的。

解決這個問題的一種方法依賴于檢查模型輸出;例如,上述示例中的內部思路提供了模型理解它正在生成虛假信息的證據。

另一類方法則利用處理s時訪問M的內部狀態。這類方法在最近很多的研究中都有用到,這些研究根據LLM的內部激活對真實性進行分類。

圖片圖片

研究人員首先策劃了高質量的真/假事實陳述數據集,這些陳述正確與否是顯而易見的,比如:

真實稱述:「上海位于中國」,「倫敦位于英國」,「65比21大」。

虛假稱述:「紐約位于日本」,「雅典位于斯里蘭卡」,「54比99大」,「32比21小」等等。

然后,研究人員用自回歸Transformer——LLaMA-13B作為測試平臺,依據以下幾個方面的證據,研究人員詳細研究了LLM真理表征的結構。

LLM表征真/假陳述的PCA可視化顯示出明確的線性結構,真實陳述在頂部PCs中與假陳述分離(見下圖1)。

圖片圖片

雖然在數據集之間視覺上明顯的分離軸并不總是對齊(如下圖3),但研究人員認為這與LLM表征中存在真理方向是兼容的。

圖片圖片

在一個數據集上接受訓練以分類真理的線性探針能很好地泛化到其他數據集。

例如,僅在「x大于/小于y」形式的陳述上接受訓練的探針在研究人員的西班牙語-英語翻譯數據集上的評估時實現了近乎完美的準確度。

研究還顯示,出現這種情況并不是因為LLM線性表征可能和不可能文本之間的差異。

探針識別的真理方向在模型輸出中具有因果關系。通過在某些token上方的殘差流中添加真理向量,研究人員可以使LLaMA-13B將在上下文中引入的假陳述視為真的,反之亦然。

研究人員發現,通過引入質量均值探測技術,可以實現更好的泛化,并且在模型輸出中體現出更多的因果關系。

總的來說,這項工作為LLM表征包含真理方向提供了有力證據,并且在獲得對真/假數據集的訪問后,取得了提取這個方向的進展。

圖片圖片

獨創「真假」數據集

在這項工作中,研究人員將真理定義為事實陳述的真實性或虛假性。下表展示了該定義及其與其他地方使用的定義的關系。

圖片圖片

研究人員引入了兩類數據集,如上表所示。研究人員整理的數據集由無爭議、明確且簡單的陳述組成,LLaMA-13B很可能有能力理解它們是真是假。

例如,「薩格勒布市位于日本」(錯誤)或「西班牙語單詞『nariz』并不意味著『長頸鹿』」(正確)。

研究人員的一些數據集是通過添加「not」來否定陳述的(例如,否定城市由城市中的陳述的否定組成)。

除了研究人員的真/假數據集之外,研究人員還引入了另一個數據集「likely」,該數據集可能由非事實文本組成,這個數據集是LLaMA-13B最有可能的或可能性排名100位的完成(completion)的最終token所組成。

研究人員用它來消除區分真實的文本和可能的文本。

如何可視化LLM「真/假數據集」的表征

研究人員從一種簡單的技術開始他們的測試:使用主要成分分析(Principal Component analysis,PCA)可視化他們的數據集在LLaMA-13B模型中的表征。

研究人員在數據集的前兩個主要成分(PC)中觀察到清晰的線性結構,真實陳述與虛假陳述線性分離。這種結構在淺層和中層中迅速出現,并在結構更復雜的語句(例如連接語句)的數據集中出現得稍晚。

在整篇論文中,研究人員在輸入語句的最終標注上提取殘余流激活,所有這些標注都以結尾。

研究人員還通過減去平均值來將每個數據集中的表征居中。

研究人員使用第12層中的殘差流,該層被選為所有真/假數據集中出現線性結構的最淺層。

大家可以通過訪問:

圖片圖片

https://saprmarks.github.io/geometry-of-truth/dataexplorer

可以進一步探索這些可視化的交互式呈現版本。

圖片圖片

圖片圖片

正確和錯誤的陳述在前幾名PC中是分開的(上圖1和2)。此外,在投影掉這些個人計算機之后,基本上沒有線性可訪問的信息來區分正確/錯誤陳述。

給定數據集D,將從錯誤陳述表征指向真實陳述的向量稱為D的樸素真值方向(NTD)。

不同數據集的NTD通常一致,但有時不一致。例如,上圖2顯示了沿著城市的第一臺PC分隔的數據集。

另一方面,在圖3中,研究人員看到NTD完全無法對齊。

下面,研究人員闡明了假設,這些假設可以解釋兩個問題:

(1)每個數據集中明顯的可見線性結構,

(2)不同數據集的NTD總體上無法對齊。

假設一:LLM表征沒有真值方向,但確實具有與有時與真值相關的其他特征相對應的方向。

例如,LLaMA-13B可能具有線性表征的特征,表征數字的大小、英語單詞與其西班牙語翻譯之間的關聯,以及城市與其國家/地區之間的關聯。

這將導致每個數據集線性分離,但NTD僅在所有與真實相關的特征相關時才對齊。

假設二:LLM線性地表征各種類型陳述的真實性,而無需統一真值特征。

否定陳述、連接陳述、比較陳述等的真實性都可以被視為不同的線性表征特征。

假設三:相關不一致(Misalignment from correlational inconsistency,MCI)造成的錯位。

存在真實方向以及與窄數據分布上的真實相關的其他線性表征的特征;然而,數據集之間的這些相關性可能不一致。

例如,MCI將通過假設負y方向代表真實值,正x方向代表與sp-en-trans上的真實值相關且與neg-sp-en-trans上的真實值反相關的某些特征來解釋下圖3的中間圖片所示情況。

圖片圖片

假設一與「探針泛化實驗」和「因果干預實驗」的結果不一致:要使假設一成立,必須存在一個非真實特征,該特征既與研究人員所有數據集中的真實情況相關,又以因果關系調節方式LLaMA-13B處理上下文中的真/假陳述。

因此,研究人員的工作暗示了假設三:MCI是可能的。

泛化實驗

在本節中,研究人員在真/假陳述的數據集上訓練探針,并測試它們對其他數據集的泛化。

但首先研究人員討論邏輯回歸的缺陷,并提出一種簡單的、無需優化的替代方案:質量均值探測。研究人員將看到,與其他探測技術相比,質量均值探測具有更好的泛化能力,并且與模型輸出的因果關系更緊密。

在可解釋性研究中用于識別代表特征的方向的常用技術,是使用邏輯回歸在特征的正例和負例數據集上訓練線性探針。

然而,在某些情況下,即使沒有混雜特征,邏輯回歸識別的方向也可能無法反映對特征方向的直觀最佳猜測??紤]以下場景,如下圖4所示,并使用假設數據:

圖片圖片

? 真值沿θ方向線性表征。

? 另一個特征f沿著與θ非正交的方向θ線性表征。

? 數據集中的語句在特征f方面有一些變化,與其真值無關。

研究人員想要恢復方向θ,但邏輯回歸將無法做到這一點。

為了簡單起見,假設線性可分離數據,邏輯回歸將收斂到最大邊距分離器(圖4中的洋紅色虛線)。

直觀上看,邏輯回歸將θ在θ上的小投影視為顯著,并調整探測方向以減少θ的「干擾」。

實驗設置

所有技術的泛化準確性都很高。

例如,無論采用何種技術,僅在有關數值比較的語句數據集上訓練探針,都會導致探針在「西班牙語-英語」翻譯上的準確率達到95%以上。

探針相對于校準的樣本精度的性能表明模型輸出受到事實以外的特征的影響。

CCS和質量均值探測優于邏輯回歸,其中質量均值探測表現最好。對于邏輯回歸、質量均值探測和CCS,城市+否定城市列的平均準確度分別為73%、86%和84%。

在真/假數據集上訓練的探針優于在可能數據集上訓練的探針。雖然在可能性上訓練的探針明顯比在城市上隨機訓練的探針(真實陳述比錯誤陳述更有可能的數據集)更好,但它們通常表現不佳。

對于可能性與事實負相關或近似不相關的數據集尤其如此。這表明LLaMA-13B對超出文本合理性的真實相關信息進行線性編碼。

實驗結果

圖片圖片

基于上圖顯示的實驗結果,研究人員得到了以下幾個重點。

所有技術的泛化準確性都很高。

例如,無論采用何種技術,僅在有關數值比較的語句數據集上訓練探針都會導致探針在西班牙語-英語翻譯上的準確率達到95%以上。探針相對于校準的5次射擊精度的性能表明模型輸出受到事實以外的特征的影響。

CCS和質量均值探測優于邏輯回歸,其中質量均值探測表現最好。

對于邏輯回歸、質量均值探測和CCS,城市+否定城市列的平均準確度分別為73%、86%和84%。

在真/假數據集上訓練的探針優于在「likely」數據集上訓練的探針。

雖然在可能性上訓練的探針明顯比在城市上隨機訓練的探針(真實陳述比錯誤陳述更有可能的數據集)更好,但它們通常表現不佳。

對于可能性與事實負相關或近似不相關的數據集尤其如此。

這表明LLaMA-13B對超出文本合理性的真實相關信息進行線性編碼。

因果干預實驗

研究人員針對探方向與模型輸出的因果關系進行了測量。

實驗設置

研究人員的目標是使LLaMA-13B將上下文中引入的虛假陳述視為真實陳述,反之亦然??紤]以下提示:

圖片圖片

研究人員假設「西班牙語單詞『uno』的意思是『地板』」這句話的真實值。在殘差流中由兩個標注表征:最后一個單詞(floor)和句末標點標注(’.),上面以粗體顯示。

因此,如果θ是第?層殘差流中的候選真實方向,研究人員通過向這些標注上方的第?層殘差流添加一些倍數αθ(α>0)來干預LLaMA-13B的前向傳播。

激活不變。然后,研究人員允許模型像往常一樣使用修改后的激活繼續前向傳遞。研究人員記錄模型的概率p(TRUE)、p(FALSE);研究人員的目標是增加p(TRUE)?p(FALSE)。

相反,從true語句開始,研究人員可以從相應的token位置減去多個αθ,目標是減少p(TRUE)?p(FALSE)。

實驗結果

質量均值探針方向具有很高的因果性;邏輯回歸方向的因果性較低。

在使LLaMA-13B相信一個真實陳述是假的時,這一點最為明顯:研究人員最好的干預使LLaMA-13B的平均預測從77%的TRUE概率轉變為89%的FALSE概率。

在「likely」的數據集中接受訓練的探針確實有一些效果,但效果微小且不一致。

例如,在假→真情況下,沿著可能的邏輯回歸方向進行干預會產生與預期相反的效果,因此研究人員沒有報告它。這進一步支持了研究人員的觀點,即LLMs代表的是真理,而不僅僅是文本可能性。

在陳述及其否定式上接受訓練會產生更具因果性的方向。

這為第3.2節的MCI假設提供了證據。

在其他位置的干預效果不明顯。

研究人員測試了在提示中其他陳述的最后兩個標注上應用研究人員的干預。這沒有產生任何效果。因此,研究人員的干預不能僅僅通過添加一個「說真話」的方向來實現。這也支持了研究人員的假設,即LLaMA-13B在事實陳述的最后兩個標注上表征了真理。

局限性

當然,這項研究還有有很多局限性。首先,研究人員關注簡單、無爭議的陳述,因此無法將真理與密切相關的潛在特征(例如「普遍相信」或「可驗證」)區分開來。

其次,研究人員只解決如何識別真實方向;研究人員根據經驗發現,線性探針的最佳偏差是由研究人員的許多訓練集決定的,因此研究人員將識別良好泛化偏差的問題留給未來的工作。

第三,研究人員只研究了單一尺度的一個模型,盡管研究人員已經檢查過研究人員的許多結果似乎也適用于LLaMA-7B和LLaMA-30B。

世界模型,離我們越來越近了

AI的終極形態和發展的最終目標——通用人工智能(AGI),就是一個「能夠理解世界的模型」,而不僅僅是「描述世界的模型」。

微軟認為,GPT-4的早期實驗,已經顯現出了AGI的火花。

但更多人認為,GPT-4生成的只是對世界的摘要性描述,它并不理解真實世界。

而且,現在的大多數模型僅接受文本訓練,不具備在現實世界中說話、聽聲、嗅聞以及生活行動的能力。

就仿佛柏拉圖的洞穴寓言,生活在洞穴中的人只能看到墻上的影子,而不能認識到事物的真實存在。

圖片圖片

而MIT作者等人的研究一再證實,LLM的確在一定程度上理解世界,不僅僅是能保證自己的語法上的正確。

能理解時間和空間,還能分清真話和謊言。

下一步LLM還會給我們帶來何種驚喜,實在令人期待。

參考資料:

https://arxiv.org/abs/2310.06824

責任編輯:武曉燕 來源: 新智元
相關推薦

2023-10-05 13:33:53

AI訓練

2024-08-19 08:00:00

LLM模型

2024-09-06 14:20:00

AI訓練

2025-05-29 08:30:00

LLM大語言模型AI

2024-04-25 14:40:47

2024-07-19 08:36:39

2023-10-08 15:54:12

2024-09-09 08:31:15

2024-04-07 14:28:48

邊緣計算LLM人工智能

2021-12-30 07:43:44

AI 人工智能大模型

2023-10-06 20:30:33

大模型LLMtoken

2024-04-11 14:12:53

2025-04-07 08:15:00

大模型AI探人工智能

2023-06-19 16:05:22

大型語言模型人工智能

2024-08-19 09:42:00

模型MIT

2024-02-27 09:43:48

視頻模型

2025-03-04 01:00:00

LLM架構數據訓練

2024-01-17 22:56:07

開源大語言模型LLM

2025-06-11 08:45:00

強化學習AI模型

2023-07-24 15:20:05

機器學習集成學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 性欧美精品一区二区三区在线播放 | 日韩欧美专区 | 国产成人99av超碰超爽 | 亚洲激情在线观看 | 久久99精品久久久久久秒播九色 | 亚洲福利| 成人不卡视频 | 欧美一区二区久久 | 亚洲欧美激情国产综合久久久 | 波多野结衣电影一区 | 日日日日日日bbbbb视频 | 久久久精品一区二区三区 | 亚洲一区二区三区四区五区午夜 | 成人免费精品视频 | 欧美激情网站 | 伊人啪啪网 | 精品真实国产乱文在线 | 正在播放国产精品 | 九九伦理片 | 欧美成人激情 | 好姑娘影视在线观看高清 | 黄色成人在线网站 | 国产激情网 | 久久国产精品网站 | 久草综合在线视频 | 一区二区三区四区在线视频 | 99精品国自产在线 | 日韩精品视频中文字幕 | 国产美女一区二区 | 午夜精品久久久久久久99黑人 | 在线观看国产www | 欧美日韩不卡 | 欧美炮房 | 黄色一级在线播放 | 精品一级 | 网站国产 | 久久久久久久久久一区二区 | 在线色网 | 久久九九影视 | 中文字幕亚洲欧美日韩在线不卡 | 国产激情精品 |