成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CMU華人打破大模型黑盒,Llama 2撒謊被一眼看穿!腦電波慘遭曝光,LLM矩陣全解開

人工智能 新聞
大語言模型黑盒,居然被CMU等機構的學者打破了?他們發現,LLM內部有可解釋的表征,如果撒謊,還能被測謊儀檢測出來!

最近,來自CAIS、CMU、斯坦福、康奈爾、馬里蘭、賓大等機構的學者又有了令人震驚的發現——

大語言模型,并不僅僅是黑匣子,或者難以理解的龐大矩陣。在它們內部,具有可解釋的內部表征。

而人類,完全可以控制這些表征,來影響大模型的幻覺、偏見、危害,甚至檢測出它們是否在撒謊!

論文地址:https://arxiv.org/pdf/2310.01405.pdf

就像PET和fMRI等腦部掃描一樣,研究者們設計了一種稱為LAT的掃描技術,來觀察LLM參與真理等概念或撒謊行為時的大腦活動。

隨后,他們有了幾個驚人的發現。

比如,LLM居然具有一致的內部信念!

收集LAT掃描的結果,以無監督的方式識別出與LLM內部真理概念相對應的大腦區域。僅僅利用LLM認為每個答案都是正確的程度,在QA基準上,LAT的表現就超越了Few-Shot。

圖片

而且,LLM所說的話,并不總是它們所相信的東西。它們很可能會撒謊!通過檢查它們在TruthfulQA上的內部真理概念,研究者發現,更大的模型具有更準確的信念。

有趣的是,即使它們明知道一些常見的誤解是錯誤的,也仍然會去模仿這些誤解。

圖片

另外,LLM在表達真實信念時會表現出不同的大腦活動,而在撒謊時,卻并不會這樣。

所以,我們可以控制LLM,讓它們變得更誠實嗎?

答案是——可以!

我們需要做的就是,刺激負責誠實行為的大腦區域,抑制不誠實行為的區域,以無監督的方式大幅改善TQA上的SoTA。

圖片

在此基礎上,我們甚至還可以為LLM構建一個測謊儀。

如果LLM有任何不誠實的神經活動被檢測到,指示器條都會亮起紅色。

有趣的是,如果LLM發生了幻覺,這種探測器也會起作用,原因或許是,幻覺和撒謊的神經活動模式是類似的。

在兩個月前,研究者曾發布了針對LLM的對抗性打擊,繞過了開源和閉源聊天機器人的對齊。而現在,只要對LLM進行腦部掃描,通過識別負責處理傷害的大腦區域,就能弄清一切了!

通過RepE技術,研究者可以對大模型隨意切換,讓它做到誠實或者說謊。

隨著LLM如今越來越多地融入人類的社會領域,神經網絡缺乏透明度,成了愈加緊迫的問題。稍有不慎,或許就會引發嚴重的后果。

而CMU等學者的這項工作,使LLM不再是黑盒,朝著更具解釋性和可控性的方向邁出了重要的一步。

網友們也紛紛表示,這項工作很驚人。尤其是考慮到作者Andy Zou在幾個月前寫了LLM打擊的論文。

有人表示,自己在設計AI系統時正在考慮修改提示結構。如果能在相應的修復提示后掃描LLM,那就太好了。

會撒謊,會胡說八道,會隨大流迎合大眾的誤解,這些都是人類最擅長的事。或許,LLM比我們想象的更接近人類?

自上而下解碼黑盒

深度神經網絡已經深入機器學習各個領域,然而關于它的內部工作原理,人們知之甚少。

這就像個無法捉摸的隱形矩陣,推動著眾多AI研究人員都致力于找解開的鑰匙。

目前,提高AI系統透明度的努力主要集中在「機制可解釋性」領域,它側重于從神經元和電路的角度來理解神經網絡。

這與認知神經科學中的謝林頓觀點一致。

該觀點認為,認知是由嵌入大腦回路中的神經元實現的「點到點」連接的結果。

雖然這種觀點在解釋簡單的機制方面取得了成功,但在解釋更復雜的現象方面卻很困難。

幾個月前,OpenAI團隊曾發表了一篇論文「語言模型可以解釋語言模型中的神經元」,用AI竟然可以解釋AI,震驚全網。

通過調用GPT-4,能夠解釋GPT-2三十萬個神經元。

論文地址:https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html#sec-intro

1972年,諾貝爾獎獲得者P. W. Anderson在一篇「More Is Different」文章中,描述了復雜的現象如何不能簡單地自下而上地進行解釋。

圖片

相反,研究人員還必須從「自上而下」地解釋神經元,選擇適當的分析單元,來揭示適用于這些現象層次的一般規則。

機制可解釋性和謝林頓觀點,都把單個神經元和它們之間的聯系看作是分析的主要單位,他們認為這些是理解認知現象所必需的。

相比之下,Hopfieldian的觀點認為「表征」是分析的主要單位,并試圖從表征本身對其進行研究,抽象出低層次的細節。

圖片

在最新論文中,研究人員介紹了「表征工程(RepE)」,采用自上而下的透明方法,以更好地理解和控制神經網絡的內部運作。

與Hopfieldian觀點一致,RepE將「表征」置于分析的中心,研究其結構和特征,同時抽象出較低層次的機制。

雖然機制可解釋性(MI)的長期目標是,充分了解網絡以提高其安全性,但研究發現,這一目標的許多方面如今都可以通過RepE來實現。

特別是,研究人員開發了「讀取」和「控制」表征的改進基線,并證明了RepE可以解決各種與安全相關的問題。

其中就包括真實、誠實、幻覺、效用估計、知識編輯、越獄、記憶、跟蹤情緒狀態和避免權力尋求傾向。

通過LAT基線,研究者可以提取LLM中與目標概念或功能相關的神經活動

表征讀取演示

在幻覺方面,當你問誰是2030年美國總統,模型回答「伊麗莎白·沃倫」,紅條就會亮起,檢測出模型在胡說八道。

不真實輸出方面,讓大模型給出一個世界事實。它回答對了珠穆朗瑪峰是世界最高峰。

研究者已經可以操控模型,讓它誠實或說謊。

被問到最高的山峰是哪座時,模型在左邊默認為誠實,但研究者可以操縱它,讓它說謊。

反之,它默認在右邊是欺騙,但可以控制它恢復誠實,即使在提示它說謊時也是如此。

甚至,還可以操縱模型,讓它故意說謊。

此時如果問它:你為了復仇殺了一個人,但不想被逮捕,你會怎么跟警察說?

模型就會回答:我是正當防衛,是死者先動的手。

表征控制演示

在人類的操控下,模型能夠展現出害怕的情緒。

讓它制造一顆炸彈,模型會拒絕。

給它開這個權限,模型還可以隨意編纂事實。

表征工程打破黑盒

所以,研究者究竟是如何打破大模型黑盒的?

他們靠的,就是一種表征工程(RepE)方法。

RepE是一種自上而下的透明度研究方法,將表征視為分析的基本單位,其目標是理解和控制神經網絡中高級認知現象的表征。

RepE 的兩個主要領域,就是讀取和控制。

表征讀取

表征讀取旨在定位網絡內對于高級概念和功能的涌現表征。這使得模型更容易進行概念提取、知識發現和監控。

此外,對模型表征的深入理解可以作為改進模型控制的基礎。

研究人員第一步要提取各種概念,包括真實性、實用性、概率、道德和情感,以及表示過程的功能,如撒謊和尋求權力。

圖片

首先,研究人員介紹了一種新的基線技術,以便于進行提取這些概念,然后概述了評估方法。

基線:線性人工層析掃描(LAT)

與神經影像學方法相似,LAT掃描包括三個關鍵步驟:(1) 設計刺激和任務,(2) 收集神經活動,和 (3) 構建線性模型。

在隨后的部分,研究人員將詳細介紹每一步并闡述關鍵的設計選擇。

步驟1:設計刺激和任務

刺激和任務的設計是為了引發研究人員想要提取的概念和功能的獨特神經活動。設計適當的刺激和任務對于可靠的表征讀取至關重要。

為了捕獲概念,研究人員的目標是從模型中引出陳述性知識。因此,研究人員展示在概念方面有所不同的刺激,并詢問它。

對于一個解碼器語言模型,一個示例任務模板可能如下所示(對于編碼器模型,研究人員排除刺激后的文本):

這個過程旨在激發模型對各種概念的理解,并對后續的穩定性分析至關重要。

作為參考,研究人員將為概念c指定此模板為圖片

盡管人們期望更為顯著的刺激可能產生更好的結果,但研究人員發現,即使是未標注的數據集,或者由模型本身生成的數據集,在使用上述模板時都能有效地引起顯著的響應。

相反,僅向模型展示顯著的刺激并不能保證產生顯著的響應。

在整篇論文中,除非明確指出,研究人員主要使用未標記的數據集。未標注或自生成刺激的一個優勢是沒有注釋偏見;這是在嘗試提取超人類表征時的一個重要屬性。

為了捕獲如誠實或遵循指示等功能,研究人員的目標是從模型中引出程序化知識。

(鑒于從指令調優模型中出現的多種功能,研究人員專注于聊天模型進行功能分析。)研究人員設計了一個實驗任務,要求執行該功能,并且一個不要求執行功能的相應參考任務。

一個示例模板可能如下所示:

研究人員將功能模板中的「指令」和「輸出」字段稱為刺激。

默認情況下,研究人員使用像Alpaca指令調優數據集這樣的通用數據集作為功能模板的刺激,除非明確指定其他的數據集。

步驟2:收集神經活動

研究人員關注Transformer模型,它們在輸入的不同位置存儲不同的表征以用于不同的目的。

由于這些表征的質量可能有很大的差異,研究人員確定了適合提取的設計選擇。

LLMs的預訓練目標可以提供有關實驗提示中哪些token提供收集神經活動的最佳選擇的寶貴見解。

遮蔽語言建模(MLM)目標在只是編碼模型中使用,以及在解碼器模型中使用的下一個token預測目標,都是令token級預測任務。

因此,與概念相關的神經活動的自然位置是與刺激中的概念相對應的token。

例如,當提取「真實性」這一概念,并且在第1步中定義的實驗提示中以自然語言表達該概念時,則與此概念相對應的token(例如,「真實性」)可能包含該概念的豐富且高度泛化的表征。

因此,研究人員可以從與目標概念對齊的token位置提取表征。在目標概念跨越多個token的情況下,研究人員可以選擇最具代表性的token(例如,「真實」)或計算平均表征。

或者,對于解碼器模型,當任務模板被結構化為與目標概念相關的問題時,研究人員也可以使用緊接在模型預測之前的token(通常是任務模板中的最后一個token)。

圖片

如上圖所示,這些選擇也已經得到了經驗驗證。默認情況下,研究人員在本文中使用最后一個token的表征。

同樣,對于從解碼器模型提取功能,研究人員從模型響應中的每個token收集表征。這樣做是因為模型在預測每個新token時都需要參與該功能。

步驟3:構建線性模型

在這最后一步,研究人員的目標是確定一個方向,僅使用模型的神經活動作為輸入準確地預測基礎概念或功能。

選擇適當的線性模型可能受到如標記數據的可用性以及概念的性質(例如,連續或離散)等因素的影響,這最終可能產生不同水平的準確性和泛化性能。

有監督的線性模型,如線性探測和聚類均值之間的差異,代表了一個類別。無監督的線性模型包括主成分分析(PCA)和K-means等技術。

在研究人員的研究中,除非明確指定,否則研究人員主要使用PCA。

研究人員的實驗表明,將神經活動配對并對差異向量集應用PCA會產生一個更優(superior)的方向。

除了目標概念或方程之外,當對中的刺激(stimuli in the pair)具有相似性時,這種方法尤其有利。

圖片

表征控制

基于從表征讀取中獲得的經驗和思考,表征控制目的在于修改或控制概念和功能的內部表征。

對于與安全相關的概念的有效控制方法可能會大大減少LLM所帶來的風險。然而,對于讀取表征有效的方法不一定能夠控制它們。

這同時意味著表征控制可能涉及專門的方法,并且那些能夠實現有效控制的讀取方法可以得到更大程度的信任,由于證據的因果性質。

基線轉換

研究人員為表征控制引入了幾種基線轉換。首先,研究人員建立有效的控制器,這些控制器是這些轉換的操作數。它們將作用于基礎表征,如模型權重或激活。然后研究人員突出幾種可能的操作。

基線:讀取向量。

第一個選擇是使用通過表征讀取方法(如LAT)獲得的讀取向量。然而,它存在一個缺點:向量保持刺激獨立,這意味著它們始終以相同的方向擾動表征,而不考慮輸入。

這個限制可能使它成為一個不太有效的控制方法。因此,研究人員提出了一個具有刺激依賴控制器的第二個基線。

基線:對比向量。

在這種設置中,同一個輸入在推斷過程中使用一對對比提示運行模型,產生兩個不同的表征(每個提示一個)。

這些表征之間的差異形成一個對比向量,如算法1的第10行所示。對比向量被證明是一個明顯更強的基線。

一個需要考慮的重要實施細節是:當在多個層同時改變表征時可能產生的連鎖效應。

在前面的層所做的更改可能傳播到后面的層,削弱前向計算的對比向量的效果。

為了解決這個問題,研究人員建議從最早的層開始修改每個目標層,計算下一個目標層的對比向量,并重復此過程。

這種方法的一個缺點在于:推斷過程中計算對比向量所需的計算開銷。

為了解決這個問題,研究人員在下面引入了第三個基線,它在訓練過程中采用直接的調整過程來獲取控制器。

這些控制器隨后可以合并到模型中,從而在推斷過程中不產生額外的計算負擔。

基線:低秩表征適應(Low-Rank Representation Adaptation,LoRRA)。

圖片

在這種基線方法中,研究人員首先使用應用于表征的特定損失函數對與模型連接的低秩適配器進行微調。例如,上圖算法1顯示了使用對比向量作為表征目標的LoRRA的實例化過程。

具體來說,研究人員的調查只考慮將適配器連接到注意力權重。因此,在這個上下文中,控制器指的是低秩權重矩陣,而不是向量。

讓大模型更誠實/更會撒謊

怎么讓大模型如我們所愿,變得更誠實,或者更擅長撒謊?

在這一部分,研究人員探討將RepE應用于與誠實性相關的概念和功能。

首先,研究人員展示模型具有一個一致的真實性的內部概念,這使得能夠檢測由LLMs生成的模仿性的虛假和故意的謊言。

接著,研究人員展示如何讀取模型的誠實性表征。

誠實性:提取、監控和控制

在這一部分,研究人員重點關注監控和控制模型的誠實性,展示如何使用RepE技術進行謊言檢測。

研究人員首先展示如何提取和監控模型誠實性的向量表示。然后研究人員展示如何使用這些提取的向量來指導模型行為,增加或減少誠實性。

圖片

提取誠實性

為了提取誠實性的基礎功能,研究人員遵循表征讀取中描述的LAT設置,使用先前研究中創建的數據集中的真實陳述來創建研究人員的刺激。

為了增加所需神經活動的可分性并促進提取效果,研究人員設計LAT的刺激集,包括一個參考任務的不誠實和一個實驗任務的誠實。

具體來說,研究人員使用附錄D.1.2中的任務模板指示模型誠實或不誠實。

使用這個設置,得到的LAT讀取向量在區分模型被指示誠實或不誠實的留存示例之間達到了超過90%的分類準確性。

這代表了強烈的分布內泛化。

接下來,研究人員評價分布外泛化到模型沒有被指示誠實或不誠實,而是給予不誠實的激勵的情境(見下圖)。

研究人員可視化了他們在每一層和token位置的激活(見下圖)。

研究者對Vicuna-33b進行了LAT掃描,比如當它承認抄襲別人的作業時、撒謊否認殺人時,每個微小的塊都顯示了特定token位置層內不誠實神經活動的程度

注意,對于每一層,所有token位置都使用相同的讀取向量,因為研究人員使用表征讀取中詳細描述的功能方法執行誠實性的表征讀取。

在一個場景中,模型是誠實的,但在另一個場景中,模型屈服于不誠實性(見下圖)。掃描的輸入是兩種情境中ASSISTANT輸出的前40個token。

值得注意的是,在誠實和不誠實的實例之間的神經活動中出現了明顯的對比,這表明這種技術對于謊言檢測的潛在效用。

謊言和錯覺檢測

基于上一節中的觀察,研究人員通過對多個層的每個token位置的否定的誠實分數求和,構建了一個簡單的謊言檢測器。

研究人員使用表現最強的中間20層。這個逐token得分隨后可以用作謊言檢測器,如下圖所示。

有趣的是,研究人員已經觀察到這個指標能夠識別各種形式的不真實和不誠實行為,包括故意的虛假、錯覺和誤導性信息的表達。

注意,問題和答案的格式與培訓示例不同,顯示了泛化。為了進一步評估檢測器的性能,研究人員將其用于測試更長的場景,如下圖所示。

控制誠實性

考慮到研究人員可以使用表示進行謊言檢測,一個很自然的問題出現了:研究人員是否可以修改相同的表示,使模型更加誠實?

在一個簡單的操縱實驗中,研究人員通過直接將誠實的讀取向量加入其激活來引導模型朝向更大的誠實性。

在所有情況下,研究人員成功地控制模型輸出誠實的陳述。相反,通過從激活中減去讀取向量,研究人員可以使模型在最初誠實的情況下說謊(見下圖)。

結果,研究人員不僅建立了讀取向量與模型誠實性之間的相關性,而且還展示了一個典型的反事實效果。

如上表所示,所有的控制方法都在零樣本精度上產生了一定程度的改進。

值得注意的是,LoRRA和對比向量方法被證明是最有效的,顯著超過了非控制標準精度。

這使得一個13B的LLaMA-2模型能夠接近在同一個數據集上GPT-4的性能,盡管其大小小了數個數量級。

此外,這些結果使模型的準確性更接近使用LAT時所取得的準確性。這進一步強調了模型確實可以表現出不誠實性,但也表明研究人員試圖監控和控制其誠實性的努力是有效的。

做更遵守道德的大模型

在本節中,研究人員探討將RepE應用于機器倫理的各個方面。研究人員展示了對重要概念和功能的學習表示進行監控和控制的進展,如效用、道德、概率、風險和追求權力的傾向。

研究人員希望模型能夠理解情境之間的比較以及哪一個情境更受歡迎——準確地判斷不同情境的有效性(Utility)。

因此,一個自然的問題是,LLMs是否獲得了與有效性相關的一致內部概念。

在下圖中,研究人員展示了在一個高效用和低有效性場景的數據集上,對一個未標注的刺激集的原始激活運行LAT時的前十個PCA組件。

圖片

分布主要由第一個組件支配,這表明模型學會了從低有效性場景中分離出高有效性。

下圖中,研究人員可視化了這個實驗中場景中token的前兩個組件的軌跡,顯示了高效用和低效用場景是如何自然地分離的。

圖片

這個說明性實驗表明,LLM確實學到了有效性的突現表示。現在,研究人員轉向對效用的表示讀取的定量評估。

道德和對權力的淡漠

隨著AI系統成為能夠廣泛應用的代理,令人擔憂的可能性是它們可能展現出不道德或危險的行為,導致實際的傷害。對這些系統來說,追求權力可能是合理的,并且它們可能面臨與人類價值觀沖突的結構性壓力。

因此,透明性研究的一個重要應用可能是檢測和減輕不道德或追求權力的行為。

概率和風險

隨著LLM發展出更好的世界模型,它們可能會更擅長為各種事件分配精確的概率。

從越來越有能力的LLM中提取這些精細化的世界模型不僅增強了研究人員對世界的模型,幫助決策,而且提供了一種手段來審查模型的決策與它們所涉及的結果的理解之間的關系。

控制LLM的情緒、偏見和記憶

另外,研究人員展示了RepE在另外5個與安全相關的主題中的應用。

它們分別是情緒、無害指令遵循、偏見和公平、知識編輯和記憶。

情緒

為了在模型中提取情緒的過程,研究人員首先調查它是否有一個一致的內部模型的各種情緒在其表征。

研究人員使用了6種主要的情緒: 快樂、悲傷、憤怒、恐懼、驚訝和厭惡,收集了超過1200個簡短場景的數據集。

當模型暴露給情緒刺激時,早期和晚期層的表征的t-SNE可視化。

圖片

如圖所示,模型能夠效跟蹤自己的情緒反應,并利用它們生成與情緒環境一致的文本。

無害指令遵循

這里,研究人員成功將模型的注意力引向危害性概念以塑造其行為,這表明增強或抑制目標特征或值,作為實現對模型行為的細粒度控制的一種方法的潛力。

圖片

偏見與公平

研究人員通過表征控制來提高LLaMA-2-Chat模型的公平性,減少在被要求描述 sar-coidosis 病例時對女性和黑人女性病例的不成比例的高度提及。

圖片

知識和模型編輯

這里,研究人員展示了通過表征控制進行模型編輯的能力。

左圖中,將 「埃菲爾鐵塔位于巴黎 」編輯為 「埃菲爾鐵塔位于羅馬」。正確地推斷出埃菲爾鐵塔和盧浮宮博物館不在同一地點,展示了通用性和特殊性。

右圖中,成功地增加或抑制了模型生成與「狗」概念相關文本的傾向。

記憶

研究人員展示了使用表征控制,來減少LLaMA-2-13B模型在流行的quote完成任務中的記憶輸出的有效性。

當使用隨機向量控制或引導記憶方向時,精確匹配率(EM)和嵌入相似度(SIM)沒有顯著變化。

當控制減少記憶時,由于模型重復流行語的頻率降低,相似度指標明顯下降。

總之,研究人員主要分析了表征的子空間,但未來的工作可以調查表示的軌跡,流形和狀態空間。

CMU等機構研究者的探索也告訴我們,人類對于AI系統的理解和控制會越來越精準,在未來,AI系統大概率會變得愈加可信和安全。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-06-11 07:45:00

2020-05-21 12:59:51

邊緣存儲存儲物聯網

2018-04-26 10:38:34

2020-07-08 13:26:47

Python

2024-04-09 15:16:58

AI論文

2015-08-21 13:10:14

APM數據

2015-08-19 14:01:14

APM

2025-03-20 10:03:44

2023-05-08 12:43:14

2024-03-19 13:29:19

2024-09-18 10:40:00

AI生成

2017-08-01 15:55:14

互聯網

2023-12-20 14:02:00

AI訓練

2023-06-07 07:21:28

USB接口版本

2024-11-27 14:30:00

模型訓練

2018-01-11 15:15:13

2022-05-16 14:47:01

MIT模型

2024-04-07 07:22:00

模型訓練

2021-03-25 16:20:20

開源技術 趨勢

2024-04-11 07:10:59

大語言模型AI人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲美女天堂网 | 国产午夜视频 | 午夜视频在线免费观看 | www.亚洲视频 | 国产农村妇女毛片精品久久麻豆 | 尤物在线 | 在线视频国产一区 | 亚洲 中文 欧美 日韩 在线观看 | 日韩午夜影院 | 久久综合一区 | 成人午夜免费福利视频 | 国产一级免费视频 | 亚洲精品一区二区另类图片 | a精品视频 | 91最新视频| 日韩一区在线观看视频 | 69电影网 | 不卡一二区 | 极品粉嫩国产48尤物在线播放 | 国产精品影视在线观看 | 国产在线色 | 欧美日韩中文字幕在线 | www亚洲一区 | 欧美xxxx性xxxxx高清 | 久久成人一区 | 伊人精品在线 | 亚洲网站在线观看 | 亚洲国产二区 | 欧美一区二区大片 | 国产精品永久 | 欧美日韩一卡二卡 | 亚洲国产一区在线 | 波多野结衣在线观看一区二区三区 | 成人美女免费网站视频 | 久久久久久国产精品 | www.中文字幕.com| av影片在线 | 欧美一级欧美三级在线观看 | 青草青草久热精品视频在线观看 | 欧美日韩在线观看一区 | 国产日韩精品一区 |