大模型在裝傻！谷歌蘋果最新發(fā)現(xiàn)：LLM知道但不告訴你，掌握知識比表現(xiàn)出來的多

作者：新智元 2024-10-21 11:00:00

人工智能新聞

近日，來自谷歌和蘋果的研究表明：AI模型掌握的知識比表現(xiàn)出來的要多得多！這些真實性信息集中在特定的token中，利用這一屬性可以顯著提高檢測LLM錯誤輸出的能力。

大模型的應用歷來受幻覺所擾。

這個幻覺可以指代LLM產(chǎn)生的任何類型的錯誤：事實不準確、偏見、常識推理失敗等等。

——是因為大模型學半天白學了嗎？并不是。

近日，來自谷歌和蘋果的研究表明：AI模型掌握的知識比表現(xiàn)出來的更多！

論文地址：https://arxiv.org/pdf/2410.02707

研究人員在LLM內(nèi)部表示上訓練分類器，以預測與生成輸出的真實性相關的各種特征。

結果表明LLM的內(nèi)部狀態(tài)編碼反映出的真實性信息，比以前認識到的要多得多。

這些真實性信息集中在特定的token中，利用這一屬性可以顯著提高檢測LLM錯誤輸出的能力。

雖說這種錯誤檢測無法在數(shù)據(jù)集中泛化，但好處是，模型的內(nèi)部表示可用于預測模型可能犯的錯誤類型，從而幫助我們制定緩解錯誤的策略。

研究揭示了LLM內(nèi)部編碼和外部行為之間的差異：可能編碼了正確的答案，卻生成了不正確的答案。

——簡單來說就是，LLM它知道，但它不想告訴你！

LLM在裝傻

作者建議將重點從以人類為中心的幻覺解釋轉移到以模型為中心的視角，檢查模型的中間激活。

不同于使用RAG或者依賴更強大的LLM judge，本文工作的重點是僅依賴于模型輸出的logits、softmax后的概率和隱藏狀態(tài)的計算。

錯誤檢測器

第一步是確定真實性信號在LLM中的編碼位置。

假設我們可以訪問LLM的內(nèi)部狀態(tài)（白盒），但不能訪問任何外部資源（搜索引擎或其他LLM）。

建立一個數(shù)據(jù)集D，由N個問題標簽對組成，對于每個問題，提示模型生成響應，從而得到一組預測答案。

接下來，比較LLM生成的回答與正確答案，從而構建錯誤檢測數(shù)據(jù)集（這一部可由AI代勞）。

實驗選擇了四個LLM：Mistral-7b，Mistral-7b-instruct-v0.2，Llama3-8b和Llama3-8b-instruct。

作者選取了10個跨越不同領域和任務的數(shù)據(jù)集：TriviaQA、HotpotQA（with/without context）、Natural Questions、Winobias、Winogrande、MNLI、Math、IMDB review sentiment analysis和另一個自制的電影角色數(shù)據(jù)集。

實驗允許無限制地生成響應以模擬現(xiàn)實世界LLM的用法，并貪婪地解碼答案。

性能指標

測量ROC曲線下面積以評估錯誤檢測器，這能夠反映模型在多個閾值中區(qū)分陽性和陰性情況的能力，平衡靈敏度（真陽性率）和特異性（假陽性率）。

錯誤檢測方法

Majority：始終預測訓練數(shù)據(jù)中最頻繁的標簽。
聚合概率/logits：從之前的研究中選取幾種方法，包括計算這些值的最小值、最大值或平均值。
P（True）：通過提示要求LLM評估其生成的正確性時。
Probing：在模型的中間激活上訓練一個小分類器，以預測已處理文本的特征，這里使用線性探測分類器對靜態(tài)token進行錯誤檢測。

作者認為，現(xiàn)有方法忽略了一個關鍵的細節(jié)：用于錯誤檢測token的選擇。

研究者通常只關注最后生成的token或取平均值，然而，由于LLM一般會生成長格式響應，這種做法可能會錯過重要的部分。

本文中，作者關注表示確切答案的token（EXACT ANSWER TOKENS），它代表了生成的響應中最有意義的部分。