AAAI2025|小紅書搜索廣告團隊提出幻覺檢測新方法:基于語義圖增強的不確定建模
大型語言模型(LLMs)在生成文本時容易出現“幻覺”,即生成不真實或不忠實的內容,這限制了其在實際場景中的應用。現有的研究主要基于不確定性進行幻覺檢測,利用 LLMs 的輸出概率計算不確定性,無需依賴外部知識或頻繁采樣。然而,這些方法通常只關注單個 Token 的不確定性,忽略了 Token 和句子之間復雜的語義關系,導致在多 Token 和跨句子的幻覺檢測中存在不足。
在 AAAI2025 上,小紅書搜索廣告算法團隊提出了一種基于語義圖增強不確定性建模的幻覺檢測方法。首先構建語義圖,捕捉實體和句子之間的關系;然后通過實體間的關系進行不確定性傳播,提升句子級別的幻覺檢測;最后,基于句子與其鄰居句子在語義圖中的矛盾概率,提出一種圖不確定性校準方法,用于不確定性計算。在 WikiBio 和 NoteSum 兩個數據集上的實驗表明,該方法在段落級別幻覺檢測中取得了顯著提升,性能提高了 19.78%。
論文標題:Enhancing Uncertainty Modeling with Semantic Graph for Hallucination Detection
論文地址:https://arxiv.org/abs/2501.02020
01、背景
大型語言模型憑借其龐大的參數量和先進的訓練方式,在互聯網行業的各大業務中得到了廣泛應用。然而,由于現有技術的局限性,大語言模型的“幻覺”問題依然無法完全避免。幻覺問題指的是模型生成不真實或忠實性低的內容,這嚴重影響了模型在實際應用中的可靠性。例如,在小紅書的廣告創意文本生成中(標題生成、封面二創、筆記輔助創作等業務中),幻覺問題可能導致用戶體驗下降。因此,幻覺檢測成為了一項至關重要的工作。
目前,業內的幻覺檢測方法主要分為三類:
1. 基于檢索增強的方法:依賴外部知識源,且需要復雜的驗證步驟。
2. 基于多次采樣的方法:需要多次調用語言模型API進行改寫,資源消耗巨大。
3. 基于不確定性的方法:利用文本中每個 Token 的輸出概率,通過不確定性度量計算幻覺得分。該方法只需模型執行一次推理,相對高效,因此備受關注。
然而,現有的不確定性方法仍存在兩個主要問題:
1. Token 間依賴關系未被充分建模:現有方法通常只關注單個 Token 的不確定性,忽略了 Token 之間復雜的語義關系。
2. 篇章級別不確定性計算不足:現有方法通常通過簡單平均句子不確定性來計算篇章級別的不確定性,忽略了句子之間的復雜關系。
02、方法
我們的方法從 Token、句子和篇章三個粒度依次進行不確定性建模,結合語義圖技術,顯著提升了幻覺檢測的準確性。
Token:受幻覺隨序列長度增加而累積的啟發,我們結合基于 LLMs 的條件概率分布統計與序列衰減,進行 Token 級別的不確定性計算。
句子:考慮到大部分幻覺由句子和段落中的實體及關系引發,我們進一步構建語義圖,用于句子和段落級不確定性計算。在句子級別,語義圖捕捉實體間的語義關系,支持幻覺傳播與計算,實體不確定性沿依賴關系傳播至相關實體。
篇章:在段落級別的幻覺檢測中,我們結合句子在語義圖中的鄰居節點進行不確定性校準與匯總。
2.1 Token 級別不確定性
受幻覺隨序列長度增加而累積的啟發,我們結合基于LLMs的條件概率分布統計與序列衰減,進行 Token 級不確定性計算。具體公式如下:
其中,我們抽取當前 Token 位置的所有詞表 Token 中的 Top-K 概率值,計算其最大值和方差。最大值和方差越大,表明模型對該 Token 的置信度越高,幻覺概率越低。同時,我們還引入了序列衰減項,隨著序列長度的增加,模型的不確定性也會相應增加。
2.2 句子級別不確定性
考慮到大部分幻覺由句子和段落中的實體及關系引發,我們構建了語義圖,用于句子和段落級不確定性計算。在句子級別,語義圖捕捉實體間的語義關系,支持不確定性傳播與計算。具體公式如下:
其中,實體不確定性通過語義路徑進行傳播,路徑強度由頭實體到謂詞的注意力分數和謂詞到尾實體的注意力分數求平均得到。全局不確定性則通過句子概率的分位點進行計算:
最后,我們將實體不確定性和全局不確定性進行加權求和,得到句子級別的不確定性,如下所示:
2.3 篇章級別不確定性
在篇章級別,我們通過指代消解和實體鏈接,構建篇章級別的語義圖。圖中每個節點代表一個句子,邊表示句子之間的語義關聯強度。我們使用自然語言推理(NLI)模型計算句子之間的沖突概率,并結合句子不確定性進行篇章級別的幻覺檢測。具體公式如下:
03、實驗
我們在 WikiBio 和 NoteSum 兩個數據集上進行了實驗。WikiBio 是目前最廣泛使用的幻覺檢測公開數據集,而 NoteSum 是小紅書構建的中文筆記數據集,專門用于驗證我們方法的有效性和泛化能力。
3.1 數據集構建
NoteSum 數據集的構建過程分為三個步驟:
- 搜集熱門筆記:我們首先收集站內各行業熱門的廣告筆記素材,并對可能涉及用戶隱私的信息進行過濾。
- 生成筆記摘要:利用 LLM 從這些長筆記中生成較短的摘要用于研究,采用了與 WikiBio 相同的標注方法,即也包含事實性和忠實性幻覺。
- 標注幻覺程度:依據 WikiBio 數據集的標注方式,我們對每一條筆記中的每個句子和整個篇章進行了詳細標注。每個句子被標注為 Factual(無幻覺)、Non-Factual*(部分幻覺)或 Non-Factual(嚴重幻覺),而每個篇章則被標注為一個介于 0 到 1 之間的連續性分數,表示整個篇章的幻覺程度。
3.2 評估指標
句子級別:我們使用傳統的分類AUC指標,分別評估模型對 Factual、Non-Factual* 和 Non-Factual 三個類別的分類能力。
篇章級別:由于篇章級別的幻覺分數是連續值,我們使用皮爾森相關系數和斯皮爾曼相關系數來評估模型預測的幻覺分數與人工標注的一致性。
3.3 基線方法
我們選擇了以下最新的幻覺檢測方法作為基線進行對比:
- GPT-3 Uncertainty:該方法使用 GPT-3 模型輸出每個 Token 的概率,然后計算各種傳統的不確定性分數(如負對數概率和熵)作為幻覺的程度。
- SelfCheckGPT:這是一種基于多次采樣的方法,依賴于LLM頻繁采樣進行一致性檢查。我們使用 Gpt-3.5-turbo 進行采樣,并應用四種方法來測量一致性,包括 BertScore、QA、Unigram 及它們的組合。
- FOCUS:這是 SelfCheckGPT 的不確定性改良版本,是目前性能最優的基于不確定性的檢測方法。我們使用 LLaMA-13B 和 LLaMA-30B 作為其方法的基座模型。
3.4 實驗結果
我們的方法在 WikiBio 和 NoteSum 數據集上均取得了最佳性能,尤其在篇章級別幻覺檢測中,性能提升了 19.78%,顯著優于現有方法。具體實驗結果如下:
句子級別:我們的方法在 Factual、Non-Factual* 和 Non-Factual 三個類別上的AUC指標均優于基線方法,尤其是在 Non-Factual 類別上,AUC提升了 12.85%。
篇章級別:我們的方法在皮爾森相關系數和斯皮爾曼相關系數上均取得了最高分,分別達到了 77.60 和 74.44 ,顯著優于其他基線方法。
我們還從 Token、句子、篇章三個維度進行了消融實驗,驗證了各個模塊的有效性:
Token 級別不確定性:移除最大值、方差或序列衰減項后,性能顯著下降,表明這些項對 Token 級別不確定性建模至關重要。
句子級別不確定性:移除實體不確定性或全局不確定性后,性能均有所下降,尤其是實體不確定性對篇章級別幻覺檢測的影響更大。
篇章級別不確定性:移除語義圖中的鄰居句子矛盾概率后,性能下降了約 2 個百分點,表明圖不確定性校準對篇章級別幻覺檢測的有效性。
我們進一步對句子級別中的基于語義關系的不確定傳播方法、實體和全局不確定性方法和篇章級別中的基于語義圖的不確定性檢測方法分別進行了可視化分析。
1. 基于語義關系的不確定性傳播
與基線方法 FOCUS(所有前置關鍵詞傳播到后置關鍵詞)對比,兩者對于NonFact(嚴重幻覺)樣本都能有效識別嚴重幻覺,對于 NonFact*(中等幻覺)和 Factual(無幻覺)樣本,FOCUS方法傾向于高估不確定性,導致與真實標簽之間存在較大差距。且FOCUS方法的三種不確定性得分非常接近,難以區分不同程度的幻覺。
本文提出的方法通過捕捉語義關系,減少了不確定性高估,能夠更精確地檢測不同程度的幻覺。
2. 實體和全局不確定性
隨著幻覺程度的增加(Factual → NonFact* → NonFact),實體不確定性和全局不確定性的得分均顯著上升,且基于兩者的分數,三種樣本類型之間的重疊較少,能夠被較好地區分。進一步驗證了實體不確定性和全局不確定性在句子級別幻覺檢測中的有效性,能夠有效區分不同程度的幻覺。
3. 基于語義圖的句子間不確定性檢測
與 Adjacent(僅考慮當前句子與前后相鄰句子的關系)和 Average(簡單平均所有句子的不確定性)兩種基線方法相對比,本文提出的基于語義圖的句子間不確定性檢測在 Pearson 和 Spearman 相關系數上均優于前者,更能有效捕捉長距離語義關系,顯著提升了段落級別幻覺檢測的性能。
04、結語
本文首次探索了語義圖在捕捉 Token 與句子之間復雜關系方面的潛力,提出了一種基于語義圖增強不確定性建模的幻覺檢測方法。通過對 Token、句子和篇章三個粒度的不確定性建模,我們顯著提升了幻覺檢測的準確性。實驗結果表明,該方法在多個數據集上均取得了顯著效果,尤其在篇章級別幻覺檢測中表現突出。未來,我們將進一步探索如何將現有知識圖與 AMR 圖結合,用于事實核查和幻覺檢測。
05、作者簡介
陳可迪
現碩士就讀于華東師范大學,小紅書搜索廣告團隊實習生。在 EMNLP、NAACL、COLING、AAAI 等機器學習、自然語言處理領域頂級會議上發表數篇一作論文,主要研究方向為大語言模型幻覺,大語言模型推理能力增強。
一帆(陶鑫琪)
小紅書 NLP 算法工程師(廣告創意生成方向),主要研究方向:大模型算法研究、文本可控式生成。
法明(丁博文)
小紅書 NLP 算法工程師(廣告創意生成方向),主要研究方向:大模型算法研究、文本可控式生成。
清良(謝靜文)
小紅書 NLP 算法工程師(廣告創意生成方向),主要研究方向:大模型算法研究、文本可控式生成。
神宗(謝明宸)
小紅書算法工程師(搜索廣告方向),主要研究方向:創意生成、模型預估、廣告冷啟動。