開源模型「幻覺」更嚴(yán)重，這是三元組粒度的幻覺檢測(cè)套件

作者：機(jī)器之心 2023-12-10 15:15:18

BSChecker：細(xì)粒度大模型幻覺檢測(cè)工具與基準(zhǔn)測(cè)試排行榜

大模型長(zhǎng)期以來一直存在一個(gè)致命的問題，即生成幻覺。由于數(shù)據(jù)集的復(fù)雜性，難免會(huì)包含過時(shí)和錯(cuò)誤的信息，這使得輸出質(zhì)量面臨著極大的挑戰(zhàn)。過多的重復(fù)信息還可能導(dǎo)致大型模型產(chǎn)生偏見，這也算是一種形式的幻覺。如何檢測(cè)和有效緩解大模型的生成幻覺問題一直是學(xué)術(shù)界的熱門課題。

近日，亞馬遜上海人工智能研究院推出細(xì)粒度大模型幻覺檢測(cè)工具 BSChecker，包含如下重要特性：

細(xì)粒度幻覺檢測(cè)框架，對(duì)大模型輸出文本進(jìn)行三元組粒度的幻覺檢測(cè)。
幻覺檢測(cè)基準(zhǔn)測(cè)試集，包含三種任務(wù)場(chǎng)景，滿足用戶的不同需求。
兩個(gè)基準(zhǔn)測(cè)試排行榜，目前涵蓋15個(gè)主流大模型的幻覺檢測(cè)結(jié)果。

另外，BSChecker的作者們?cè)贕emini推出后也很快做了自動(dòng)檢測(cè)的幻覺測(cè)試。

幻覺檢測(cè)框架示意圖

項(xiàng)目地址：https://github.com/amazon-science/bschecker-for-fine-grained-hallucination-detection
排行榜地址：https://huggingface.co/spaces/xiangkun/BSChecker-Leaderboard

技術(shù)亮點(diǎn)

更細(xì)的粒度：與傳統(tǒng)的段落或句子級(jí)別的分析方法不同，BSChecker 將大模型的輸出文本分解成知識(shí)三元組。進(jìn)行這樣的細(xì)粒度檢測(cè)不僅能驗(yàn)證單個(gè)知識(shí)的真實(shí)性，還為進(jìn)一步的精確分析提供了可能。

通常我們將幻覺檢測(cè)的最小單元稱為一個(gè)聲明（claim）。在前人的工作中，有使用輸出文本中的句子作為聲明的（SelfCheckGPT），也有使用模型從輸出文本中抽取更短的子句作為聲明的（FActScore，F(xiàn)ACTOOL）。BSChecker 探索了使用知識(shí)三元組表示聲明的方法，這個(gè)想法受到知識(shí)圖譜的啟發(fā)，在知識(shí)圖譜中三元組被用來封裝事實(shí)和知識(shí)單元。知識(shí)三元組采用（主語，謂詞，賓語）的結(jié)構(gòu)，捕捉輸出文本中的細(xì)粒度信息。以下示例展示了一句句子和其對(duì)應(yīng)的細(xì)粒度三元組表示：

吳京在電影《戰(zhàn)狼》中飾演了主角冷鋒。

三元標(biāo)簽?zāi)Ｊ?/span>：不同于傳統(tǒng)幻覺檢測(cè)方法將整個(gè)輸出文本分類為是否存在幻覺這兩種類別標(biāo)簽，BSChecker 對(duì)輸出文本中的每一個(gè)聲明都進(jìn)行幻覺檢測(cè)并分類。通過這種方式，輸出文本和其相應(yīng)的參考文本之間的關(guān)系可以可視化為下圖：

圖中輸出文本和參考文本之間的交集是可以直接驗(yàn)證的部分，其中又分為蘊(yùn)涵（Entailment，圖中綠勾?）和矛盾（Contradiction，圖中紅叉?）兩類，具體取決于聲明是否得到參考文本的支撐。然而，在實(shí)際應(yīng)用中，參考文本可能并不總是能提供足夠的證據(jù)來驗(yàn)證所有聲明。在這種情況下，這些聲明的真實(shí)性需要額外的參考文本才能進(jìn)行評(píng)估（橙色問號(hào)），我們將這樣的聲明稱為中性（Neutral）。

這三個(gè)類別與事實(shí)核查（Fact Checking）領(lǐng)域中的支撐（Support）、反駁（Refute）和信息不足（Not Enough Information）這三個(gè)概念密切相關(guān)，并且它們?cè)谧匀徽Z言推理（NLI）中也有應(yīng)用。BSChecker 使用這種三元標(biāo)簽?zāi)Ｊ饺〈鷤鹘y(tǒng)的二分類標(biāo)簽，使得輸出文本與參考文本之間的關(guān)系得到更精確的表達(dá)。

更廣泛的覆蓋范圍：BSChecker 根據(jù)輸入大模型的上下文的數(shù)量和質(zhì)量，設(shè)定了三種不同的場(chǎng)景，分別是無上下文（如開放性問答任務(wù)），帶噪聲的上下文（如檢索增強(qiáng)生成任務(wù)）和準(zhǔn)確上下文（如文本摘要、信息抽取任務(wù)）。

三種場(chǎng)景對(duì)比示意圖

基于這三種場(chǎng)景，作者構(gòu)建了一個(gè)基準(zhǔn)數(shù)據(jù)集，包括 300 個(gè)示例，每種場(chǎng)景對(duì)應(yīng) 100 個(gè)示例。這些示例是從下表中列出的數(shù)據(jù)源中隨機(jī)抽取的：

BSChecker 工作流程

BSChecker 具有模塊化的工作流程，分為三個(gè)可配置的模塊：聲明抽取器 E，幻覺檢測(cè)器 C，以及聚合規(guī)則 τ。這三個(gè)模塊互相解耦合，可以通過增強(qiáng)其中的部分模塊對(duì)整個(gè)框架進(jìn)行擴(kuò)展和改進(jìn)。

BSChecker 工作流程圖

其中兩個(gè)主要模塊是：

基于大模型的聲明抽取器：作者發(fā)現(xiàn)大模型很擅長(zhǎng)提取聲明三元組，在當(dāng)前版本中，他們使用 GPT-4 和 Claude 2 作為聲明抽取器。
基于人工或模型的幻覺檢測(cè)器：對(duì)于給定的聲明三元組和參考文本，標(biāo)注者可以相應(yīng)地進(jìn)行標(biāo)注，如下圖所示。該標(biāo)注工具也將很快發(fā)布。基于模型的幻覺檢測(cè)器將在后續(xù)的自動(dòng)評(píng)估排行榜章節(jié)中介紹。

無上下文場(chǎng)景下的評(píng)估過程

人工評(píng)估結(jié)果

BSChecker 目前收錄了 2100 個(gè)經(jīng)過細(xì)粒度人工標(biāo)注的大模型輸出文本，涵蓋了 7 個(gè)主流大模型，如 GPT-4、Claude 2、LLaMA 2 等。基于這個(gè)結(jié)果，作者構(gòu)建了一個(gè)交互式的排行榜，見下圖。人工評(píng)估排行榜包含兩個(gè)可交互的選項(xiàng)：1）上文中提到的三種任務(wù)場(chǎng)景，以及三種場(chǎng)景上平均的結(jié)果（頂部選項(xiàng)）；2）評(píng)估指標(biāo)（左側(cè) “排名依據(jù)” 選項(xiàng)）。下圖顯示了依據(jù)蘊(yùn)涵排名得到的排行榜。

根據(jù)人工評(píng)估結(jié)果，作者得出了以下發(fā)現(xiàn)：

上下文信息對(duì)于輸出符合事實(shí)的文本至關(guān)重要

平均而言，從無上下文到帶噪聲的上下文，再到準(zhǔn)確上下文，評(píng)估結(jié)果為矛盾的比例從 21% 降至 11%，再到 5%。

在真實(shí)性方面，最新的商業(yè)閉源大模型比大多數(shù)開源大模型更強(qiáng)

最新的商業(yè)大模型，如 Claude 2、GPT-4 和 GPT-3.5-Turbo，相較于大多數(shù)開源大模型，產(chǎn)生了更少的幻覺。具體而言，商業(yè)大模型在準(zhǔn)確上下文場(chǎng)景中表現(xiàn)良好。例如，GPT-4 在這個(gè)場(chǎng)景中幾乎沒有幻覺（0.9% 矛盾和 1.2% 中性）。LLaMA 2 70B 在排行榜上與商業(yè)大模型結(jié)果接近，特別是在提供上下文的情況下。

GPT 系列大模型的真實(shí)性穩(wěn)步提高

GPT-4 比 GPT-3.5 更好，而 GPT-3.5 又遠(yuǎn)遠(yuǎn)優(yōu)于 InstructGPT。作者從相關(guān)文獻(xiàn)中尋找并總結(jié)了一些可能的解釋，詳見代碼倉(cāng)庫(kù)中的 README。其中一個(gè)實(shí)驗(yàn)是：他們將相同的文本輸入 GPT-4，并要求它解釋，這是一種修改過的檢索增強(qiáng)生成（RAG）場(chǎng)景。有趣的是，GPT-4 犯了一個(gè)明顯的錯(cuò)誤，它宣稱在真實(shí)性方面 InstructGPT 比 GPT-3.5 更好。

即使對(duì)于最新的商業(yè)大模型，無上下文場(chǎng)景仍然具有挑戰(zhàn)性

雖然 GPT-4 和 Claude 2 在很大程度上領(lǐng)先于開源大模型，但 GPT4 仍然有超過 10% 的錯(cuò)誤，這是一個(gè)不可忽視的錯(cuò)誤比例。Claude 2 相對(duì)保守，犯的錯(cuò)誤（即矛盾）較少，但往往提供更多無法驗(yàn)證的輸出文本。

自動(dòng)評(píng)估排行榜

人工標(biāo)注有助于深入了解大模型的幻覺，但對(duì)于評(píng)估更多的大模型而言，它們不具備可擴(kuò)展性。BSChecker 框架允許插入基于模型的幻覺檢測(cè)器，作者發(fā)現(xiàn)大模型和自然語言推理（NLI）模型都是不錯(cuò)的選擇。它可以在命令行輕松配置，從而形成一個(gè)完全自動(dòng)化的端到端幻覺檢測(cè)框架。

以下動(dòng)圖顯示了由 GPT-4 作為聲明抽取器和幻覺檢測(cè)器得到的排行榜。作者現(xiàn)在在排行榜上評(píng)估了 15 個(gè)大模型。用戶可以方便地使用他們的工具將自己檢測(cè)的結(jié)果放在排行榜上。

自動(dòng)幻覺檢測(cè)框架的性能如何？

作者使用 Kendall's tau 來衡量自動(dòng)排行榜與人工評(píng)估排行榜之間的一致性。具體地，他們使用了 scipy.stats.kendalltau，它可以返回兩個(gè)排名之間的 p 值（表示置信度）和 tau 值（表示相關(guān)性）。下面的熱度圖顯示了聲明抽取器（列）、幻覺檢測(cè)器（行）和任務(wù)場(chǎng)景（水平條）的各種組合結(jié)果，他們展示了其中高置信度（p 值 < 0.05）的組合。有趣的是，這些高置信度的條目也都顯示出了很高的相關(guān)性（tau>0.3）。例如，想要在無上下文場(chǎng)景中依據(jù)矛盾比例排名，用戶可以使用 GPT-4 聲明抽取器和 GPT-4 或 NLI 幻覺檢測(cè)器；想要排名準(zhǔn)確上下文場(chǎng)景中的蘊(yùn)涵比例，可以使用 Claude 2 聲明抽取器和 GPT4 幻覺檢測(cè)器。

他們使用 BSChecker 的自動(dòng)檢測(cè)框架對(duì) Gemini 進(jìn)行了幻覺檢測(cè)，將 GPT-4 作為聲明抽取器和幻覺檢測(cè)器，在無上下文場(chǎng)景下按照矛盾比例進(jìn)行排名（和上述推薦設(shè)置一致），得到的結(jié)果與 Gemini 報(bào)告中的實(shí)驗(yàn)結(jié)果一致。他們還進(jìn)一步對(duì)其中的 10 個(gè)輸出文本進(jìn)行了人工標(biāo)注，其中共包含 118 個(gè)聲明三元組，標(biāo)注結(jié)果顯示自動(dòng)檢測(cè)和人工標(biāo)注的一致性達(dá)到了 90.7%。

BSChecker 使用方式

用戶現(xiàn)在可以在 GitHub 代碼倉(cāng)庫(kù)中訪問 BSChecker，也可以通過 pip 進(jìn)行安裝。使用方式可參閱 README 中的 Quick Start 部分。其中包含如何使用 BSChecker 提取知識(shí)三元組、在三元組級(jí)別檢測(cè)幻覺以及評(píng)估自定義大模型的詳細(xì)說明。此外，用戶可以將自定義的評(píng)估結(jié)果添加到自動(dòng)評(píng)估排行榜中，與其他結(jié)果進(jìn)行比較。

合作邀請(qǐng)：共同推動(dòng) BSChecker 的發(fā)展

作者相信，細(xì)粒度的檢測(cè)和準(zhǔn)確定位幻覺是有效緩解幻覺的第一步。BSChecker 仍有很大的改進(jìn)空間，他們熱情地邀請(qǐng)大家參與開源貢獻(xiàn)。以下是一些可能的方向：

開源聲明抽取器和幻覺檢測(cè)器：目前，性能最好的配置使用了閉源的商業(yè)大模型，作者在當(dāng)前版本中也包含了一個(gè)基于自然語言推理的幻覺檢測(cè)器，盡管速度更快，但在處理長(zhǎng)文檔時(shí)仍存在較大的性能差距。
錯(cuò)誤記憶追溯：對(duì)于無上下文場(chǎng)景，使用搜索引擎查找最新的參考文獻(xiàn)是一種非常簡(jiǎn)略的解決方案。但理想情況下，我們應(yīng)該回到大模型的訓(xùn)練數(shù)據(jù)，去追溯有問題的記憶。
三元組抽取的優(yōu)化：三元組是簡(jiǎn)潔的，但在處理更復(fù)雜的語義時(shí)存在困難。它們也是對(duì)文本的一個(gè)采樣，因此不能涵蓋文本中的全部語義，也不善于處理上下文中的細(xì)微差別。
幻覺檢測(cè)證據(jù)的定位：將三元組映射回文本可能并不容易，例如在處理多步推理時(shí)存在挑戰(zhàn)。
對(duì)齊人工評(píng)估結(jié)果：在復(fù)雜環(huán)境中，特別是在復(fù)雜上下文中縮小檢測(cè)器和人工評(píng)估者之間的差距。
擴(kuò)展任務(wù)覆蓋：大模型在許多不同的任務(wù)和場(chǎng)景中被使用。由于資源限制，本研究在某些領(lǐng)域的覆蓋范圍較小。例如，在當(dāng)前的基準(zhǔn)測(cè)試集中，僅有 6 個(gè)示例涵蓋了摘要任務(wù)。
平衡真實(shí)性與有益性：BSChecker 目前僅評(píng)估幻覺的數(shù)量，這可以通過生成真實(shí)但無益的文本來操縱評(píng)估結(jié)果，正如作者觀察到的一些大模型的表現(xiàn)那樣。因此，對(duì)于 BSChecker 來說，引入一個(gè)關(guān)于有益性的評(píng)估標(biāo)準(zhǔn)可能很重要。

作者表示，如果有任何反饋，可以隨時(shí)通過 GitHub issues 聯(lián)系他們。

責(zé)任編輯：張燕妮來源：機(jī)器之心