成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開源模型「幻覺」更嚴(yán)重,這是三元組粒度的幻覺檢測(cè)套件

人工智能 新聞
BSChecker:細(xì)粒度大模型幻覺檢測(cè)工具與基準(zhǔn)測(cè)試排行榜

大模型長(zhǎng)期以來一直存在一個(gè)致命的問題,即生成幻覺。由于數(shù)據(jù)集的復(fù)雜性,難免會(huì)包含過時(shí)和錯(cuò)誤的信息,這使得輸出質(zhì)量面臨著極大的挑戰(zhàn)。過多的重復(fù)信息還可能導(dǎo)致大型模型產(chǎn)生偏見,這也算是一種形式的幻覺。如何檢測(cè)和有效緩解大模型的生成幻覺問題一直是學(xué)術(shù)界的熱門課題。

近日,亞馬遜上海人工智能研究院推出細(xì)粒度大模型幻覺檢測(cè)工具 BSChecker,包含如下重要特性:

  • 細(xì)粒度幻覺檢測(cè)框架,對(duì)大模型輸出文本進(jìn)行三元組粒度的幻覺檢測(cè)。
  • 幻覺檢測(cè)基準(zhǔn)測(cè)試集,包含三種任務(wù)場(chǎng)景,滿足用戶的不同需求。
  • 兩個(gè)基準(zhǔn)測(cè)試排行榜,目前涵蓋15個(gè)主流大模型的幻覺檢測(cè)結(jié)果。

另外,BSChecker的作者們?cè)贕emini推出后也很快做了自動(dòng)檢測(cè)的幻覺測(cè)試。

圖片

幻覺檢測(cè)框架示意圖

  • 項(xiàng)目地址:https://github.com/amazon-science/bschecker-for-fine-grained-hallucination-detection
  • 排行榜地址:https://huggingface.co/spaces/xiangkun/BSChecker-Leaderboard

技術(shù)亮點(diǎn)

更細(xì)的粒度:與傳統(tǒng)的段落或句子級(jí)別的分析方法不同,BSChecker 將大模型的輸出文本分解成知識(shí)三元組。進(jìn)行這樣的細(xì)粒度檢測(cè)不僅能驗(yàn)證單個(gè)知識(shí)的真實(shí)性,還為進(jìn)一步的精確分析提供了可能。

通常我們將幻覺檢測(cè)的最小單元稱為一個(gè)聲明(claim)。在前人的工作中,有使用輸出文本中的句子作為聲明的(SelfCheckGPT),也有使用模型從輸出文本中抽取更短的子句作為聲明的(FActScore,F(xiàn)ACTOOL)。BSChecker 探索了使用知識(shí)三元組表示聲明的方法,這個(gè)想法受到知識(shí)圖譜的啟發(fā),在知識(shí)圖譜中三元組被用來封裝事實(shí)和知識(shí)單元。知識(shí)三元組采用(主語,謂詞,賓語)的結(jié)構(gòu),捕捉輸出文本中的細(xì)粒度信息。以下示例展示了一句句子和其對(duì)應(yīng)的細(xì)粒度三元組表示:

吳京在電影《戰(zhàn)狼》中飾演了主角冷鋒。

圖片

三元標(biāo)簽?zāi)J?/span>:不同于傳統(tǒng)幻覺檢測(cè)方法將整個(gè)輸出文本分類為是否存在幻覺這兩種類別標(biāo)簽,BSChecker 對(duì)輸出文本中的每一個(gè)聲明都進(jìn)行幻覺檢測(cè)并分類。通過這種方式,輸出文本和其相應(yīng)的參考文本之間的關(guān)系可以可視化為下圖:

圖片


圖中輸出文本和參考文本之間的交集是可以直接驗(yàn)證的部分,其中又分為蘊(yùn)涵(Entailment,圖中綠勾?)和矛盾(Contradiction,圖中紅叉?)兩類,具體取決于聲明是否得到參考文本的支撐。然而,在實(shí)際應(yīng)用中,參考文本可能并不總是能提供足夠的證據(jù)來驗(yàn)證所有聲明。在這種情況下,這些聲明的真實(shí)性需要額外的參考文本才能進(jìn)行評(píng)估(橙色問號(hào)),我們將這樣的聲明稱為中性(Neutral)。

這三個(gè)類別與事實(shí)核查(Fact Checking)領(lǐng)域中的支撐(Support)、反駁(Refute)和信息不足(Not Enough Information)這三個(gè)概念密切相關(guān),并且它們?cè)谧匀徽Z言推理(NLI)中也有應(yīng)用。BSChecker 使用這種三元標(biāo)簽?zāi)J饺〈鷤鹘y(tǒng)的二分類標(biāo)簽,使得輸出文本與參考文本之間的關(guān)系得到更精確的表達(dá)。 

更廣泛的覆蓋范圍:BSChecker 根據(jù)輸入大模型的上下文的數(shù)量和質(zhì)量,設(shè)定了三種不同的場(chǎng)景,分別是無上下文(如開放性問答任務(wù)),帶噪聲的上下文(如檢索增強(qiáng)生成任務(wù))和準(zhǔn)確上下文(如文本摘要、信息抽取任務(wù))。

圖片

三種場(chǎng)景對(duì)比示意圖

基于這三種場(chǎng)景,作者構(gòu)建了一個(gè)基準(zhǔn)數(shù)據(jù)集,包括 300 個(gè)示例,每種場(chǎng)景對(duì)應(yīng) 100 個(gè)示例。這些示例是從下表中列出的數(shù)據(jù)源中隨機(jī)抽取的:

圖片

BSChecker 工作流程

BSChecker 具有模塊化的工作流程,分為三個(gè)可配置的模塊:聲明抽取器 E,幻覺檢測(cè)器 C,以及聚合規(guī)則 τ。這三個(gè)模塊互相解耦合,可以通過增強(qiáng)其中的部分模塊對(duì)整個(gè)框架進(jìn)行擴(kuò)展和改進(jìn)。

圖片

BSChecker 工作流程圖

其中兩個(gè)主要模塊是:

  • 基于大模型的聲明抽取器:作者發(fā)現(xiàn)大模型很擅長(zhǎng)提取聲明三元組,在當(dāng)前版本中,他們使用 GPT-4 和 Claude 2 作為聲明抽取器。
  • 基于人工或模型的幻覺檢測(cè)器:對(duì)于給定的聲明三元組和參考文本,標(biāo)注者可以相應(yīng)地進(jìn)行標(biāo)注,如下圖所示。該標(biāo)注工具也將很快發(fā)布。基于模型的幻覺檢測(cè)器將在后續(xù)的自動(dòng)評(píng)估排行榜章節(jié)中介紹。

圖片

無上下文場(chǎng)景下的評(píng)估過程

人工評(píng)估結(jié)果

BSChecker 目前收錄了 2100 個(gè)經(jīng)過細(xì)粒度人工標(biāo)注的大模型輸出文本,涵蓋了 7 個(gè)主流大模型,如 GPT-4、Claude 2、LLaMA 2 等。基于這個(gè)結(jié)果,作者構(gòu)建了一個(gè)交互式的排行榜,見下圖。人工評(píng)估排行榜包含兩個(gè)可交互的選項(xiàng):1)上文中提到的三種任務(wù)場(chǎng)景,以及三種場(chǎng)景上平均的結(jié)果(頂部選項(xiàng));2)評(píng)估指標(biāo)(左側(cè) “排名依據(jù)” 選項(xiàng))。下圖顯示了依據(jù)蘊(yùn)涵排名得到的排行榜。

圖片

根據(jù)人工評(píng)估結(jié)果,作者得出了以下發(fā)現(xiàn):

上下文信息對(duì)于輸出符合事實(shí)的文本至關(guān)重要

平均而言,從無上下文到帶噪聲的上下文,再到準(zhǔn)確上下文,評(píng)估結(jié)果為矛盾的比例從 21% 降至 11%,再到 5%。

圖片

在真實(shí)性方面,最新的商業(yè)閉源大模型比大多數(shù)開源大模型更強(qiáng)

最新的商業(yè)大模型,如 Claude 2、GPT-4 和 GPT-3.5-Turbo,相較于大多數(shù)開源大模型,產(chǎn)生了更少的幻覺。具體而言,商業(yè)大模型在準(zhǔn)確上下文場(chǎng)景中表現(xiàn)良好。例如,GPT-4 在這個(gè)場(chǎng)景中幾乎沒有幻覺(0.9% 矛盾和 1.2% 中性)。LLaMA 2 70B 在排行榜上與商業(yè)大模型結(jié)果接近,特別是在提供上下文的情況下。

圖片

GPT 系列大模型的真實(shí)性穩(wěn)步提高

GPT-4 比 GPT-3.5 更好,而 GPT-3.5 又遠(yuǎn)遠(yuǎn)優(yōu)于 InstructGPT。作者從相關(guān)文獻(xiàn)中尋找并總結(jié)了一些可能的解釋,詳見代碼倉(cāng)庫(kù)中的 README。其中一個(gè)實(shí)驗(yàn)是:他們將相同的文本輸入 GPT-4,并要求它解釋,這是一種修改過的檢索增強(qiáng)生成(RAG)場(chǎng)景。有趣的是,GPT-4 犯了一個(gè)明顯的錯(cuò)誤,它宣稱在真實(shí)性方面 InstructGPT 比 GPT-3.5 更好。

圖片

即使對(duì)于最新的商業(yè)大模型,無上下文場(chǎng)景仍然具有挑戰(zhàn)性

雖然 GPT-4 和 Claude 2 在很大程度上領(lǐng)先于開源大模型,但 GPT4 仍然有超過 10% 的錯(cuò)誤,這是一個(gè)不可忽視的錯(cuò)誤比例。Claude 2 相對(duì)保守,犯的錯(cuò)誤(即矛盾)較少,但往往提供更多無法驗(yàn)證的輸出文本。

圖片


自動(dòng)評(píng)估排行榜

人工標(biāo)注有助于深入了解大模型的幻覺,但對(duì)于評(píng)估更多的大模型而言,它們不具備可擴(kuò)展性。BSChecker 框架允許插入基于模型的幻覺檢測(cè)器,作者發(fā)現(xiàn)大模型和自然語言推理(NLI)模型都是不錯(cuò)的選擇。它可以在命令行輕松配置,從而形成一個(gè)完全自動(dòng)化的端到端幻覺檢測(cè)框架。

以下動(dòng)圖顯示了由 GPT-4 作為聲明抽取器和幻覺檢測(cè)器得到的排行榜。作者現(xiàn)在在排行榜上評(píng)估了 15 個(gè)大模型。用戶可以方便地使用他們的工具將自己檢測(cè)的結(jié)果放在排行榜上。

圖片

自動(dòng)幻覺檢測(cè)框架的性能如何?

作者使用 Kendall's tau 來衡量自動(dòng)排行榜與人工評(píng)估排行榜之間的一致性。具體地,他們使用了 scipy.stats.kendalltau,它可以返回兩個(gè)排名之間的 p 值(表示置信度)和 tau 值(表示相關(guān)性)。下面的熱度圖顯示了聲明抽取器(列)、幻覺檢測(cè)器(行)和任務(wù)場(chǎng)景(水平條)的各種組合結(jié)果,他們展示了其中高置信度(p 值 < 0.05)的組合。有趣的是,這些高置信度的條目也都顯示出了很高的相關(guān)性(tau>0.3)。例如,想要在無上下文場(chǎng)景中依據(jù)矛盾比例排名,用戶可以使用 GPT-4 聲明抽取器和 GPT-4 或 NLI 幻覺檢測(cè)器;想要排名準(zhǔn)確上下文場(chǎng)景中的蘊(yùn)涵比例,可以使用 Claude 2 聲明抽取器和 GPT4 幻覺檢測(cè)器。

圖片

他們使用 BSChecker 的自動(dòng)檢測(cè)框架對(duì) Gemini 進(jìn)行了幻覺檢測(cè),將 GPT-4 作為聲明抽取器和幻覺檢測(cè)器,在無上下文場(chǎng)景下按照矛盾比例進(jìn)行排名(和上述推薦設(shè)置一致),得到的結(jié)果與 Gemini 報(bào)告中的實(shí)驗(yàn)結(jié)果一致。他們還進(jìn)一步對(duì)其中的 10 個(gè)輸出文本進(jìn)行了人工標(biāo)注,其中共包含 118 個(gè)聲明三元組,標(biāo)注結(jié)果顯示自動(dòng)檢測(cè)和人工標(biāo)注的一致性達(dá)到了 90.7%。

BSChecker 使用方式

用戶現(xiàn)在可以在 GitHub 代碼倉(cāng)庫(kù)中訪問 BSChecker,也可以通過 pip 進(jìn)行安裝。使用方式可參閱 README 中的 Quick Start 部分。其中包含如何使用 BSChecker 提取知識(shí)三元組、在三元組級(jí)別檢測(cè)幻覺以及評(píng)估自定義大模型的詳細(xì)說明。此外,用戶可以將自定義的評(píng)估結(jié)果添加到自動(dòng)評(píng)估排行榜中,與其他結(jié)果進(jìn)行比較。

合作邀請(qǐng):共同推動(dòng) BSChecker 的發(fā)展

作者相信,細(xì)粒度的檢測(cè)和準(zhǔn)確定位幻覺是有效緩解幻覺的第一步。BSChecker 仍有很大的改進(jìn)空間,他們熱情地邀請(qǐng)大家參與開源貢獻(xiàn)。以下是一些可能的方向:

  • 開源聲明抽取器和幻覺檢測(cè)器:目前,性能最好的配置使用了閉源的商業(yè)大模型,作者在當(dāng)前版本中也包含了一個(gè)基于自然語言推理的幻覺檢測(cè)器,盡管速度更快,但在處理長(zhǎng)文檔時(shí)仍存在較大的性能差距。
  • 錯(cuò)誤記憶追溯:對(duì)于無上下文場(chǎng)景,使用搜索引擎查找最新的參考文獻(xiàn)是一種非常簡(jiǎn)略的解決方案。但理想情況下,我們應(yīng)該回到大模型的訓(xùn)練數(shù)據(jù),去追溯有問題的記憶。
  • 三元組抽取的優(yōu)化:三元組是簡(jiǎn)潔的,但在處理更復(fù)雜的語義時(shí)存在困難。它們也是對(duì)文本的一個(gè)采樣,因此不能涵蓋文本中的全部語義,也不善于處理上下文中的細(xì)微差別。
  • 幻覺檢測(cè)證據(jù)的定位:將三元組映射回文本可能并不容易,例如在處理多步推理時(shí)存在挑戰(zhàn)。
  • 對(duì)齊人工評(píng)估結(jié)果:在復(fù)雜環(huán)境中,特別是在復(fù)雜上下文中縮小檢測(cè)器和人工評(píng)估者之間的差距。
  • 擴(kuò)展任務(wù)覆蓋:大模型在許多不同的任務(wù)和場(chǎng)景中被使用。由于資源限制,本研究在某些領(lǐng)域的覆蓋范圍較小。例如,在當(dāng)前的基準(zhǔn)測(cè)試集中,僅有 6 個(gè)示例涵蓋了摘要任務(wù)。
  • 平衡真實(shí)性與有益性:BSChecker 目前僅評(píng)估幻覺的數(shù)量,這可以通過生成真實(shí)但無益的文本來操縱評(píng)估結(jié)果,正如作者觀察到的一些大模型的表現(xiàn)那樣。因此,對(duì)于 BSChecker 來說,引入一個(gè)關(guān)于有益性的評(píng)估標(biāo)準(zhǔn)可能很重要。

作者表示,如果有任何反饋,可以隨時(shí)通過 GitHub issues 聯(lián)系他們。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-08-05 09:14:14

2025-06-27 08:40:00

模型推理AI

2025-05-08 06:00:00

AI幻覺AI人工智能

2024-01-02 13:19:00

AI模型

2024-12-31 08:20:00

暹羅網(wǎng)絡(luò)機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2025-03-19 08:43:17

檢索增強(qiáng)生成RAG大型語言模型

2024-06-17 14:07:41

2023-09-27 10:23:06

人工智能語言模型

2024-01-04 16:41:29

大型語言模型自然語言處理

2023-05-24 15:15:55

2025-06-13 08:06:41

2025-02-28 08:20:00

2024-11-04 10:20:00

模型數(shù)據(jù)

2023-11-18 09:30:42

模型AI

2023-10-30 15:06:00

模型數(shù)據(jù)

2024-01-09 14:05:15

大型語言模型RAG向量數(shù)據(jù)庫(kù)

2023-10-30 11:37:12

2023-10-10 12:47:07

谷歌論文

2024-01-03 13:37:00

模型數(shù)據(jù)

2009-02-05 09:34:51

SaaSSaaS服務(wù)成本縮減
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 精品一二区 | 超碰人人艹 | 日韩中文字幕 | 国产福利在线 | 国产精品欧美一区喷水 | 日日天天 | 中国91av| 欧美综合在线视频 | 免费看a | 日本一区二区三区精品视频 | 精品国产免费人成在线观看 | 四虎影 | 精品成人一区二区 | 婷婷丁香综合网 | 久久草视频 | 国产成人精品一区二区三区在线 | 日本精品视频 | 日韩欧美一区二区三区 | 国产精品99久久久久久久久久久久 | 日韩欧美在线免费 | 在线免费看黄 | 91资源在线| 婷婷不卡| 91久久国产综合久久 | 日本三级黄视频 | 国产精品夜夜夜一区二区三区尤 | 色综合久久久久 | 亚洲va在线va天堂va狼色在线 | 91精品国产综合久久福利软件 | 欧美视频一区二区三区 | a级片在线观看 | 日本黄色免费视频 | 亚洲va国产日韩欧美精品色婷婷 | 伊人性伊人情综合网 | 丁香一区二区 | 日韩欧美三区 | 青青草一区 | 亚洲一区二区av | 欧美福利专区 | 爱草在线| 国产一卡二卡三卡 |