成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

詳解RAG應用開發幻覺檢測利器LettuceDetect?

譯文 精選
人工智能
本文全面介紹用于檢索增強生成(RAG)開發管道的輕量級幻覺檢測器LettuceDetect,并探討如何利用ModernBERT模型的擴展上下文窗口構建用于幻覺檢測的標記級分類器。

譯者 | 朱先忠

審校 | 重樓

簡介

最近,我們團隊推出了LettuceDetect框架,這是一款用于檢索增強生成(RAG)開發管道的輕量級幻覺檢測器。它是一種基于ModernBERT模型構建的基于編碼器的模型,根據MIT許可證發布,帶有現成的Python包和預訓練模型。

  • 是什么:LettuceDetect是一個標記級檢測器,可標記LLM回答中不受支持的片段。
  • 如何使用:在RAGTruth(18k個樣本)幻覺語料庫上進行訓練,利用ModernBERT模型實現長達4k個標記的上下文長度。
  • 開發原因:它解決了(1)先前僅編碼器模型中的上下文窗口限制;以及(2)基于LLM的檢測器的高計算成本。
  • 此框架的亮點主要體現在:

A.在RAGTruth幻覺語料庫上擊敗了之前基于編碼器的模型(例如Luna)。

B.尺寸僅為其一小部分,卻超越了經過微調的Llama-2-13B(引文2),并且推理效率極高。

C.完全開源,遵循MIT許可證。

LettuceDetect框架通過發現LLM輸出中的“過時的”部分來保持你的RAG框架一直最新。

快速鏈接

A.基礎模型

B.大型模型

  • Streamlit演示程序:訪問我們的Hugging Face空間或者是按照GitHub說明在本地運行。

為什么選擇LettuceDetect?

時至今日,大型語言模型(LLM)在NLP任務中取得了長足進步,例如GPT-4(引文4)、Llama-3模型(引文5)或Mistral(引文6)(還有更多)。盡管LLM取得了成功,但幻覺仍然是在高風險場景(例如醫療保健或法律領域)中部署LLM的主要障礙(引文7和8)。

檢索增強生成(RAG)技術嘗試通過將LLM的響應建立在檢索到的文檔中來減輕幻覺,從而提供模型可以參考的外部知識(引文9)。但是,盡管RAG是減少幻覺的有效方法,但LLM在這些設置下仍然會受到幻覺的影響(引文1)。幻覺是指輸出中的信息毫無意義、事實不正確或與檢索到的上下文不一致(引文8)。Ji等人(引文10)將幻覺分為以下幾類:

  • 內在幻覺:源于模型先前存在的內部知識。
  • 外在幻覺:當答案與所提供的上下文或參考資料相沖突時發生。

雖然RAG方法可以減輕內在幻覺,但它們并不能免受外在幻覺的影響。Sun等人(引文11)研究結果表明,模型傾向于優先考慮其內在知識而不是外部環境。由于LLM仍然容易產生幻覺,因此它們在醫學或法律等關鍵領域的應用仍然可能存在缺陷。

幻覺檢測的當前解決方案

當前的幻覺檢測解決方案可以根據所采用的方法分為不同的類別:

  • 基于提示的檢測器:這些方法(例如RAGASTrulensARES)通常利用零樣本或少量樣本提示來檢測幻覺。它們通常依賴于大型LLM(如GPT-4)并采用SelfCheckGPT(引文12)、LMvs.LM(引文13)或Chainpoll(引文14)等策略。雖然它們通常很有效,但由于重復調用LLM,計算成本可能很高。
  • 微調LLM檢測器:大型模型(例如Llama-2、Llama-3)可以進行微調以檢測幻覺(引文1和15)。這可以產生高精度(如RAGTruth作者使用Llama-2-13B或RAG-HAT對Llama-3-8B所做的工作所示),但訓練和部署需要大量資源。由于其規模較大且速度較慢,推理成本也往往較高。
  • 基于編碼器的檢測器Luna(引文2)等模型依賴于BERT樣式的編碼器(通常限制為512個標記)進行標記級分類。這些方法通常比在推理時運行完整的LLM更有效,但受到短上下文窗口和針對較小輸入優化的注意機制的限制。

適用于長上下文的ModernBERT

ModernBERT(引文3)是BERT的直接替代品,它是一種先進的僅編碼器的轉換器架構,在原始BERT模型上融入了幾項現代設計改進,例如它使用旋轉位置嵌入(RoPe)來處理最多8,192個標記的序列,使用取消填充優化來消除填充標記上浪費的計算,使用GeGLU激活層來增強表現力,并使用交替注意力來實現更高效的注意力計算。

LettuceDetect利用ModernBERT的擴展上下文窗口構建用于幻覺檢測的標記級分類器。這種方法避開了舊版基于BERT的模型的許多限制(例如,短上下文邊界),并避免了大型基于LLM的檢測器的推理開銷。我們的實驗表明,LettuceDetect的性能優于其他基于編碼器的系統,同時仍能與經過微調的LLM檢測器相媲美,而計算成本僅為后者的一小部分。

數據

RAGTruth是第一個大型開源(MIT許可證)基準,專門用于評估檢索增強生成(RAG)設置中的幻覺檢測。它包含18,000個帶注釋的樣本,涵蓋多個任務:

  • 問答(QA):從MS MARCO數據集中抽樣,其中每個問題最多檢索三個文檔,并提示LLM給出答案。
  • 數據到文本生成:基于Yelp開放數據集,其中LLM為抽樣企業生成評論。
  • 新聞摘要:使用來自CNN/DailyMail的隨機文檔,促使LLM提供摘要。

其中,RAGTruth中的每個樣本包括:

  • 一個問題和一個提示;
  • 一個或多個參考段落或上下文文檔;
  • LLM生成的響應;
  • 跨度級別的人工注釋,表明答案的任何部分是否沒有事實依據或與參考段落相矛盾。

下面是來自RAGTruth的說明性樣本,展示了幻覺的一個實例:

提出問題:

如何解釋四分位數?

參考資料:

第2段:

第二四分位數(Q2)更常被稱為中位數,它將數據分成兩半(50%)。

中位數將數據分為下半部分和上半部分。

第三四分位數(Q3)也稱為上四分位數,將數據的最低75%(或最高25%)分開。

(……)

回復如下:

第一個四分位數(Q1)將數據中最低的25%分成兩部分,而第二個四分位數(Q2)將數據分成兩個相等的部分,中位數是下半部分的中間值。最后,第三個四分位數(Q3)將數據中最高的75%分成兩部分。

(……)

注解

跨度:“最高75%”

類型:明顯沖突

原因:

原文:“最低75%(或最高25%)”

生成文本:“最高75%”

此樣本展示了一個RAGTruth注釋,涉及答案中與參考段落相沖突的特定跨度,提供了幻覺的類型(例如,明顯沖突)和人類可讀的理由。我們的方法僅使用二進制注釋,而不使用幻覺注釋的類型。

方法

作者自制圖片

這里給出的是LettuceDetect架構的一種高級描述。這里,給出了一個樣本問題、上下文和答案三元組。首先,對文本進行標記,然后LettuceDetect執行標記級分類。問題和上下文中的標記都被屏蔽(圖中用紅線表示),以便將它們排除在損失函數之外。答案中的每個標記都會收到一個概率,表明它是幻覺的還是被支持的。對于跨度級檢測,我們將幻覺概率高于0.5的連續標記合并為單個預測跨度。

我們在RAGTruth數據集上訓練ModernBERT-base和ModernBERT-large變體作為標記分類模型。模型的輸入是Context、Question和Answer段的串聯,帶有專門的標記([CLS])(用于上下文)和([SEP])(作為分隔符)。為了便于計算,我們將序列長度限制為4,096個標記,但ModernBERT理論上最多可以處理8,192個標記。

標記化和數據處理

  • 標記化:我們使用轉換器庫中的AutoTokenizer來處理子詞標記化,并適當地插入[CLS]和[SEP]。
  • 標簽:

A.上下文/問題標記被屏蔽(即在PyTorch中分配-100的標簽),因此它們不會導致損失。

B.每個答案標記都會收到一個標簽0(支持)或1(幻覺)。

模型架構

我們的模型基于Hugging Face的AutoModelForTokenClassification構建,使用ModernBERT作為編碼器,并在其上設置分類頭。與之前一些基于編碼器的方法(例如,在NLI任務上進行預訓練的方法)不同,我們的方法僅使用ModernBERT,沒有額外的預訓練階段。

訓練配置

  • 優化器:AdamW,學習率為1*10^-5,權重衰減為0.01。
  • 硬件:單個NVIDIA A100 GPU。
  • 世代(Epochs):總共6個訓練世代。
  • 批處理:

A.批次大小為8;

B.使用PyTorch DataLoader加載數據(啟用數據混洗功能);

C.通過DataCollatorForTokenClassification進行動態填充,以有效處理可變長度序列。

在訓練期間,我們會監控驗證拆分中的符號級F1分數,并使用safetensors格式保存檢查點。訓練完成后,我們會將表現最佳的模型上傳到Hugging Face供公眾訪問。

在推理時,模型會輸出答案中每個標記的幻覺概率。我們聚合超過0.5閾值的連續標記以生成跨度級預測,準確指示答案的哪些部分可能產生幻覺。上圖說明了此工作流程。

接下來,我們對模型的性能進行更詳細的評估。

測試結果

我們在RAGTruth測試集上對所有任務類型(問答、數據轉文本和摘要)的模型進行了評估。對于每個示例,RAGTruth都包含手動注釋的跨度,以指示幻覺內容。

示例級結果

我們首先評估樣本級別的問題:生成的答案是否包含任何幻覺?我們的大型模型(lettucedetect-large-v1)的總體F1得分達到79.22%,超過了:

  • GPT-4(63.4%);
  • Luna(65.4%)(之前最先進的基于編碼器的模型);
  • RAGTruth論文中提出了經過微調的Llama-2-13B(78.7%)。

它僅次于RAG-HAT論文(引文15)中經過微調的Llama-3-8B(83.9%),但LettuceDetect明顯更小,運行速度更快。同時,我們的基礎模型(lettucedetect-base-v1)在使用較少參數的情況下仍保持了極高的競爭力。

作者本人提供圖片

上表是一張比較表,說明了LettuceDetect與基于提示的方法(例如GPT-4)和基于編碼器的替代解決方案(例如Luna)的對比情況。總體而言,lettucedetect-large-v1和lettucedect-base-v1是性能非常出色的模型,同時在推理設置中也非常有效。

跨度級結果

除了檢測答案是否包含幻覺之外,我們還檢查了LettuceDetect識別不支持內容的確切跨度的能力。在這里,LettuceDetect在報告跨度級別性能的模型中取得了最先進的結果,大大優于RAGTruth論文(引文1)和其他基線中經過微調的Llama-2-13B模型。

作者本人提供圖片

大多數方法(例如RAG-HAT(引文15))都沒有報告跨度級指標,因此我們在這里不與它們進行比較。

推理效率

lettucedetect-base-v1和lettucedetect-large-v1所需的參數都比典型的基于LLM的檢測器(例如GPT-4或Llama-3-8B)少,并且可以在單個NVIDIA A100 GPU上每秒處理30-60個樣本。這使得它們適用于工業工作負載、實時面向用戶的系統和資源受限的環境。

總體而言,這些結果表明LettuceDetect具有良好的平衡性:與基于LLM的大型評判系統相比,它以極小的規模和成本實現了接近最先進的準確度,同時提供了精確的標記級幻覺檢測。

開發實戰

安裝軟件包:

pip install lettucedetect

然后,你可以按如下方式使用該包:

from lettucedetect.models.inference import HallucinationDetector
#對于基于轉換器的方法:
detector = HallucinationDetector(
 method="transformer", model_path="KRLabsOrg/lettucedect-base-modernbert-en-v1"
)
contexts = ["France is a country in Europe. The capital of France is Paris. The population of France is 67 million.",]
question = "What is the capital of France? What is the population of France?"
answer = "The capital of France is Paris. The population of France is 69 million."
#得到跨度級的預測,表明答案的哪一部分被認為是幻覺。
predictions = detector.predict(cnotallow=contexts, questinotallow=question, answer=answer, output_format="spans")
print("Predictions:", predictions)
#預測結果是:[{'start': 31, 'end': 71, 'confidence': 0.9944414496421814, 'text': ' The population of France is 69 million.'}]

結論

我們在本文中詳細介紹了我們團隊研發的LettuceDetect,這是一個輕量級且高效的RAG系統幻覺檢測框架。通過利用ModernBERT的擴展上下文功能,我們的模型在RAGTruth基準上實現了強勁的性能,同時保持了較高的推理效率。這項工作為未來的研究方向奠定了基礎,例如擴展到其他數據集、支持多種語言以及探索更先進的架構。即使在這個階段,LettuceDetect也證明了使用精簡的、專門構建的基于編碼器的模型可以實現有效的幻覺檢測。

引文

【1】Niu等人,2024,RAGTruth: A Dataset for Hallucination Detection in Retrieval-Augmented Generation(RAGTruth:檢索增強生成中的幻覺檢測數據集)。

【2】Luna: A Simple and Effective Encoder-Based Model for Hallucination Detection in Retrieval-Augmented Generation(Luna:一種簡單有效的基于編碼器的檢索增強生成幻覺檢測模型)。

【3】ModernBERT: A Modern BERT Model for Long-Context Processing(ModernBERT:用于長上下文處理的現代BERT模型)。

【4】GPT-4 report(GPT-4報告)。

【5】Llama-3 report(Llama-3報告)。

【6】Mistral 7B

【7】Kaddour等人,2023,Challenges and Applications of Large Language Models(大型語言模型的挑戰與應用)。

【8】Huang等人,2025,A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions(大型語言模型中的幻覺調查:原理、分類、挑戰和未決問題)。

【9】Gao等人,2024,Retrieval-Augmented Generation for Large Language Models: A Survey(大型語言模型的檢索增強生成:一項調查)。

【10】Ji等人,2023,Survey of Hallucination in Natural Language Generation(自然語言生成中的幻覺研究)。

【11】Sun等人,2025,ReDeEP: Detecting Hallucination in Retrieval-Augmented Generation via Mechanistic Interpretability(ReDeEP:通過機械可解釋性檢測檢索增強生成中的幻覺)。

【12】Manakul等人,2023,SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models(SelfCheckGPT:用于生成大型語言模型的零資源黑盒幻覺檢測)。

【13】Cohen等人,2023,LM vs LM: Detecting Factual Errors via Cross Examination(LM vs LM:通過交叉詢問檢測事實錯誤)。

【14】Friel等人,2023,Chainpoll: A high efficacy method for LLM hallucination detection(Chainpoll:一種高效的LLM幻覺檢測方法)。

【15】Song等人,2024,RAG-HAT: A Hallucination-Aware Tuning Pipeline for {LLM} in Retrieval-Augmented Generation(RAG-HAT:檢索增強生成中用于LLM的幻覺感知調整管道)。

【16】Devlin等人,2019,BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(BERT:用于語言理解的深度雙向Transformer預訓練)。

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:LettuceDetect: A Hallucination Detection Framework for RAG Applications,作者:Adam Kovacs

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2025-05-07 02:00:00

RAGAI人工智能

2024-10-29 11:54:25

2024-01-10 07:42:59

人工智能模型RAG

2024-01-09 14:05:15

大型語言模型RAG向量數據庫

2024-10-17 09:09:04

2023-12-10 15:15:18

開源模型工具

2025-03-21 14:34:17

2024-05-23 13:54:40

2024-08-12 08:28:53

2024-10-12 08:03:25

2013-07-16 09:43:17

云IDE云應用開發云服務

2024-04-01 11:46:34

BpythonPython開發

2009-10-15 15:12:39

Equinox服務器端Equinox

2024-05-06 08:44:25

FrugalGPT大型語言模型LLM

2024-08-05 09:14:14

2025-06-13 08:06:41

2021-06-06 16:56:49

異步編程Completable

2025-02-03 16:24:20

2011-08-10 17:37:00

iPhoneASIHTTPRequ

2011-08-17 14:20:21

IOS開發GraphicsCon
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本一区二区不卡视频 | 欧美aaaaaaaa| 亚洲精品久久久久久久久久久久久 | 日本人麻豆 | 在线中文一区 | 久久se精品一区精品二区 | 久久鲁视频| 精品一二区 | 99国产精品久久久久久久 | 亚洲乱码国产乱码精品精的特点 | 黄视频网址| 欧美日韩一二三区 | 久久久久久久久99 | 欧美激情综合 | 天天亚洲 | 亚洲欧洲精品成人久久奇米网 | 国内精品久久精品 | 污污免费网站 | 精品综合久久久 | 国产综合久久 | 中文字幕二区 | 国产一区二区三区四区五区3d | 国产高清视频在线观看 | 精品欧美一区二区三区精品久久 | 天天色影视综合 | 国内自拍第一页 | 91在线免费视频 | 国产亚洲久 | 天天色综 | 伊人久久一区二区 | 91精品导航| 麻豆一区二区三区精品视频 | 国产小u女发育末成年 | 亚洲欧洲视频 | 精品国产一区二区三区日日嗨 | 成人不卡 | 成人国产精品 | 特级黄色毛片 | 99精品福利视频 | 91在线导航| 国产伦精品一区二区三毛 |