一文搞懂大模型為什么出現(xiàn)幻覺(jué)?從成因到緩解方案
1、前言
隨著大模型(Large Language Models, 以下簡(jiǎn)稱LLM)迅猛發(fā)展的浪潮中,幻覺(jué)(Hallucination)問(wèn)題逐漸成為業(yè)界和學(xué)術(shù)界關(guān)注的焦點(diǎn)。所謂模型幻覺(jué),指的是模型在生成內(nèi)容時(shí)產(chǎn)生與事實(shí)不符、虛構(gòu)或誤導(dǎo)性的信息。比如,當(dāng)你詢問(wèn)“世界上最長(zhǎng)的河流是哪條?”模型可能一本正經(jīng)地回答:“是亞馬遜河,位于非洲”,而實(shí)際上亞馬遜河在南美洲,同時(shí)也并不是最長(zhǎng)的河流。又或者,當(dāng)你讓LLM介紹某個(gè)研究方向的最新進(jìn)展時(shí),它能說(shuō)得有理有據(jù)并列出參考文獻(xiàn)標(biāo)題作者等細(xì)節(jié)信息,但等你檢索時(shí)卻發(fā)現(xiàn)那些文獻(xiàn)根本不存在。這些都是幻覺(jué)問(wèn)題在現(xiàn)實(shí)中的典型表現(xiàn)。
隨著LLM被廣泛應(yīng)用于搜索、問(wèn)答、醫(yī)療、金融等關(guān)鍵領(lǐng)域,這種“一本正經(jīng)胡說(shuō)八道”的回答不僅影響用戶體驗(yàn),也可能帶來(lái)嚴(yán)重的實(shí)際風(fēng)險(xiǎn)。因此,如何識(shí)別、抑制甚至消除幻覺(jué),已經(jīng)成為亟待解決的重要課題。
2、幻覺(jué)成因與分類
2.1 幻覺(jué)成因
大模型的本質(zhì)依然是一個(gè)語(yǔ)言模型,它通過(guò)計(jì)算句子概率建模自然語(yǔ)言概率分布。通過(guò)對(duì)大量語(yǔ)料的學(xué)習(xí)與分析,它能夠按順序預(yù)測(cè)下一個(gè)特定token的概率。LLM的主要功能是根據(jù)輸入文本生成連貫且上下文恰當(dāng)?shù)幕貜?fù),本身可能并不擅長(zhǎng)真正理解或傳遞事實(shí)信息。本文總結(jié)了多篇文獻(xiàn)對(duì)于模型幻覺(jué)成因的分析,根據(jù)LLM從預(yù)訓(xùn)練到推理部署的不同階段,將幻覺(jué)的來(lái)源進(jìn)行如下劃分[1,2]:
1、預(yù)訓(xùn)練 (Pre-training):
a. 訓(xùn)練數(shù)據(jù)噪聲與偏差:LLM依賴于海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,但這些數(shù)據(jù)中不可避免地包含了錯(cuò)誤、虛假、過(guò)時(shí)或者重復(fù)的信息,導(dǎo)致模型知識(shí)有偏差;
b. 領(lǐng)域?qū)I(yè)知識(shí)稀疏:預(yù)訓(xùn)練數(shù)據(jù)中缺乏特定領(lǐng)域任務(wù)的專業(yè)知識(shí),導(dǎo)致模型在這些領(lǐng)域的推理能力較差,容易生成虛假或錯(cuò)誤的內(nèi)容;
c. 事實(shí)性驗(yàn)證能力缺失:預(yù)訓(xùn)練的目標(biāo)是通過(guò)最大化下一個(gè)詞的概率來(lái)建模自然語(yǔ)言概率分布,這種優(yōu)化目標(biāo)旨在提升語(yǔ)言生成的流暢性而非準(zhǔn)確性,因此模型在生成內(nèi)容時(shí)更注重文本的連貫性,可能并不擅長(zhǎng)真正理解或傳遞事實(shí)信息。
2、有監(jiān)督微調(diào)( SFT ) :在這一階段,模型會(huì)根據(jù)人工標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行調(diào)整。標(biāo)注錯(cuò)誤或不一致以及過(guò)擬合會(huì)導(dǎo)致模型對(duì)于錯(cuò)誤知識(shí)過(guò)于自信。
3、強(qiáng)化學(xué)習(xí) 與人類反饋( RLHF ) :對(duì)齊階段可能存在誤導(dǎo)與失配的問(wèn)題,由于獎(jiǎng)勵(lì)設(shè)計(jì)不完善,模型會(huì)為了“迎合”預(yù)定的目標(biāo)而忽視生成內(nèi)容的正確性和真實(shí)性。
4、模型推理 (Inference) :目前,LLM通常是token by token地生成內(nèi)容,這種策略使得它無(wú)法修正早期的錯(cuò)誤,導(dǎo)致滾雪球式的幻覺(jué)擴(kuò)大;此外,基于隨機(jī)采樣的生成策略在引入多樣性的同時(shí)也增加了幻覺(jué)風(fēng)險(xiǎn)。
2.2 幻覺(jué)分類
目前,研究學(xué)者們按照輸出內(nèi)容錯(cuò)誤的類型把LLM幻覺(jué)分為以下四大類[1]:
- 事實(shí)沖突:生成內(nèi)容與客觀世界知識(shí)或者給定的參照知識(shí)相互沖突
- 無(wú)中生有:生成內(nèi)容是虛構(gòu)的,無(wú)法從世界知識(shí)或者給定的參照知識(shí)得到驗(yàn)證和支撐
- 指令誤解:對(duì)用戶指令理解錯(cuò)誤,生成內(nèi)容偏離指令主題
- 邏輯錯(cuò)誤:推理過(guò)程存在邏輯錯(cuò)誤或漏洞
Type | Input Prompt | LLM Response |
事實(shí)沖突 | 世界上最長(zhǎng)的河流是哪條? | 位于非洲的亞馬遜河是世界上最長(zhǎng)的河流。 |
無(wú)中生有 | 房源信息:該房源位于江漢區(qū)市民中心,為 86 平的 2 室 1 廳戶型,掛牌價(jià)為 169 萬(wàn)元。房源優(yōu)勢(shì)在于休閑相對(duì)方便、就醫(yī)相對(duì)方便、樓層相對(duì)合適。根據(jù)以上信息回答:這個(gè)房源是幾樓的? | 該房源位于 4 樓,共 7 層。 |
指令誤解 | 將下文翻譯成英語(yǔ):“法國(guó)的首都是哪里?” | 法國(guó)的首都是巴黎。 |
邏輯錯(cuò)誤 | 逐步解方程 2x + 3 = 11。 | 步驟 1:兩邊減去 3 得到:2x = 8。步驟 2:兩邊除以 2 得到:x = 3。所以等式的結(jié)果是 x = 3。 |
3、幻覺(jué)緩解方案
從前文的分析可以看到,導(dǎo)致幻覺(jué)問(wèn)題的成因貫穿了LLM從預(yù)訓(xùn)練到推理的整個(gè)生命周期,對(duì)應(yīng)的緩解方案也可以從不同的階段入手,例如在預(yù)訓(xùn)練階段加強(qiáng)數(shù)據(jù)去重與清洗,在有監(jiān)督微調(diào)階段引入部分“誠(chéng)實(shí)導(dǎo)向”的樣本,引導(dǎo)LLM識(shí)別無(wú)法回答的問(wèn)題并表達(dá)自己的能力局限性。考慮到對(duì)LLM重新訓(xùn)練或微調(diào)的成本過(guò)高,目前大部分的幻覺(jué)緩解方案聚焦于推理階段,以下主要對(duì)該階段的方案進(jìn)行展開(kāi)介紹。
3.1 檢索增強(qiáng)生成
大模型通常存在知識(shí)邊界,單純依賴其訓(xùn)練期間學(xué)習(xí)到的“參數(shù)記憶”可能導(dǎo)致模型在面對(duì)最新或特定領(lǐng)域的信息時(shí)產(chǎn)生幻覺(jué)。檢索增強(qiáng)生成(RAG)通過(guò)在生成過(guò)程中引入外部知識(shí)源(如數(shù)據(jù)庫(kù)、文檔或網(wǎng)頁(yè)),使模型能夠訪問(wèn)和利用最新的、相關(guān)的信息,從而提高回答的準(zhǔn)確性[3,4]。例如,企業(yè)可以將其內(nèi)部政策文檔作為RAG的知識(shí)庫(kù),使得AI在回答相關(guān)問(wèn)題時(shí)能夠引用這些文檔,提供更準(zhǔn)確的回答。
通俗來(lái)說(shuō),RAG 技術(shù)將LLM問(wèn)答從“閉卷考試”更改為“開(kāi)卷考試”,模型的角色從知識(shí)源轉(zhuǎn)變?yōu)閷?duì)檢索知識(shí)的分析者,只需從中找到相應(yīng)答案并進(jìn)行總結(jié)以簡(jiǎn)潔地回答用戶的問(wèn)題。這種方法顯著提高了回答的準(zhǔn)確性和時(shí)效性,尤其適用于需要最新信息或特定領(lǐng)域知識(shí)的場(chǎng)景。
3.2 后驗(yàn)幻覺(jué)檢測(cè)
盡管RAG在緩解幻覺(jué)方面具有顯著優(yōu)勢(shì),但它并非萬(wàn)能,幻覺(jué)問(wèn)題仍可能發(fā)生。如果檢索到的信息存在沖突、與查詢無(wú)關(guān)或者部分信息缺失,都可能會(huì)導(dǎo)致模型生成不準(zhǔn)確的回答。即使引入了外部知識(shí),模型仍可能在理解或生成過(guò)程中產(chǎn)生幻覺(jué),特別是在面對(duì)復(fù)雜或模糊的問(wèn)題時(shí)。因此后驗(yàn)幻覺(jué)檢測(cè)機(jī)制也不可或缺。
3.2.1 白盒方案
Lookback Ratio: 基于上下文與生成內(nèi)容注意力分配比例的白盒檢測(cè)方案[7]
1.基于模型不確定性:通過(guò)衡量LLM生成內(nèi)容的不確定性來(lái)評(píng)估幻覺(jué)風(fēng)險(xiǎn)。
a.為了聚焦關(guān)鍵信息,可以先利用NER模型或關(guān)鍵詞提取模型提取生成內(nèi)容中的關(guān)鍵概念,然后用LLM在這些關(guān)鍵概念每個(gè)token上的概率來(lái)評(píng)估幻覺(jué)風(fēng)險(xiǎn),生成的概率越小則幻覺(jué)風(fēng)險(xiǎn)越大[5]。
b.文獻(xiàn)[6]基于生成文本中每個(gè)Token的概率提出了4個(gè)指標(biāo)來(lái)評(píng)估幻覺(jué)風(fēng)險(xiǎn),包括最小Token概率、平均Token概率、最大Token概率偏差、最小Token概率差距。
2.基于模型內(nèi)部隱藏狀態(tài):LLM在生成內(nèi)容時(shí),其內(nèi)部隱藏狀態(tài)能夠反映生成內(nèi)容的準(zhǔn)確性。
a.有研究者認(rèn)為在RAG場(chǎng)景下幻覺(jué)的發(fā)生與模型在生成過(guò)程中對(duì)上下文與新生成內(nèi)容的注意力分配比例相關(guān)[7]。具體而言,如果模型在生成過(guò)程中更多地關(guān)注自己生成的內(nèi)容而忽視上下文,則產(chǎn)生幻覺(jué)的風(fēng)險(xiǎn)就更大。因此本文通過(guò)引入lookback ratio這一特征捕捉模型在每個(gè)生成步驟中對(duì)上下文和新生成內(nèi)容的注意力分布情況,并以此作為是否產(chǎn)生幻覺(jué)的依據(jù)。
b.文獻(xiàn)[8]提出LLM推理時(shí)內(nèi)部隱藏狀態(tài)的上下文激活銳度能夠反映生成內(nèi)容的準(zhǔn)確性,正確生成的內(nèi)容往往伴隨著較低的上下文熵值(更為銳利的激活模式),而錯(cuò)誤的生成內(nèi)容則具有較高的上下文熵值(模糊的激活模式)。
c.此外,也有研究利用LLM的內(nèi)部嵌入表示來(lái)度量生成內(nèi)容的語(yǔ)義一致性,通過(guò)計(jì)算多個(gè)生成內(nèi)容的嵌入表示之間的協(xié)方差矩陣的特征值來(lái)量化它們的語(yǔ)義差異[9]。特征值越大,表明生成內(nèi)容的語(yǔ)義越分散,幻覺(jué)風(fēng)險(xiǎn)越高。
3.2.2 黑盒方案
基于外部知識(shí)/工具增強(qiáng)的黑盒檢測(cè)方案[14]
- 基于模型不確定性:
a.考慮到在黑盒調(diào)用LLM的場(chǎng)景下無(wú)法獲得輸出token的概率,文獻(xiàn)[10]提出了一種基于簡(jiǎn)單采樣的幻覺(jué)檢測(cè)方法,主要基于以下假設(shè):當(dāng) LLM對(duì)于生成內(nèi)容不自信或者在捏造事實(shí)時(shí),它對(duì)同一問(wèn)題的多個(gè)回答有較大概率會(huì)出現(xiàn)邏輯上不一致。
- 基于規(guī)則:
a.采用ROUGE、BLEU等多種統(tǒng)計(jì)學(xué)指標(biāo),通過(guò)衡量輸出結(jié)果和RAG中源信息的重疊度來(lái)評(píng)估幻覺(jué)風(fēng)險(xiǎn)[5]。
b.基于命名實(shí)體識(shí)別的規(guī)則進(jìn)行幻覺(jué)檢測(cè),如果模型生成的命名實(shí)體未出現(xiàn)在知識(shí)源中,那么該模型就存在幻覺(jué)風(fēng)險(xiǎn)[11]。
- 基于知識(shí)/工具增強(qiáng):利用外部知識(shí)庫(kù)或工具對(duì)LLM生成內(nèi)容進(jìn)行驗(yàn)證。
a.文獻(xiàn)[12,13]提出了一種基于外部知識(shí)的幻覺(jué)檢測(cè)方法,主要利用智能體完成以下步驟:將模型回答分解為一組獨(dú)立的原子陳述 ; 使用搜索引擎或知識(shí)庫(kù)檢索每一條陳述對(duì)應(yīng)的證據(jù);根據(jù)檢索證據(jù)評(píng)估每個(gè)陳述是否正確。
b.在此基礎(chǔ)上,有研究者集成了搜索引擎、代碼執(zhí)行器、計(jì)算器等多個(gè)外部工具對(duì)模型生成內(nèi)容進(jìn)行驗(yàn)證,可以應(yīng)用于問(wèn)答、代碼生成、數(shù)學(xué)問(wèn)題求解等多種任務(wù)[14]。
- 基于檢測(cè)模型:利用領(lǐng)域?qū)<夷P瓦M(jìn)行幻覺(jué)風(fēng)險(xiǎn)檢測(cè)。
a.基于自然語(yǔ)言推理任務(wù)中的蘊(yùn)含概念,文獻(xiàn)[15]提出了一種叫做AlignScore的指標(biāo),用于評(píng)估任意一對(duì)文本的信息對(duì)齊程度。論文收集整合不同語(yǔ)言任務(wù)下的數(shù)據(jù)構(gòu)建成了一個(gè)統(tǒng)一的對(duì)齊訓(xùn)練語(yǔ)料庫(kù),并以此訓(xùn)練了相應(yīng)的專家模型。在RAG場(chǎng)景下,模型生成內(nèi)容與RAG知識(shí)的對(duì)齊程度能夠有效地反應(yīng)幻覺(jué)風(fēng)險(xiǎn)大小。
b.由于現(xiàn)有的幻覺(jué)檢測(cè)方法缺少對(duì)于結(jié)果的可解釋性以及對(duì)源知識(shí)的篩選,有研究者訓(xùn)練了一個(gè)專家模型作為幻覺(jué)critique模型,通過(guò)選擇相關(guān)證據(jù)并提供詳細(xì)的解釋來(lái)增強(qiáng)幻覺(jué)檢測(cè)能力[16]。
3.3 火山的實(shí)踐
基于上述幻覺(jué)檢測(cè)和環(huán)節(jié)方案,火山引擎云安全團(tuán)隊(duì)聚焦RAG場(chǎng)景,構(gòu)建了一種模型幻覺(jué)風(fēng)險(xiǎn)檢測(cè)方案。該檢測(cè)方案由文本解析、信息提取、風(fēng)險(xiǎn)檢測(cè)等關(guān)鍵模塊構(gòu)成,主要通過(guò)比對(duì)RAG知識(shí)與模型回答,識(shí)別模型回答中與知識(shí)沖突或者缺乏依據(jù)的風(fēng)險(xiǎn)內(nèi)容。目前該方案已在客服、廣告等多個(gè)業(yè)務(wù)場(chǎng)景上取得了較好的落地效果。
- 文本解析:將模型回答解析為獨(dú)立陳述。
- 信息提取:聚焦模型回答中的關(guān)鍵信息。
- 風(fēng)險(xiǎn)檢測(cè):根據(jù)上下文信息或RAG知識(shí),識(shí)別模型回答中的風(fēng)險(xiǎn)內(nèi)容。
4、總結(jié)
在LLM被大規(guī)模應(yīng)用于生產(chǎn)環(huán)境的當(dāng)下,幻覺(jué)問(wèn)題所帶來(lái)的潛在危害已經(jīng)從學(xué)術(shù)挑戰(zhàn)轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)風(fēng)險(xiǎn)。一方面,LLM生成的看似權(quán)威但實(shí)際虛假的信息,可能會(huì)誤導(dǎo)用戶做出錯(cuò)誤決策并造成實(shí)際危害,尤其是在法律、醫(yī)療、金融等領(lǐng)域;另一方面,LLM虛假或錯(cuò)誤的回答也會(huì)給企業(yè)帶來(lái)法律糾紛、品牌形象受損、合規(guī)性問(wèn)題等風(fēng)險(xiǎn)。目前,“清朗·整治AI技術(shù)濫用”專項(xiàng)行動(dòng)明確指出AI產(chǎn)品要嚴(yán)格管控“AI幻覺(jué)”問(wèn)題。因此,企業(yè)須高度重視大模型幻覺(jué)問(wèn)題的防范工作,將其納入模型部署與應(yīng)用的全生命周期管理中,從數(shù)據(jù)源把控、模型選擇、幻覺(jué)風(fēng)險(xiǎn)檢測(cè)等多方面出發(fā),建立多層次的幻覺(jué)識(shí)別與糾偏機(jī)制,確保模型輸出的可靠性和可控性。
目前,火山引擎云安全團(tuán)隊(duì)推出了大模型應(yīng)用防火墻,供大模型產(chǎn)品及應(yīng)用的一站式安全防護(hù)解決方案。點(diǎn)擊原文鏈接,了解更多大模型應(yīng)用防火墻詳情。
*本文撰寫(xiě)得到豆包的輔助。
產(chǎn)品文檔:https://www.volcengine.com/docs/84990/1520619
參考文獻(xiàn)
[1] Huang L, Yu W, Ma W, et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions[J]. ACM Transactions on Information Systems, 2025, 43(2): 1-55.
[2] Zhang Y, Li Y, Cui L, et al. Siren's song in the AI ocean: a survey on hallucination in large language models[J]. arXiv preprint arXiv:2309.01219, 2023.
[3] Shuster K, Poff S, Chen M, et al. Retrieval augmentation reduces hallucination in conversation[J]. arXiv preprint arXiv:2104.07567, 2021.
[4] Béchard P, Ayala O M. Reducing hallucination in structured outputs via Retrieval-Augmented Generation[J]. arXiv preprint arXiv:2404.08189, 2024.
[5] Liang X, Song S, Niu S, et al. Uhgeval: Benchmarking the hallucination of chinese large language models via unconstrained generation[J]. arXiv preprint arXiv:2311.15296, 2023.
[6] Quevedo E, Salazar J Y, Koerner R, et al. Detecting hallucinations in large language model generation: A token probability approach[C]//World Congress in Computer Science, Computer Engineering & Applied Computing. Cham: Springer Nature Switzerland, 2024: 154-173.
[7] Chuang Y S, Qiu L, Hsieh C Y, et al. Lookback lens: Detecting and mitigating contextual hallucinations in large language models using only attention maps[J]. arXiv preprint arXiv:2407.07071, 2024.
[8] Chen S, Xiong M, Liu J, et al. In-context sharpness as alerts: An inner representation perspective for hallucination mitigation[J]. arXiv preprint arXiv:2403.01548, 2024.
[9] Chen C, Liu K, Chen Z, et al. INSIDE: LLMs' internal states retain the power of hallucination detection[J]. arXiv preprint arXiv:2402.03744, 2024.
[10] Manakul P, Liusie A, Gales M J F. Selfcheckgpt: Zero-resource black-box hallucination detection for generative large language models[J]. arXiv preprint arXiv:2303.08896, 2023.
[11] Lee N, Ping W, Xu P, et al. Factuality enhanced language models for open-ended text generation[J]. Advances in Neural Information Processing Systems, 2022, 35: 34586-34599.
[12] Wei J, Yang C, Song X, et al. Long-form factuality in large language models[J]. arXiv preprint arXiv:2403.18802, 2024.
[13] Min S, Krishna K, Lyu X, et al. Factscore: Fine-grained atomic evaluation of factual precision in long form text generation[J]. arXiv preprint arXiv:2305.14251, 2023.
[14] Chern I, Chern S, Chen S, et al. FacTool: Factuality Detection in Generative AI--A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios[J]. arXiv preprint arXiv:2307.13528, 2023.
[15] Zha Y, Yang Y, Li R, et al. AlignScore: Evaluating factual consistency with a unified alignment function[J]. arXiv preprint arXiv:2305.16739, 2023.
[16] Wang B, Chern S, Chern E, et al. Halu-j: Critique-based hallucination judge[J]. arXiv preprint arXiv:2407.12943, 2024.