一文搞懂大模型為什么出現(xiàn)幻覺(jué)？從成因到緩解方案

作者：火山引擎云安全 2025-07-11 09:50:52

在LLM被大規(guī)模應(yīng)用于生產(chǎn)環(huán)境的當(dāng)下，幻覺(jué)問(wèn)題所帶來(lái)的潛在危害已經(jīng)從學(xué)術(shù)挑戰(zhàn)轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)風(fēng)險(xiǎn)。企業(yè)須高度重視大模型幻覺(jué)問(wèn)題的防范工作，將其納入模型部署與應(yīng)用的全生命周期管理中，從數(shù)據(jù)源把控、模型選擇、幻覺(jué)風(fēng)險(xiǎn)檢測(cè)等多方面出發(fā)，建立多層次的幻覺(jué)識(shí)別與糾偏機(jī)制，確保模型輸出的可靠性和可控性。

1、前言

隨著大模型（Large Language Models, 以下簡(jiǎn)稱LLM）迅猛發(fā)展的浪潮中，幻覺(jué)（Hallucination）問(wèn)題逐漸成為業(yè)界和學(xué)術(shù)界關(guān)注的焦點(diǎn)。所謂模型幻覺(jué)，指的是模型在生成內(nèi)容時(shí)產(chǎn)生與事實(shí)不符、虛構(gòu)或誤導(dǎo)性的信息。比如，當(dāng)你詢問(wèn)“世界上最長(zhǎng)的河流是哪條？”模型可能一本正經(jīng)地回答：“是亞馬遜河，位于非洲”，而實(shí)際上亞馬遜河在南美洲，同時(shí)也并不是最長(zhǎng)的河流。又或者，當(dāng)你讓LLM介紹某個(gè)研究方向的最新進(jìn)展時(shí)，它能說(shuō)得有理有據(jù)并列出參考文獻(xiàn)標(biāo)題作者等細(xì)節(jié)信息，但等你檢索時(shí)卻發(fā)現(xiàn)那些文獻(xiàn)根本不存在。這些都是幻覺(jué)問(wèn)題在現(xiàn)實(shí)中的典型表現(xiàn)。

隨著LLM被廣泛應(yīng)用于搜索、問(wèn)答、醫(yī)療、金融等關(guān)鍵領(lǐng)域，這種“一本正經(jīng)胡說(shuō)八道”的回答不僅影響用戶體驗(yàn)，也可能帶來(lái)嚴(yán)重的實(shí)際風(fēng)險(xiǎn)。因此，如何識(shí)別、抑制甚至消除幻覺(jué)，已經(jīng)成為亟待解決的重要課題。

2、幻覺(jué)成因與分類

2.1 幻覺(jué)成因

大模型的本質(zhì)依然是一個(gè)語(yǔ)言模型，它通過(guò)計(jì)算句子概率建模自然語(yǔ)言概率分布。通過(guò)對(duì)大量語(yǔ)料的學(xué)習(xí)與分析，它能夠按順序預(yù)測(cè)下一個(gè)特定token的概率。LLM的主要功能是根據(jù)輸入文本生成連貫且上下文恰當(dāng)?shù)幕貜?fù)，本身可能并不擅長(zhǎng)真正理解或傳遞事實(shí)信息。本文總結(jié)了多篇文獻(xiàn)對(duì)于模型幻覺(jué)成因的分析，根據(jù)LLM從預(yù)訓(xùn)練到推理部署的不同階段，將幻覺(jué)的來(lái)源進(jìn)行如下劃分[1,2]：

1、預(yù)訓(xùn)練 （Pre-training）：

a. 訓(xùn)練數(shù)據(jù)噪聲與偏差：LLM依賴于海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，但這些數(shù)據(jù)中不可避免地包含了錯(cuò)誤、虛假、過(guò)時(shí)或者重復(fù)的信息，導(dǎo)致模型知識(shí)有偏差；
b. 領(lǐng)域?qū)I(yè)知識(shí)稀疏：預(yù)訓(xùn)練數(shù)據(jù)中缺乏特定領(lǐng)域任務(wù)的專業(yè)知識(shí)，導(dǎo)致模型在這些領(lǐng)域的推理能力較差，容易生成虛假或錯(cuò)誤的內(nèi)容；
c. 事實(shí)性驗(yàn)證能力缺失：預(yù)訓(xùn)練的目標(biāo)是通過(guò)最大化下一個(gè)詞的概率來(lái)建模自然語(yǔ)言概率分布，這種優(yōu)化目標(biāo)旨在提升語(yǔ)言生成的流暢性而非準(zhǔn)確性，因此模型在生成內(nèi)容時(shí)更注重文本的連貫性，可能并不擅長(zhǎng)真正理解或傳遞事實(shí)信息。

2、有監(jiān)督微調(diào)（ SFT ）：在這一階段，模型會(huì)根據(jù)人工標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行調(diào)整。標(biāo)注錯(cuò)誤或不一致以及過(guò)擬合會(huì)導(dǎo)致模型對(duì)于錯(cuò)誤知識(shí)過(guò)于自信。

3、強(qiáng)化學(xué)習(xí) 與人類反饋（ RLHF ）：對(duì)齊階段可能存在誤導(dǎo)與失配的問(wèn)題，由于獎(jiǎng)勵(lì)設(shè)計(jì)不完善，模型會(huì)為了“迎合”預(yù)定的目標(biāo)而忽視生成內(nèi)容的正確性和真實(shí)性。

4、模型推理 （Inference） ：目前，LLM通常是token by token地生成內(nèi)容，這種策略使得它無(wú)法修正早期的錯(cuò)誤，導(dǎo)致滾雪球式的幻覺(jué)擴(kuò)大；此外，基于隨機(jī)采樣的生成策略在引入多樣性的同時(shí)也增加了幻覺(jué)風(fēng)險(xiǎn)。

2.2 幻覺(jué)分類

目前，研究學(xué)者們按照輸出內(nèi)容錯(cuò)誤的類型把LLM幻覺(jué)分為以下四大類[1]：

事實(shí)沖突：生成內(nèi)容與客觀世界知識(shí)或者給定的參照知識(shí)相互沖突
無(wú)中生有：生成內(nèi)容是虛構(gòu)的，無(wú)法從世界知識(shí)或者給定的參照知識(shí)得到驗(yàn)證和支撐
指令誤解：對(duì)用戶指令理解錯(cuò)誤，生成內(nèi)容偏離指令主題
邏輯錯(cuò)誤：推理過(guò)程存在邏輯錯(cuò)誤或漏洞

Type	Input Prompt	LLM Response
事實(shí)沖突	世界上最長(zhǎng)的河流是哪條？	位于非洲的亞馬遜河是世界上最長(zhǎng)的河流。
無(wú)中生有	房源信息：該房源位于江漢區(qū)市民中心，為 86 平的 2 室 1 廳戶型，掛牌價(jià)為 169 萬(wàn)元。房源優(yōu)勢(shì)在于休閑相對(duì)方便、就醫(yī)相對(duì)方便、樓層相對(duì)合適。根據(jù)以上信息回答：這個(gè)房源是幾樓的？	該房源位于 4 樓，共 7 層。
指令誤解	將下文翻譯成英語(yǔ)：“法國(guó)的首都是哪里？”	法國(guó)的首都是巴黎。
邏輯錯(cuò)誤	逐步解方程 2x + 3 = 11。	步驟 1：兩邊減去 3 得到：2x = 8。步驟 2：兩邊除以 2 得到：x = 3。所以等式的結(jié)果是 x = 3。

3、幻覺(jué)緩解方案

從前文的分析可以看到，導(dǎo)致幻覺(jué)問(wèn)題的成因貫穿了LLM從預(yù)訓(xùn)練到推理的整個(gè)生命周期，對(duì)應(yīng)的緩解方案也可以從不同的階段入手，例如在預(yù)訓(xùn)練階段加強(qiáng)數(shù)據(jù)去重與清洗，在有監(jiān)督微調(diào)階段引入部分“誠(chéng)實(shí)導(dǎo)向”的樣本，引導(dǎo)LLM識(shí)別無(wú)法回答的問(wèn)題并表達(dá)自己的能力局限性。考慮到對(duì)LLM重新訓(xùn)練或微調(diào)的成本過(guò)高，目前大部分的幻覺(jué)緩解方案聚焦于推理階段，以下主要對(duì)該階段的方案進(jìn)行展開(kāi)介紹。

3.1 檢索增強(qiáng)生成

大模型通常存在知識(shí)邊界，單純依賴其訓(xùn)練期間學(xué)習(xí)到的“參數(shù)記憶”可能導(dǎo)致模型在面對(duì)最新或特定領(lǐng)域的信息時(shí)產(chǎn)生幻覺(jué)。檢索增強(qiáng)生成（RAG）通過(guò)在生成過(guò)程中引入外部知識(shí)源（如數(shù)據(jù)庫(kù)、文檔或網(wǎng)頁(yè)），使模型能夠訪問(wèn)和利用最新的、相關(guān)的信息，從而提高回答的準(zhǔn)確性[3,4]。例如，企業(yè)可以將其內(nèi)部政策文檔作為RAG的知識(shí)庫(kù)，使得AI在回答相關(guān)問(wèn)題時(shí)能夠引用這些文檔，提供更準(zhǔn)確的回答。

通俗來(lái)說(shuō)，RAG 技術(shù)將LLM問(wèn)答從“閉卷考試”更改為“開(kāi)卷考試”，模型的角色從知識(shí)源轉(zhuǎn)變?yōu)閷?duì)檢索知識(shí)的分析者，只需從中找到相應(yīng)答案并進(jìn)行總結(jié)以簡(jiǎn)潔地回答用戶的問(wèn)題。這種方法顯著提高了回答的準(zhǔn)確性和時(shí)效性，尤其適用于需要最新信息或特定領(lǐng)域知識(shí)的場(chǎng)景。

3.2 后驗(yàn)幻覺(jué)檢測(cè)

盡管RAG在緩解幻覺(jué)方面具有顯著優(yōu)勢(shì)，但它并非萬(wàn)能，幻覺(jué)問(wèn)題仍可能發(fā)生。如果檢索到的信息存在沖突、與查詢無(wú)關(guān)或者部分信息缺失，都可能會(huì)導(dǎo)致模型生成不準(zhǔn)確的回答。即使引入了外部知識(shí)，模型仍可能在理解或生成過(guò)程中產(chǎn)生幻覺(jué)，特別是在面對(duì)復(fù)雜或模糊的問(wèn)題時(shí)。因此后驗(yàn)幻覺(jué)檢測(cè)機(jī)制也不可或缺。

3.2.1 白盒方案

Lookback Ratio: 基于上下文與生成內(nèi)容注意力分配比例的白盒檢測(cè)方案[7]

1.基于模型不確定性：通過(guò)衡量LLM生成內(nèi)容的不確定性來(lái)評(píng)估幻覺(jué)風(fēng)險(xiǎn)。

a.為了聚焦關(guān)鍵信息，可以先利用NER模型或關(guān)鍵詞提取模型提取生成內(nèi)容中的關(guān)鍵概念，然后用LLM在這些關(guān)鍵概念每個(gè)token上的概率來(lái)評(píng)估幻覺(jué)風(fēng)險(xiǎn)，生成的概率越小則幻覺(jué)風(fēng)險(xiǎn)越大[5]。

b.文獻(xiàn)[6]基于生成文本中每個(gè)Token的概率提出了4個(gè)指標(biāo)來(lái)評(píng)估幻覺(jué)風(fēng)險(xiǎn)，包括最小Token概率、平均Token概率、最大Token概率偏差、最小Token概率差距。

2.基于模型內(nèi)部隱藏狀態(tài)：LLM在生成內(nèi)容時(shí)，其內(nèi)部隱藏狀態(tài)能夠反映生成內(nèi)容的準(zhǔn)確性。

a.有研究者認(rèn)為在RAG場(chǎng)景下幻覺(jué)的發(fā)生與模型在生成過(guò)程中對(duì)上下文與新生成內(nèi)容的注意力分配比例相關(guān)[7]。具體而言，如果模型在生成過(guò)程中更多地關(guān)注自己生成的內(nèi)容而忽視上下文，則產(chǎn)生幻覺(jué)的風(fēng)險(xiǎn)就更大。因此本文通過(guò)引入lookback ratio這一特征捕捉模型在每個(gè)生成步驟中對(duì)上下文和新生成內(nèi)容的注意力分布情況，并以此作為是否產(chǎn)生幻覺(jué)的依據(jù)。

b.文獻(xiàn)[8]提出LLM推理時(shí)內(nèi)部隱藏狀態(tài)的上下文激活銳度能夠反映生成內(nèi)容的準(zhǔn)確性，正確生成的內(nèi)容往往伴隨著較低的上下文熵值（更為銳利的激活模式），而錯(cuò)誤的生成內(nèi)容則具有較高的上下文熵值（模糊的激活模式）。

c.此外，也有研究利用LLM的內(nèi)部嵌入表示來(lái)度量生成內(nèi)容的語(yǔ)義一致性，通過(guò)計(jì)算多個(gè)生成內(nèi)容的嵌入表示之間的協(xié)方差矩陣的特征值來(lái)量化它們的語(yǔ)義差異[9]。特征值越大，表明生成內(nèi)容的語(yǔ)義越分散，幻覺(jué)風(fēng)險(xiǎn)越高。

3.2.2 黑盒方案

基于外部知識(shí)/工具增強(qiáng)的黑盒檢測(cè)方案[14]

基于模型不確定性：

a.考慮到在黑盒調(diào)用LLM的場(chǎng)景下無(wú)法獲得輸出token的概率，文獻(xiàn)[10]提出了一種基于簡(jiǎn)單采樣的幻覺(jué)檢測(cè)方法，主要基于以下假設(shè)：當(dāng) LLM對(duì)于生成內(nèi)容不自信或者在捏造事實(shí)時(shí)，它對(duì)同一問(wèn)題的多個(gè)回答有較大概率會(huì)出現(xiàn)邏輯上不一致。

基于規(guī)則：

a.采用ROUGE、BLEU等多種統(tǒng)計(jì)學(xué)指標(biāo)，通過(guò)衡量輸出結(jié)果和RAG中源信息的重疊度來(lái)評(píng)估幻覺(jué)風(fēng)險(xiǎn)[5]。

b.基于命名實(shí)體識(shí)別的規(guī)則進(jìn)行幻覺(jué)檢測(cè)，如果模型生成的命名實(shí)體未出現(xiàn)在知識(shí)源中，那么該模型就存在幻覺(jué)風(fēng)險(xiǎn)[11]。

基于知識(shí)/工具增強(qiáng)：利用外部知識(shí)庫(kù)或工具對(duì)LLM生成內(nèi)容進(jìn)行驗(yàn)證。

a.文獻(xiàn)[12,13]提出了一種基于外部知識(shí)的幻覺(jué)檢測(cè)方法，主要利用智能體完成以下步驟：將模型回答分解為一組獨(dú)立的原子陳述；使用搜索引擎或知識(shí)庫(kù)檢索每一條陳述對(duì)應(yīng)的證據(jù)；根據(jù)檢索證據(jù)評(píng)估每個(gè)陳述是否正確。

b.在此基礎(chǔ)上，有研究者集成了搜索引擎、代碼執(zhí)行器、計(jì)算器等多個(gè)外部工具對(duì)模型生成內(nèi)容進(jìn)行驗(yàn)證，可以應(yīng)用于問(wèn)答、代碼生成、數(shù)學(xué)問(wèn)題求解等多種任務(wù)[14]。

基于檢測(cè)模型：利用領(lǐng)域?qū)＜夷Ｐ瓦M(jìn)行幻覺(jué)風(fēng)險(xiǎn)檢測(cè)。

a.基于自然語(yǔ)言推理任務(wù)中的蘊(yùn)含概念，文獻(xiàn)[15]提出了一種叫做AlignScore的指標(biāo)，用于評(píng)估任意一對(duì)文本的信息對(duì)齊程度。論文收集整合不同語(yǔ)言任務(wù)下的數(shù)據(jù)構(gòu)建成了一個(gè)統(tǒng)一的對(duì)齊訓(xùn)練語(yǔ)料庫(kù)，并以此訓(xùn)練了相應(yīng)的專家模型。在RAG場(chǎng)景下，模型生成內(nèi)容與RAG知識(shí)的對(duì)齊程度能夠有效地反應(yīng)幻覺(jué)風(fēng)險(xiǎn)大小。

b.由于現(xiàn)有的幻覺(jué)檢測(cè)方法缺少對(duì)于結(jié)果的可解釋性以及對(duì)源知識(shí)的篩選，有研究者訓(xùn)練了一個(gè)專家模型作為幻覺(jué)critique模型，通過(guò)選擇相關(guān)證據(jù)并提供詳細(xì)的解釋來(lái)增強(qiáng)幻覺(jué)檢測(cè)能力[16]。

3.3 火山的實(shí)踐

基于上述幻覺(jué)檢測(cè)和環(huán)節(jié)方案，火山引擎云安全團(tuán)隊(duì)聚焦RAG場(chǎng)景，構(gòu)建了一種模型幻覺(jué)風(fēng)險(xiǎn)檢測(cè)方案。該檢測(cè)方案由文本解析、信息提取、風(fēng)險(xiǎn)檢測(cè)等關(guān)鍵模塊構(gòu)成，主要通過(guò)比對(duì)RAG知識(shí)與模型回答，識(shí)別模型回答中與知識(shí)沖突或者缺乏依據(jù)的風(fēng)險(xiǎn)內(nèi)容。目前該方案已在客服、廣告等多個(gè)業(yè)務(wù)場(chǎng)景上取得了較好的落地效果。

文本解析：將模型回答解析為獨(dú)立陳述。
信息提取：聚焦模型回答中的關(guān)鍵信息。
風(fēng)險(xiǎn)檢測(cè)：根據(jù)上下文信息或RAG知識(shí)，識(shí)別模型回答中的風(fēng)險(xiǎn)內(nèi)容。

4、總結(jié)

在LLM被大規(guī)模應(yīng)用于生產(chǎn)環(huán)境的當(dāng)下，幻覺(jué)問(wèn)題所帶來(lái)的潛在危害已經(jīng)從學(xué)術(shù)挑戰(zhàn)轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)風(fēng)險(xiǎn)。一方面，LLM生成的看似權(quán)威但實(shí)際虛假的信息，可能會(huì)誤導(dǎo)用戶做出錯(cuò)誤決策并造成實(shí)際危害，尤其是在法律、醫(yī)療、金融等領(lǐng)域；另一方面，LLM虛假或錯(cuò)誤的回答也會(huì)給企業(yè)帶來(lái)法律糾紛、品牌形象受損、合規(guī)性問(wèn)題等風(fēng)險(xiǎn)。目前，“清朗·整治AI技術(shù)濫用”專項(xiàng)行動(dòng)明確指出AI產(chǎn)品要嚴(yán)格管控“AI幻覺(jué)”問(wèn)題。因此，企業(yè)須高度重視大模型幻覺(jué)問(wèn)題的防范工作，將其納入模型部署與應(yīng)用的全生命周期管理中，從數(shù)據(jù)源把控、模型選擇、幻覺(jué)風(fēng)險(xiǎn)檢測(cè)等多方面出發(fā)，建立多層次的幻覺(jué)識(shí)別與糾偏機(jī)制，確保模型輸出的可靠性和可控性。

目前，火山引擎云安全團(tuán)隊(duì)推出了大模型應(yīng)用防火墻，供大模型產(chǎn)品及應(yīng)用的一站式安全防護(hù)解決方案。點(diǎn)擊原文鏈接，了解更多大模型應(yīng)用防火墻詳情。

*本文撰寫(xiě)得到豆包的輔助。

產(chǎn)品文檔：https://www.volcengine.com/docs/84990/1520619

參考文獻(xiàn)

[1] Huang L, Yu W, Ma W, et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions[J]. ACM Transactions on Information Systems, 2025, 43(2): 1-55.

[2] Zhang Y, Li Y, Cui L, et al. Siren's song in the AI ocean: a survey on hallucination in large language models[J]. arXiv preprint arXiv:2309.01219, 2023.

[3] Shuster K, Poff S, Chen M, et al. Retrieval augmentation reduces hallucination in conversation[J]. arXiv preprint arXiv:2104.07567, 2021.

[4] Béchard P, Ayala O M. Reducing hallucination in structured outputs via Retrieval-Augmented Generation[J]. arXiv preprint arXiv:2404.08189, 2024.

[5] Liang X, Song S, Niu S, et al. Uhgeval: Benchmarking the hallucination of chinese large language models via unconstrained generation[J]. arXiv preprint arXiv:2311.15296, 2023.

[6] Quevedo E, Salazar J Y, Koerner R, et al. Detecting hallucinations in large language model generation: A token probability approach[C]//World Congress in Computer Science, Computer Engineering & Applied Computing. Cham: Springer Nature Switzerland, 2024: 154-173.

[7] Chuang Y S, Qiu L, Hsieh C Y, et al. Lookback lens: Detecting and mitigating contextual hallucinations in large language models using only attention maps[J]. arXiv preprint arXiv:2407.07071, 2024.

[8] Chen S, Xiong M, Liu J, et al. In-context sharpness as alerts: An inner representation perspective for hallucination mitigation[J]. arXiv preprint arXiv:2403.01548, 2024.

[9] Chen C, Liu K, Chen Z, et al. INSIDE: LLMs' internal states retain the power of hallucination detection[J]. arXiv preprint arXiv:2402.03744, 2024.

[10] Manakul P, Liusie A, Gales M J F. Selfcheckgpt: Zero-resource black-box hallucination detection for generative large language models[J]. arXiv preprint arXiv:2303.08896, 2023.

[11] Lee N, Ping W, Xu P, et al. Factuality enhanced language models for open-ended text generation[J]. Advances in Neural Information Processing Systems, 2022, 35: 34586-34599.

[12] Wei J, Yang C, Song X, et al. Long-form factuality in large language models[J]. arXiv preprint arXiv:2403.18802, 2024.

[13] Min S, Krishna K, Lyu X, et al. Factscore: Fine-grained atomic evaluation of factual precision in long form text generation[J]. arXiv preprint arXiv:2305.14251, 2023.

[14] Chern I, Chern S, Chen S, et al. FacTool: Factuality Detection in Generative AI--A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios[J]. arXiv preprint arXiv:2307.13528, 2023.

[15] Zha Y, Yang Y, Li R, et al. AlignScore: Evaluating factual consistency with a unified alignment function[J]. arXiv preprint arXiv:2305.16739, 2023.

[16] Wang B, Chern S, Chern E, et al. Halu-j: Critique-based hallucination judge[J]. arXiv preprint arXiv:2407.12943, 2024.

責(zé)任編輯：龐桂玉來(lái)源：字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)