知識(shí)圖譜、大模型與幻覺(jué):自然語(yǔ)言處理的視角
摘要
大型語(yǔ)言模型(LLMs)已經(jīng)徹底改變了基于自然語(yǔ)言處理(NLP)的應(yīng)用,包括自動(dòng)化文本生成、問(wèn)答系統(tǒng)、聊天機(jī)器人等。然而,它們面臨一個(gè)重大挑戰(zhàn):產(chǎn)生幻覺(jué),即模型生成聽(tīng)起來(lái)合理但實(shí)際上錯(cuò)誤的內(nèi)容。這削弱了信任,并限制了LLMs在不同領(lǐng)域的適用性。另一方面,知識(shí)圖譜(KGs)提供了結(jié)構(gòu)化的互聯(lián)事實(shí)集合,以實(shí)體(節(jié)點(diǎn))及其關(guān)系(邊)表示。在最近的研究中,KGs已被用于提供上下文,可以填補(bǔ)LLMs在理解某些話題時(shí)的空白,提供了一種緩解LLMs幻覺(jué)的有前途的方法,增強(qiáng)了它們的可靠性和準(zhǔn)確性,同時(shí)受益于它們廣泛的適用性。盡管如此,它仍然是一個(gè)非常活躍的研究領(lǐng)域,存在許多未解決的開(kāi)放性問(wèn)題。在本文中,我們討論了這些未解決的挑戰(zhàn),涵蓋了最新的數(shù)據(jù)集和基準(zhǔn)測(cè)試,以及知識(shí)整合和評(píng)估幻覺(jué)的方法。在我們的討論中,我們考慮了當(dāng)前大型語(yǔ)言模型(LLMs)在LLM系統(tǒng)中的使用,并針對(duì)每個(gè)挑戰(zhàn)確定了未來(lái)的方向。
圖片
核心速覽
研究背景
- 研究問(wèn)題:這篇文章要解決的問(wèn)題是大型語(yǔ)言模型(LLMs)在生成文本時(shí)容易出現(xiàn)的事實(shí)不一致現(xiàn)象,即“幻覺(jué)”。這種幻覺(jué)會(huì)損害用戶對(duì)AI系統(tǒng)的信任,并在某些情況下生成誤導(dǎo)性信息。
- 研究難點(diǎn):該問(wèn)題的研究難點(diǎn)包括:幻覺(jué)的多面性(如世界知識(shí)、自相矛盾、與提示指令或給定上下文的幻覺(jué))、評(píng)估幻覺(jué)的復(fù)雜性(需要評(píng)估輸出的語(yǔ)義一致性)以及現(xiàn)有數(shù)據(jù)集和基準(zhǔn)測(cè)試的局限性。
- 相關(guān)工作:該問(wèn)題的研究相關(guān)工作有:利用知識(shí)圖譜(KGs)提供結(jié)構(gòu)化的事實(shí)信息來(lái)緩解LLMs的幻覺(jué)問(wèn)題、現(xiàn)有的幻覺(jué)檢測(cè)方法和知識(shí)整合模型。
研究方法
這篇論文提出了利用知識(shí)圖譜(KGs)來(lái)緩解LLMs的幻覺(jué)問(wèn)題。具體來(lái)說(shuō),
- 知識(shí)圖譜的利用:KGs是一種結(jié)構(gòu)化的知識(shí)表示形式,由實(shí)體(節(jié)點(diǎn))和它們之間的關(guān)系(邊)組成。通過(guò)將KGs的信息整合到LLMs中,可以在推理或生成過(guò)程中提供事實(shí)基礎(chǔ),從而提高輸出的一致性和準(zhǔn)確性。
- 知識(shí)整合模型的分類:根據(jù)其底層架構(gòu),可以將不同的知識(shí)整合模型進(jìn)行分類。論文提出了一個(gè)分類框架,展示了在不同階段加入額外信息以增強(qiáng)事實(shí)性的可能性。
- 幻覺(jué)檢測(cè)方法:GraphEval提出了一種兩階段的幻覺(jué)檢測(cè)和緩解方法,通過(guò)從LLMs輸出中提取原子斷言并與給定文本上下文進(jìn)行比較來(lái)進(jìn)行檢測(cè)。其他方法如KGR、Fleek等也采用了類似的方法,但都存在一些局限性。
- 多提示評(píng)估:DefAn數(shù)據(jù)集通過(guò)為每個(gè)問(wèn)答數(shù)據(jù)點(diǎn)提供15個(gè)不同的問(wèn)題重述,來(lái)評(píng)估LLMs的魯棒性和一致性。
實(shí)驗(yàn)設(shè)計(jì)
- 數(shù)據(jù)集:論文評(píng)估了多個(gè)幻覺(jué)檢測(cè)和數(shù)據(jù)集,包括Shroom SemEval 2024、MuShroom SemEval 2025、MedHalt、HaluEval、TruthfulQA、FELM、HaluBench、DefAn、SimpleQA等。這些數(shù)據(jù)集覆蓋了多個(gè)領(lǐng)域和任務(wù)類型,如法律、政治、醫(yī)學(xué)、科技、藝術(shù)、金融等。
- 評(píng)估指標(biāo):使用了多種評(píng)估指標(biāo),如準(zhǔn)確率、校準(zhǔn)、F1值等,來(lái)評(píng)估幻覺(jué)檢測(cè)模型的性能。對(duì)于知識(shí)整合方法,還使用了BERTScore和BARTScore等語(yǔ)義相似度度量。
- 實(shí)驗(yàn)設(shè)置:實(shí)驗(yàn)設(shè)置包括對(duì)每個(gè)數(shù)據(jù)集的劃分(訓(xùn)練、驗(yàn)證、測(cè)試)、子任務(wù)的定義以及外部知識(shí)的來(lái)源(如文本上下文、網(wǎng)頁(yè)等)。
結(jié)果與分析
- 幻覺(jué)檢測(cè)效果:現(xiàn)有的幻覺(jué)檢測(cè)方法在識(shí)別和處理幻覺(jué)方面取得了一定的進(jìn)展,但仍存在一些問(wèn)題。例如,多階段管道方法的魯棒性和可擴(kuò)展性有限,且高度依賴于LLMs的提示。
- 知識(shí)整合效果:通過(guò)將KGs信息整合到LLMs中,可以顯著提高輸出的一致性和準(zhǔn)確性。然而,現(xiàn)有的知識(shí)整合方法在快速知識(shí)更新和避免提示脆弱性方面仍存在挑戰(zhàn)。
- 多提示評(píng)估:DefAn數(shù)據(jù)集的評(píng)估結(jié)果表明,多提示方法可以提高LLMs的魯棒性和一致性,但仍需要進(jìn)一步的研究來(lái)驗(yàn)證其在不同場(chǎng)景下的有效性。
總體結(jié)論
這篇論文總結(jié)了利用知識(shí)圖譜(KGs)來(lái)緩解LLMs幻覺(jué)問(wèn)題的現(xiàn)狀和挑戰(zhàn)。盡管已有方法取得了一定的進(jìn)展,但幻覺(jué)緩解仍然是一個(gè)持續(xù)的研究問(wèn)題。論文提出了未來(lái)研究的方向,包括大規(guī)模數(shù)據(jù)集、多語(yǔ)言和多任務(wù)的評(píng)估、細(xì)粒度的幻覺(jué)檢測(cè)、減少對(duì)文本提示的依賴以及混合使用不同的幻覺(jué)緩解方法。通過(guò)這些研究方向,論文希望為L(zhǎng)LMs的幻覺(jué)問(wèn)題提供更有效的解決方案。
論文評(píng)價(jià)
優(yōu)點(diǎn)與創(chuàng)新
- 全面性:論文詳細(xì)討論了知識(shí)圖譜(KGs)在緩解大型語(yǔ)言模型(LLMs)生成幻覺(jué)現(xiàn)象中的潛力,涵蓋了當(dāng)前的研究現(xiàn)狀、局限性以及未來(lái)的研究方向。
- 分類方法:提出了基于架構(gòu)的知識(shí)集成模型分類方法,并總結(jié)了不同階段額外信息加入的類別。
- 資源梳理:梳理了現(xiàn)有的評(píng)估幻覺(jué)的數(shù)據(jù)集和基準(zhǔn)測(cè)試,提供了詳細(xì)的資源概覽。
- 多維度評(píng)估:強(qiáng)調(diào)了多維度評(píng)估的重要性,包括多語(yǔ)言、多任務(wù)和多角度的評(píng)估方法。
- 細(xì)粒度檢測(cè):提出了細(xì)粒度的幻覺(jué)檢測(cè)方法,如句子級(jí)和段落級(jí)的檢測(cè),以更好地捕捉幻覺(jué)的細(xì)節(jié)。
- 未來(lái)方向:提出了多個(gè)未來(lái)研究方向,包括大規(guī)模數(shù)據(jù)集、魯棒評(píng)估、細(xì)粒度幻覺(jué)檢測(cè)、非文本提示的知識(shí)集成方法以及混合不同方法的探索。
不足與反思
- 數(shù)據(jù)集限制:大多數(shù)現(xiàn)有數(shù)據(jù)集缺乏高質(zhì)量的知識(shí)圖譜三元組作為外部知識(shí),限制了知識(shí)集成模型的參數(shù)化方法的發(fā)展。
- 評(píng)估方法局限:當(dāng)前的評(píng)估方法主要依賴于單一的提示和多語(yǔ)言評(píng)估的缺乏,未能全面評(píng)估系統(tǒng)的魯棒性和泛化能力。
- 方法依賴性:許多方法仍然依賴于文本提示,存在提示脆弱性和高計(jì)算成本的問(wèn)題。
- 知識(shí)圖譜的局限性:現(xiàn)有的知識(shí)圖譜在數(shù)據(jù)完整性、準(zhǔn)確性和多語(yǔ)言覆蓋方面存在局限性,可能影響幻覺(jué)緩解的效果。
- 未來(lái)研究建議:需要進(jìn)一步研究如何在參數(shù)化設(shè)置中集成知識(shí),減少對(duì)文本提示的依賴,并探索不同方法的有效組合。
關(guān)鍵問(wèn)題及回答
問(wèn)題1:論文中提到的知識(shí)圖譜(KGs)在緩解LLMs幻覺(jué)問(wèn)題中的具體應(yīng)用有哪些?
- 預(yù)訓(xùn)練階段:將KG triples作為訓(xùn)練數(shù)據(jù)的一部分,通過(guò)掩碼實(shí)體預(yù)測(cè)任務(wù)將KG triples與原始文本輸入融合。例如,Ernie 3.0模型通過(guò)大規(guī)模的知識(shí)增強(qiáng)預(yù)訓(xùn)練來(lái)提升語(yǔ)言理解和生成能力。
- 推理階段:通過(guò)提示(prompting)將KG triples與查詢結(jié)合,形成輸入對(duì)(P={\mathcal{K},\mathcal{Q}}),用于檢索增強(qiáng)生成(RAG)任務(wù)。例如,使用BERTscore和BARTScore等語(yǔ)義相似度度量來(lái)評(píng)估LLMs輸出的質(zhì)量。
- 生成后階段:在生成答案后,通過(guò)外部KG進(jìn)行事實(shí)檢查,并根據(jù)驗(yàn)證結(jié)果對(duì)原始輸出進(jìn)行修正。例如,GECKO方法完全依賴于KG信息進(jìn)行文本生成。
問(wèn)題2:論文中提到的幻覺(jué)檢測(cè)方法有哪些?它們各自的優(yōu)缺點(diǎn)是什么?
- GraphEval:提出了一種兩階段的幻覺(jué)檢測(cè)和緩解方法。第一階段通過(guò)LLM提示提取原子斷言并形成子圖,第二階段將這些子圖與給定文本上下文進(jìn)行比較。優(yōu)點(diǎn)是可以提供細(xì)粒度的錯(cuò)誤分析,缺點(diǎn)是依賴于LLM提示的魯棒性。
- KGR:通過(guò)命名實(shí)體提取KG子圖,并比較源文本和生成文本之間的對(duì)齊情況。優(yōu)點(diǎn)是能夠識(shí)別具體的錯(cuò)誤部分,缺點(diǎn)是可能丟失抽象概念的詳細(xì)信息。
- Fleek:通過(guò)提取結(jié)構(gòu)化三元組并使用另一個(gè)LLM進(jìn)行事實(shí)檢查。優(yōu)點(diǎn)是能夠進(jìn)行事實(shí)驗(yàn)證,缺點(diǎn)是依賴于多個(gè)LLM的推理,計(jì)算成本高。
- DefAn:通過(guò)為每個(gè)問(wèn)答數(shù)據(jù)點(diǎn)提供多個(gè)問(wèn)題重述來(lái)評(píng)估LLMs的魯棒性和一致性。優(yōu)點(diǎn)是多提示評(píng)估可以提高模型的魯棒性,缺點(diǎn)是需要大量的標(biāo)注數(shù)據(jù)和計(jì)算資源。
問(wèn)題3:論文中提到的知識(shí)整合方法在提高LLMs輸出一致性和準(zhǔn)確性方面的效果如何?存在哪些挑戰(zhàn)?
- 效果:通過(guò)將KGs信息整合到LLMs中,可以顯著提高輸出的一致性和準(zhǔn)確性。例如,Ernie 3.0模型在大規(guī)模知識(shí)增強(qiáng)預(yù)訓(xùn)練后,情感分析任務(wù)的性能得到了顯著提升。
- 挑戰(zhàn):現(xiàn)有的知識(shí)整合方法在快速知識(shí)更新和避免提示脆弱性方面仍存在挑戰(zhàn)。例如,基于提示的方法依賴于手工設(shè)計(jì)的模板,容易受到格式和內(nèi)容限制的影響。此外,多階段管道方法的魯棒性和可擴(kuò)展性也有限,高度依賴于LLMs的提示。