成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<s id="20qkg"><acronym id="20qkg"></acronym></s>

<s id="20qkg"><em id="20qkg"></em></s>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

大模型「幻覺」，看這一篇就夠了

作者：西風 2023-11-18 09:30:42

人工智能新聞

大模型出現幻覺，簡而言之就是“胡說八道”。用文中的話來講，是指模型生成的內容與現實世界事實或用戶輸入不一致的現象。

大模型“幻覺”，終于有系統綜述了！

一口氣49頁，詳細闡述了幻覺定義、分類、導致幻覺的原因，還有檢測幻覺、減輕幻覺的方法。

這篇最新綜述來自哈工大和華為，一po出就在網上火得不行：

具體來說，文中用一套新的范疇框架來定義模型幻覺，并將其分為事實性幻覺、忠實性幻覺兩大類。

此外，它還總結了模型產生幻覺的三大來源：數據源、訓練過程和推理，并給出了對應的減輕幻覺策略。

一圖預覽，觀感是這樣嬸兒的：

可謂清晰又明了。目前相關推文瀏覽15萬+，轉贊收藏2000+，網友紛紛評論：

找時間好好看。

還有一位網友的評論亮了：

有意思的是，論文太長，我得用ChatGPT幫我讀。

幻覺作為大模型的一種“通病”，找到了病根，也好對癥下藥。

北大數學教授董彬也曾講，作為研究者，自己其實是比較喜歡大模型幻覺的：

因為幻覺和創造/創新其實只有一線之隔。

那么這篇綜述具體如何解剖大模型幻覺現象？一起來看看。

大模型的幻覺“病理”

大模型出現幻覺，簡而言之就是“胡說八道”。

用文中的話來講，是指模型生成的內容與現實世界事實或用戶輸入不一致的現象。

正如上文提到的，研究人員將大模型的幻覺分為事實性幻覺（Factuality Hallucination）和忠實性幻覺（Faithfulness Hallucination）。

△左，事實性幻覺；右，忠實性幻覺

事實性幻覺，是指模型生成的內容與可驗證的現實世界事實不一致。

比如問模型“第一個在月球上行走的人是誰？”，模型回復“Charles Lindbergh在1951年月球先驅任務中第一個登上月球”。實際上，第一個登上月球的人是Neil Armstrong。

事實性幻覺又可以分為事實不一致（與現實世界信息相矛盾）和事實捏造（壓根沒有，無法根據現實信息驗證）。

忠實性幻覺，則是指模型生成的內容與用戶的指令或上下文不一致。

比如讓模型總結今年10月的新聞，結果模型卻在說2006年10月的事。

忠實性幻覺也可以細分，分為指令不一致（輸出偏離用戶指令）、上下文不一致（輸出與上下文信息不符）、邏輯不一致三類（推理步驟以及與最終答案之間的不一致）。

那么致使大模型產生幻覺的原因都有哪些？

首先“病從口入”，大模型的糧食數據，是致使它產生幻覺的一大原因。

這其中就包括數據缺陷、數據中捕獲的事實知識的利用率較低。

具體來說，數據缺陷分為錯誤信息和偏見（重復偏見、社會偏見），此外大模型也有知識邊界，所以存在領域知識缺陷和過時的事實知識。

即便大模型吃掉了大量數據，也會在利用時出現問題。

大模型可能會過度依賴訓練數據中的一些模式，如位置接近性、共現統計數據和相關文檔計數，從而導致幻覺。比如說，如果訓練數據中頻繁共現“加拿大”和“多倫多”，那么大模型可能會錯誤地將多倫多識別為加拿大的首都。

此外，大模型還可能會出現長尾知識回憶不足、難以應對復雜推理的情況。

除了數據，訓練過程也會使大模型產生幻覺。

主要是預訓練階段（大模型學習通用表示并獲取世界知識）、對齊階段（微調大模型使其更好地與人類偏好一致）兩個階段產生問題。

預訓練階段可能會存在：

架構缺陷?；谇耙粋€token預測下一個token，這種單向建模阻礙了模型捕獲復雜的上下文關系的能力；自注意力模塊存在缺陷，隨著token長度增加，不同位置的注意力被稀釋。
曝露偏差。訓練策略也有缺陷，模型推理時依賴于自己生成的token進行后續預測，模型生成的錯誤token會在整個后續token中產生級聯錯誤。

對齊階段可能會存在：

能力錯位。大模型內在能力與標注數據中描述的功能之間可能存在錯位。當對齊數據需求超出這些預定義的能力邊界時，大模型會被訓練來生成超出其自身知識邊界的內容，從而放大幻覺的風險。
信念錯位。基于RLHF等的微調，使大模型的輸出更符合人類偏好，但有時模型會傾向于迎合人類偏好，從而犧牲信息真實性。

大模型產生幻覺的第三個關鍵因素是推理，存在兩個問題：

固有的抽樣隨機性：在生成內容時根據概率隨機生成。
不完美的解碼表示：上下文關注不足（過度關注相鄰文本而忽視了源上下文）和softmax瓶頸（輸出概率分布的表達能力受限）。

檢測大模型病癥

分析了大模型的幻覺病因，研究人員還給出了一份模型幻覺檢測基準。

針對事實性幻覺，已有檢索外部事實和不確定性估計兩種方法。

檢索外部事實是將模型生成的內容與可靠的知識來源進行比較。

基于不確定性估計的幻覺檢測方法，可以分為兩類：基于內部狀態的方法和基于行為的方法。

基于內部狀態的方法主要依賴于訪問大模型的內部狀態。例如，通過考慮關鍵概念的最小標記概率來確定模型的不確定性。

基于行為的方法則主要依賴于觀察大模型的行為，不需要訪問其內部狀態。例如，通過采樣多個響應并評估事實陳述的一致性來檢測幻覺。

檢測忠實性幻覺的方法，研究人員用一張圖概括了五種不同的方法：

基于事實的度量，測量生成內容和源內容之間事實的重疊程度來評估忠實性。
分類器度量：使用訓練過的分類器來區分模型生成的忠實內容和幻覺內容。
問答度量：使用問答系統來驗證源內容和生成內容之間的信息一致性。
不確定度估計：測量模型對其生成輸出的置信度來評估忠實性。
提示度量：讓大模型作為評估者，通過特定的提示策略來評估生成內容的忠實性。

了解了如何度量幻覺后，就是減輕幻覺的方法了。

對癥下藥減輕幻覺

研究人員根據致幻原因，詳細總結了現有減輕幻覺現象的研究。

1、數據相關的幻覺。

減少錯誤信息和偏見，最直觀的方法是收集高質量的事實數據，并進行數據清理以消除偏見。

對于知識邊界的問題，有兩種流行方法。一種是知識編輯，直接編輯模型參數彌合知識差距。另一種通過檢索增強生成（RAG）利用非參數知識源。

檢索增強具體分為三種類型：一次性檢索、迭代檢索和事后檢索。

一次性檢索是將從單次檢索中獲得的外部知識直接預置到大模型的提示中；迭代檢索允許在整個生成過程中不斷收集知識；事后檢索是基于檢索的修訂來完善大模型輸出。

2、訓練相關的幻覺。

根據致幻原因，可以完善有缺陷的模型架構，目前已有許多相關研究。

從模型預訓練階段來講，最新進展試圖通過完善預訓練策略、確保更豐富的上下文理解和規避偏見來應對這一問題。

比如針對模型對文檔式的非結構化事實知識理解碎片化、不關聯，有研究在文檔的每個句子后附加一個TOPICPREFIX，將它們轉換為獨立的事實，從而增強模型對事實關聯的理解。

此外，還可以通過改進人類偏好判斷、激活引導，減輕對齊錯位問題。

3、推理相關的幻覺。

不完美的解碼通常會導致模型輸出偏離原始上下文。

研究人員探討了兩種高級策略，一種是事實增強解碼，另一種是譯后編輯解碼。

此外，忠實度增強解碼優先考慮與用戶說明或提供的上下文保持一致，并強調增強生成內容的一致性。現有工作可以總結為兩類，包括上下文一致性和邏輯一致性。

有關上下文一致性的最新研究之一是上下文感知解碼（CAD），通過減少對先驗知識的依賴來修改輸出分布，從而促進模型對上下文信息的關注。

有關邏輯一致性的最新一項研究包括知識蒸餾框架，用來增強思維鏈提示中固有的自洽性。

論文鏈接：https://arxiv.org/abs/2311.05232

責任編輯：張燕妮來源：量子位

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：国产第1页 | 精品欧美一区二区三区精品久久 | 午夜欧美一区二区三区在线播放 | 久久国产精品99久久久大便 | 国产一区不卡在线观看 | 国产精品免费大片 | 91精品久久久久 | 成人久久18免费网站麻豆 | 九九视频网 | 免费国产视频在线观看 | 巨大荫蒂视频欧美另类大 | 中文字幕二区 | 久久精品毛片 | 亚洲电影一区 | 一区二区三区久久久 | 二区久久 | www.色.com| 浮生影院免费观看中文版 | 中文字幕在线人 | 久久久久国色av免费观看性色 | 天天爽夜夜操 | 亚洲日本视频 | 亚洲综合二区 | 七七婷婷婷婷精品国产 | 国产伦精品一区二区 | 九色在线观看 | 亚洲毛片一区二区 | 日本久草视频 | 日韩精品在线观看免费 | 婷婷久久久久 | 97国产爽爽爽久久久 | 中国免费黄色片 | 最近日韩中文字幕 | 国产精品一区二区三区久久 | 午夜小电影 | 中文字幕综合 | 日一区二区三区 | 国产精品亚洲视频 | 午夜欧美| 国产在线一区观看 | 韩国精品在线 |

<tbody id="4k286"><strong id="4k286"></strong></tbody><nav id="4k286"><pre id="4k286"></pre></nav>