成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CVPR 2024 | 多模態大模型幻覺原因找到了!

發布于 2024-4-2 12:17
瀏覽
0收藏

CVPR 2024 | 多模態大模型幻覺原因找到了!-AI.x社區

論文題目:

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation

論文地址:

??https://arxiv.org/abs/2311.17911??

代碼地址:

??https://github.com/shikiw/OPERA??

01 背景

從 LLaVA 到 Qwen-VL,從 GPT-4V 到 Claude 3,幻覺(Hallucination)問題一直是當前多模態大模型(MLLM)的重要問題。當前大多數的多模態大模型對于用戶提供的圖像和提問,容易因為幻覺給出非常離譜的回答,例如說出圖像上根本不存在的事物,識別出與圖像上物體的顏色、數量和位置關系不符的特征。


而這一現象,在多模態大模型生成較長回答時尤其常見。試想一下,如果將有嚴重幻覺問題的多模態大模型部署在自動駕駛上,在高速公路上前方無車的情況下,由于模型出現前方有車的幻覺而下令急剎車,將會導致嚴重的交通追尾事故。


例如 LLaVA-1.5 的 7B 模型在描述圖中的食物時,一開始會表達得較為準確,但隨著回答越來越長會說出許多“不存在”的事物:

CVPR 2024 | 多模態大模型幻覺原因找到了!-AI.x社區

對于多模態大模型中幻覺問題的成因,研究者們至今仍未找到確切答案。為了解決這一問題,近期提出了多種不同的方法。其中一些方法涉及構建額外的訓練數據,并將其融入到訓練過程中;而另一些方法則依賴于外部知識或強大的模型來進行輔助。


然而,這些方法通常會帶來巨大的額外成本,并且許多方法并未對幻覺的機制與由來進行深入分析。因此,人們不禁思考,多模態幻覺的成因究竟是什么?同時,是否存在一種方法,可以在不需要額外知識和訓練的情況下輕松解決多模態大模型的幻覺問題呢?

02 分析

為此,中科大等單位的研究人員從可視化模型在推理時的 Self-Attention 權重出發,希望尋找得到一些有趣的結論。他們首先觀察到,在模型生成幻覺內容時,最后一層的 Self-Attention 權重大概率會在幻覺部分之前呈現出明顯的“柱狀”特征,這導致幻覺部分的 Self-Attention 權重表現出一種“過度信賴”的趨勢。以多模態大模型 InstructBLIP 為例:

CVPR 2024 | 多模態大模型幻覺原因找到了!-AI.x社區

可以清晰地觀察到,在幻覺句子出現之前,存在一個 token,其對后續所有 token 都具有較高的注意力權值。通常情況下,這種現象并不合乎常理,因為從輸出的回答來看,這個詞并不一定包含豐富的語義信息。那么問題來了,這些自注意力圖上的“柱狀”特征究竟是什么呢?


研究者們分析認為,這種現象可能是多模態大模型在生成較長語句時展現的一種“自動總結”本能。這些“柱狀”特征所對應的 token 正是模型推理過程中的 summary token,這一觀察與同期在 EMNLP best paper 中 “anchor token” [1] 類似,進一步揭示了大模型內部的運作機制。


由于現有多模態大模型的基座取自大語言模型,其因果語言模型的特點使其在淺層時將前文 token 的信息聚合到 summary token,同時在深層時主要利用 summary token 中聚合的信息來預測整個序列的下一個 token(見下圖圖 a)。


這一現象非常類似于人類在處理長文本時也經常使用的階段性總結的習慣,有助于更高效地處理大量信息。那么這樣的機制又是如何影響到多模態幻覺的產生的呢?

CVPR 2024 | 多模態大模型幻覺原因找到了!-AI.x社區


研究者們先讓多模態大模型根據給定的圖作出較長的回答,再根據各個 summary token 出現的不同位置將模型的回答劃分為不同的子句,并且計算每個子句的 CHAIR 指標來評估子句中出現幻覺內容的程度。CHAIR 值越高代表幻覺程度越嚴重。


如上圖圖 b、c,隨著序列中 summary token 數量的增多,子句的幻覺程度也在逐漸提升。這說明了在序列中出現越多 summary token 會越容易讓模型輸出幻覺內容。


對此,研究者們給出了基于信息流的解釋:他們認為在生成的文本序列越來越長的同時,通常位于序列前段的 vision tokens 所提供的視覺信息會在 summary token 之間信息流動的過程中逐漸被稀釋(因為一個 summary token 很難將序列中所有前文 token 所包含的信息都完整地記錄)。


因此,越往后生成的 token 越容易忽視 vision tokens,并“過度信賴”某些 summary tokens,從而產生幻覺內容。研究者們將這一現象描述為 “partial over-trust”,并發現大模型的這種階段性總結可能是導致幻覺問題的一大“元兇”!同時,研究者們進行了數值統計,在不同模型中都觀察到了這一現象與幻覺之間的相關性。

CVPR 2024 | 多模態大模型幻覺原因找到了!-AI.x社區

研究者們通過隨機采樣 100 張圖像,并向不同的多模態大模型提出問題。他們發現在所有出現幻覺回答的情況下,有 80%~90% 的回答都呈現出了“過度信賴”現象,進一步證實了這一現象與幻覺之間的伴生關系。

03 方法

為此,研究者們提出了一種名為 OPERA 的解碼方法,該方法基于注意力懲罰與回退策略,成功地在不借助外部知識并不引入額外訓練的情況下緩解了多模態大模型的幻覺問題。


研究者們希望通過改變解碼策略來緩解這種“過度信賴”現象的出現,從而來減輕幻覺問題。在經典解碼方法 Beam Search 的基礎上,他們首先在解碼過程中對每個 token 的輸出概率引入了一個額外的懲罰項,來懲罰其出現“過度信賴”的注意力特征。


具體來說,他們首先在自注意力的權重圖上劃分出一個局部窗口,然后將這些權重在數值進行放大,同時使用列乘法得到一個得分向量,最后選擇得分向量中的最大得分作為懲罰得分。這個懲罰得分越大說明出現生成句子中存在“過度信賴”的特征越明顯,越可能出現幻覺。


最后,這個懲罰得分的作用會體現在每個序列的 Beam 得分上,得分較低的序列最后將被淘汰。

CVPR 2024 | 多模態大模型幻覺原因找到了!-AI.x社區


由于這種“過度信賴”的特征具有“滯后性”,即只有在解碼的過程中輸出了若干 token 之后才能發現這樣的特征。為了解決這種滯后帶來的局限性,研究者們還提出了“回退-再分配”的策略。


具體來說,可以計算最近幾個 token 的得分向量的最大值下標,并檢查該下標連續出現的次數是否大于一定閾值。如果高于閾值,則將當前序列的解碼過程回退到這一下標所在 token 的位置,并重新選擇詞表中概率次高的詞(除了之前已經選擇的詞之外)。

CVPR 2024 | 多模態大模型幻覺原因找到了!-AI.x社區


結合所提出的“過度信賴”懲罰與“回退-再分配”策略,研究者們提出一個新的多模態大模型解碼方法 OPERA,極大地緩解了模型的尤其是在生成長文的幻覺現象。

04 實驗

研究者們在 InstructBLIP,MiniGPT-4,LLaVA-1.5 以及 Shikra 等多種多模態大模型的 7B 模型上進行了測試,在不同維度上進行了統計驗證。相比于之前的解碼方法,所提出的 OPERA 解碼方法在緩解幻覺上均表現出優越的性能。

CVPR 2024 | 多模態大模型幻覺原因找到了!-AI.x社區

CVPR 2024 | 多模態大模型幻覺原因找到了!-AI.x社區

此外,研究者們還引入了 GPT-4 和 GPT-4V 進行打分測試,在生成內容的準確程度與具體程度上,OPERA 同樣也表現出優越的性能。

CVPR 2024 | 多模態大模型幻覺原因找到了!-AI.x社區


同時,研究者們還意外地發現 OPERA 能夠幫助 LLaVA-1.5 等多模態模型成功在 MME、MMBench 等多模態 benchmark 上漲點。例如,在 LLaVA-1.5 的 7B 模型上的結果如下:

CVPR 2024 | 多模態大模型幻覺原因找到了!-AI.x社區


此外,研究者們還給出了 OPERA 的一些具體表現的實例:

CVPR 2024 | 多模態大模型幻覺原因找到了!-AI.x社區

CVPR 2024 | 多模態大模型幻覺原因找到了!-AI.x社區

CVPR 2024 | 多模態大模型幻覺原因找到了!-AI.x社區

總的來說,本文從一個獨特的視角解釋了現有多模態大模型幻覺產生的原因。作為一種通過改進解碼策略來減輕多模態大模型幻覺的方法,OPERA 具有易于在不同模型和架構上部署的特點,同時也激發了更多研究者從機制層面研究和解決多模態大模型的幻覺問題。

 

本文轉自 PaperWeekly ,作者:讓你更懂AI的


原文鏈接:??https://mp.weixin.qq.com/s/qAYImdyACrhd4ipMNh39XA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 色视频欧美 | 国产精品1| 羞羞视频免费在线观看 | 日本色高清 | 久久亚洲一区 | 欧美一区视频在线 | 午夜男人天堂 | 美女一级a毛片免费观看97 | 日韩免费高清视频 | 一级黄色裸片 | 免费在线观看一区二区 | 成人在线一级片 | 91资源在线 | 午夜视频一区二区 | 91日b| 五月天综合网 | 97影院2| 啪啪免费网 | 日韩一级精品视频在线观看 | 天天射视频 | 精品亚洲一区二区 | 九色视频网站 | 999久久久免费精品国产 | 国产伦一区二区三区视频 | 欧美狠狠操 | 天天干天天插 | 国产精品99久久久久久久久 | 日韩在线免费视频 | 欧美一区永久视频免费观看 | 日韩免费av | av一级毛片 | www.99re| 黄色一级大片在线免费看产 | 一级大片| 亚洲少妇综合网 | 一区影院 | 伊人导航 | 亚洲视频免费 | 久草精品视频 | 国产精品免费一区二区 | 男人的天堂在线视频 |