多模態(tài)物體幻覺下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,專攻三大幻覺成因
自GPT多模態(tài)亮相以來,開源多模態(tài)大模型層出不窮。
在人工智能領(lǐng)域,融合多種模態(tài)的大規(guī)模模型已被廣大研究者和業(yè)界視為發(fā)展的主流方向,也被認為是構(gòu)建通用AI助手的核心組件。
國內(nèi)外一些研究人員在GPT-4V未真正亮相期間,推出了一些代表作,如LLaVa, MiniGPT-4, Mplug-Owl等,這些開源模型在自然指令跟蹤和視覺推理能力方面展示了非常強大的性能。
但有一個問題也一直困擾著眾多研究人員: 這些多模態(tài)大模型在能理解真實圖像的同時,也被嚴重的幻覺問題所困擾:看圖說瞎話,胡編亂造等問題時常出現(xiàn),對視覺摘要、推理等視覺語言任務(wù)產(chǎn)生了非常大的負面影響。
今年10月, 北卡教堂山、斯坦福、哥大、羅格斯等大學的研究人員系統(tǒng)分析了LVLMs中幻覺的三種成因, 并且提出了一個通用的解決方案LURE(LVLM Hallucination Revisor,幻覺修正器),通過重建一個包含更少幻覺的描述來糾正LVLM中的物體幻覺(object hallucination)問題,可以與任意LVLM進行無縫集成。
論文地址: https://arxiv.org/abs/2310.00754
代碼地址: https://github.com/YiyangZhou/LURE
LURE的設(shè)計基于對產(chǎn)生物體幻覺的關(guān)鍵因素,進行嚴格統(tǒng)計分析,包括共現(xiàn)(某些物體在圖像中與其他物體一起頻繁出現(xiàn))、不確定性(在LVLM解碼期間具有較高不確定性的物體)和物體位置(幻覺通常出現(xiàn)在生成文本的后面部分)。
研究人員在六個開源LVLM上對LURE進行評估了,與之前的最佳方法相比,通用物體幻覺評估指標提高了23%;在GPT和人工評估中,LURE始終名列前茅。
幻覺從哪來,為什么會產(chǎn)生這樣的幻覺?
研究人員對LVLMs產(chǎn)生幻覺的原因進行了系統(tǒng)性的分析,可以歸結(jié)為如下三個因素:
1. 物體間的同現(xiàn)和假相關(guān)性
研究人員對不同對LVLMs對于訓練集合中圖片相應的描述統(tǒng)計發(fā)現(xiàn),大部分幻覺的描述中的物體都會存在較高的共現(xiàn)分數(shù),也就是說幻覺物體極大概率是經(jīng)常一起出現(xiàn)的物體。
例如:一張圖片中有草和天空,那么出現(xiàn)幻覺的描述中的幻覺物體大概率可能是樹木、鳥兒,因為這些物體在訓練集合中經(jīng)常一起出現(xiàn)。
2. 解碼過程的不確定性
同時幻覺物體大概率是解碼過程中不太確定的物體,這種不確定性會導致模型在解碼過程中錯誤選擇概率差不多且不太確定的物體,導致描述中出現(xiàn)了幻覺。
3、位置關(guān)系
同時研究人員觀察了大量的幻覺描述發(fā)現(xiàn),幻覺集中出現(xiàn)在模型響應圖像的描述的后半段,這可能是模型前面的輸出的錯誤觸發(fā)了后續(xù)幻覺的滾雪球。
為了驗證上述分析的可靠性,研究人員還對這三個因素對于幻覺的貢獻進行了詳細的理論證明。
方法介紹
那么如何減少這樣的幻覺呢?
為了減少LVLMs幻覺,研究團隊提出了首個多模態(tài)幻覺緩解方案LURE:基于上述分析的關(guān)鍵因素,LURE通過物體幻覺修正器,能與任意LVLM無縫銜接,對不準確的描述進行糾正。
訓練流程
推理流程
實驗及結(jié)果
效果怎么樣呢?
在六個開源的LVLMs上,LURE都證明了自己的有效性。
在各種評估指標下,如CHAIR、GPT評估以及人類評估,它都能顯著減少至少23%的物體幻覺。
本文將MiniGPT-4 llama7B作為基準模型用于訓練LURE,然后集成于6個開源的LVLM,與其余減少幻覺的basline相比LURE能大幅降低模型輸出時的幻覺:
研究人員同時進行了消融實驗,證明了LURE算法適用于各種LVLMs
且不依賴于數(shù)據(jù)集本身所帶來的性能偏移。
此外之前分析的三個因素在LURE后處理之后都能有明顯的改善:
由于幻覺評估除了經(jīng)典的CHAIR,沒有其他評估指標,研究人員還分析了傳統(tǒng)的機器翻譯指標是否適用于幻覺的評估: