多模態大模型幻覺降低30%!中科大等提出首個幻覺修正架構「Woodpecker」啄木鳥
視覺幻覺是常見于多模態大語言模型(Multimodal Large Language Models, MLLMs)的一個典型問題。
簡單來說就是:模型輸出的描述與圖片內容不相符。
下圖中體現了兩種幻覺,紅色部分錯誤地描述了狗的顏色(屬性幻覺),藍色部分描述了圖中實際不存在的事物(目標幻覺)。
幻覺對模型的可靠性產生了顯著的負面影響,因此引起了許多研究者的重視。
以往的方法主要集中在MLLM本身,通過在訓練數據以及架構上進行改進,以重新微調的方式訓練一個新的MLLM。
然而,這種方式會造成較大的數據構建和訓練開銷,且較難推廣到各種已有的MLLMs。
近日,來自中科大等機構的研究者們提出了一種免訓練的即插即用的通用架構「啄木鳥(Woodpecker)」,通過修正的方式解決MLLM輸出幻覺的問題。
論文地址: https://arxiv.org/pdf/2310.16045.pdf
項目地址: https://github.com/BradyFU/Woodpecker
效果展示
具體來說,Woodpecker可以修正各種場景下模型輸出的幻覺,并輸出檢測框作為引證,表明相應的目標確實存在。
例如,面對描述任務,Woodpecker可以修正其中帶有幻覺的部分:
對于MLLM難以檢測到的小對象,Woodpecker也可以精準修正:
面對MLLM難以解決的復雜的計數場景,Woodpecker同樣可以進行解決:
對于目標屬性類的幻覺問題,Woopecker處理地也很好:
此外,Woodpecker還提供了Demo供讀者測試使用。
如下圖所示,上傳圖片并輸入請求,就可以得到修正前以及修正后的模型答復,以及供參考驗證的新圖片。
方法
Woodpecker的架構如下,它包括五個主要步驟: 關鍵概念提取、問題構造、視覺知識檢驗、視覺斷言生成以及幻覺修正。
- 關鍵概念提取
關鍵概念指的是MLLM的輸出中最可能存在幻覺的存在性目標,例如上圖描述中的「自行車;垃圾桶;人」。
我們可以Prompt大語言模型來提取出這些關鍵概念,這些關鍵概念是后續步驟進行的基礎。
- 問題構造
圍繞著前一步提取出的關鍵概念,Prompt大語言模型來提出一些有助于檢驗圖片描述真偽的問題,如「圖中有幾輛自行車?」、「垃圾桶邊上的是什么?」等等。
- 視覺知識檢驗
使用視覺基礎模型對提出的問題進行檢驗,獲得與圖片以及描述文本相關的信息。
例如,我們可以利用GroundingDINO來進行目標檢測,確定關鍵目標是否存在以及關鍵目標的數量。因為像GroundingDINO這類視覺基礎模型對圖片的感知能力比MLLM本身的感知能力更強。
對于目標顏色等這類屬性問題,則可以利用BLIP-2來進行回答。BLIP-2這類傳統VQA模型輸出答案的長度有限,幻覺問題也更少。
- 視覺斷言生成
基于前兩步中獲得的問題以及對應的視覺信息,合成結構化的「視覺斷言」。這些視覺斷言可以看做與原有MLLM的回答以及輸入圖片相關的視覺知識庫。
- 幻覺修正
基于前面得到的,使用大語言模型對MLLM的文本輸出進行逐一修正,并提供目標對應的檢測框信息作為視覺檢驗的參照。
實驗結果
實驗選取了幾個典型的MLLM作為基線,包括: LLaVA,mPLUG-Owl,Otter,MiniGPT-4。
論文中首先測試了Woodpecker在面對目標幻覺時的修正能力,在POPE驗證集的實驗結果如下表所示:
結果表明在不同的MLLM上應用Woodpecker修正后,均有不同程度的提升。
在隨機設定下,Woodpecker給MiniGPT-4和mPLUG-Owl在準確率指標上分別帶來了30.66%和24.33%的提升。
此外,研究者還應用更全面的驗證集MME,進一步測試Woodpecker在面對屬性幻覺時的修正能力,結果如下表所示:
從表中可見Woodpecker不僅在應對目標幻覺時有效,在修正顏色等屬性幻覺時也具有出色的表現。LLaVA的顏色得分從78.33分大幅提升到155分!
經過Woodpecker修正后,四個基線模型在四個測試子集上的總分均超過500分,在總體感知能力上獲得了顯著提升。
為了更直接地衡量修正表現,更直接的方式是使用開放評測。
不同于以往將圖片轉譯后送入純文本GPT-4的做法,文章利用OpenAI最近開放的視覺接口,提出使用GPT-4(Vision)對修正前后的圖片描述直接對下列兩個維度進行打分:
- 準確度:模型的答復相對于圖片內容是否準確
- 詳細程度:模型答復的細節豐富度
在該實驗條件下,實驗結果如下表所示:
結果表明經過Woodpecker修正后圖片描述的準確性有一定的提升,這說明該框架可以有效修正描述中幻視的部分。
另一方面,Woodpecker修正后引入的定位信息豐富了文本描述,提供了進一步的位置信息,從而提升了細節豐富度。
GPT-4V輔助的評測樣例如下圖所示:
感興趣的讀者,可以讀論文進一步了解更多內容。