成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態大模型幻覺降低30%!中科大等提出首個幻覺修正架構「Woodpecker」啄木鳥

人工智能 新聞
最近,來自中科大等機構的研究人員提出了首個多模態修正架構「啄木鳥」,可有效解決MLLM輸出幻覺的問題。

視覺幻覺是常見于多模態大語言模型(Multimodal Large Language Models, MLLMs)的一個典型問題。

簡單來說就是:模型輸出的描述與圖片內容不相符。

下圖中體現了兩種幻覺,紅色部分錯誤地描述了狗的顏色(屬性幻覺),藍色部分描述了圖中實際不存在的事物(目標幻覺)。

幻覺對模型的可靠性產生了顯著的負面影響,因此引起了許多研究者的重視。

以往的方法主要集中在MLLM本身,通過在訓練數據以及架構上進行改進,以重新微調的方式訓練一個新的MLLM。

然而,這種方式會造成較大的數據構建和訓練開銷,且較難推廣到各種已有的MLLMs。

近日,來自中科大等機構的研究者們提出了一種免訓練的即插即用的通用架構「啄木鳥(Woodpecker)」,通過修正的方式解決MLLM輸出幻覺的問題。

論文地址: https://arxiv.org/pdf/2310.16045.pdf

項目地址: https://github.com/BradyFU/Woodpecker

效果展示

具體來說,Woodpecker可以修正各種場景下模型輸出的幻覺,并輸出檢測框作為引證,表明相應的目標確實存在。

例如,面對描述任務,Woodpecker可以修正其中帶有幻覺的部分:

圖片

對于MLLM難以檢測到的小對象,Woodpecker也可以精準修正:

面對MLLM難以解決的復雜的計數場景,Woodpecker同樣可以進行解決:

對于目標屬性類的幻覺問題,Woopecker處理地也很好:

此外,Woodpecker還提供了Demo供讀者測試使用。

如下圖所示,上傳圖片并輸入請求,就可以得到修正前以及修正后的模型答復,以及供參考驗證的新圖片。

方法

Woodpecker的架構如下,它包括五個主要步驟: 關鍵概念提取、問題構造、視覺知識檢驗、視覺斷言生成以及幻覺修正。

- 關鍵概念提取

關鍵概念指的是MLLM的輸出中最可能存在幻覺的存在性目標,例如上圖描述中的「自行車;垃圾桶;人」。

我們可以Prompt大語言模型來提取出這些關鍵概念,這些關鍵概念是后續步驟進行的基礎。

- 問題構造

圍繞著前一步提取出的關鍵概念,Prompt大語言模型來提出一些有助于檢驗圖片描述真偽的問題,如「圖中有幾輛自行車?」、「垃圾桶邊上的是什么?」等等。

- 視覺知識檢驗

使用視覺基礎模型對提出的問題進行檢驗,獲得與圖片以及描述文本相關的信息。

例如,我們可以利用GroundingDINO來進行目標檢測,確定關鍵目標是否存在以及關鍵目標的數量。因為像GroundingDINO這類視覺基礎模型對圖片的感知能力比MLLM本身的感知能力更強。

對于目標顏色等這類屬性問題,則可以利用BLIP-2來進行回答。BLIP-2這類傳統VQA模型輸出答案的長度有限,幻覺問題也更少。

- 視覺斷言生成

基于前兩步中獲得的問題以及對應的視覺信息,合成結構化的「視覺斷言」。這些視覺斷言可以看做與原有MLLM的回答以及輸入圖片相關的視覺知識庫。

- 幻覺修正

基于前面得到的,使用大語言模型對MLLM的文本輸出進行逐一修正,并提供目標對應的檢測框信息作為視覺檢驗的參照。

實驗結果

實驗選取了幾個典型的MLLM作為基線,包括: LLaVA,mPLUG-Owl,Otter,MiniGPT-4。

論文中首先測試了Woodpecker在面對目標幻覺時的修正能力,在POPE驗證集的實驗結果如下表所示:

結果表明在不同的MLLM上應用Woodpecker修正后,均有不同程度的提升。

在隨機設定下,Woodpecker給MiniGPT-4和mPLUG-Owl在準確率指標上分別帶來了30.66%和24.33%的提升。

此外,研究者還應用更全面的驗證集MME,進一步測試Woodpecker在面對屬性幻覺時的修正能力,結果如下表所示:

從表中可見Woodpecker不僅在應對目標幻覺時有效,在修正顏色等屬性幻覺時也具有出色的表現。LLaVA的顏色得分從78.33分大幅提升到155分!

經過Woodpecker修正后,四個基線模型在四個測試子集上的總分均超過500分,在總體感知能力上獲得了顯著提升。

為了更直接地衡量修正表現,更直接的方式是使用開放評測。

不同于以往將圖片轉譯后送入純文本GPT-4的做法,文章利用OpenAI最近開放的視覺接口,提出使用GPT-4(Vision)對修正前后的圖片描述直接對下列兩個維度進行打分:

- 準確度:模型的答復相對于圖片內容是否準確

- 詳細程度:模型答復的細節豐富度

在該實驗條件下,實驗結果如下表所示:

結果表明經過Woodpecker修正后圖片描述的準確性有一定的提升,這說明該框架可以有效修正描述中幻視的部分。

另一方面,Woodpecker修正后引入的定位信息豐富了文本描述,提供了進一步的位置信息,從而提升了細節豐富度。

GPT-4V輔助的評測樣例如下圖所示:

感興趣的讀者,可以讀論文進一步了解更多內容。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-10-29 13:30:16

多模態LLM架構

2023-12-04 13:23:00

數據訓練

2024-11-04 13:30:00

模型AI

2023-11-06 12:47:00

數據訓練

2025-04-15 09:22:00

AI訓練模型

2021-12-06 09:53:09

自然語言神經網絡人工智能

2023-09-25 10:04:37

模型AI

2024-06-17 07:10:00

2024-04-07 09:00:00

數據模型

2025-04-28 12:28:27

2022-06-13 11:57:04

谷歌模型計算

2024-09-12 12:46:36

2024-01-02 13:19:00

AI模型

2023-03-17 07:59:57

AI數字化

2025-05-08 06:00:00

AI幻覺AI人工智能

2024-07-29 08:47:00

2023-11-07 18:08:03

GPT-4模型

2024-06-17 14:07:41

2023-12-18 15:16:47

數據模型

2022-07-17 13:07:26

模型開源
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 老司机狠狠爱 | 国产精品九九 | 亚洲欧美一区在线 | 成人av观看 | 成人福利在线 | 羞羞色影院 | 性色视频在线观看 | 日韩欧美在线精品 | 国产欧美在线 | 亚洲视频一区 | 色av一区| 美美女高清毛片视频免费观看 | 天天视频一区二区三区 | 久草精品视频 | 九九热这里只有精品在线观看 | 国产一级毛片精品完整视频版 | 免费毛片网 | 在线免费看毛片 | 在线午夜 | 国产原创视频 | 另类二区 | 国产精品视频久久久久 | 欧美精品1区2区3区 免费黄篇 | 国产精品精品久久久久久 | 91久久久久久| 亚洲精品欧美 | 国产精品美女 | 国产成人精品一区二区三区在线 | 二区av| 成人免费视频观看视频 | 九九精品在线 | 午夜理伦三级理论三级在线观看 | 精品久久香蕉国产线看观看亚洲 | 伊人伊人网 | 日日操操 | 国产aaaaav久久久一区二区 | 色在线视频网站 | 欧美精品一区二区在线观看 | 337p日本欧洲亚洲大胆精蜜臀 | 亚洲国产一区二区三区在线观看 | 免费一区 |