AAAI2025 | ICLR 2025爆款！CHiP創新引入視覺偏好，幻覺率腰斬

作者：萍哥學AI 2025-04-28 12:28:27

人工智能

CHiP 提出了一種跨模態分層偏好優化方法，通過視覺與文本偏好雙重引導，顯著提升多模態大模型（MLLMs）在幻覺檢測任務中的表現，最高減少55.5%的幻覺率。

1. 一眼概覽

2. 核心問題

多模態大模型（如GPT-4V、LLaVA）雖具強大能力，但常產生“幻覺”——即圖文語義不一致、生成不符合圖像內容的描述。現有DPO方法僅基于文本偏好，難以有效對齊圖像和文本的表示，也無法細粒度定位幻覺段落，限制了模型可信度與實用性。

3. 技術亮點

雙模態偏好對齊：引入視覺偏好優化模塊，使模型可從圖像對比中學習更準確的語義表達；
多粒度文本偏好優化：創新性地在響應、段落和token級別進行分層優化，更精細捕捉幻覺信息；
大幅降低幻覺率：在ObjHal數據集上，相比DPO，CHiP在Muffin和LLaVA模型上分別減少了52.7%和55.5%的幻覺率。

4. 方法框架

CHiP 包含兩個核心模塊：

? 視覺偏好優化模塊：構造視覺偏好圖像對（如原圖 vs. 旋轉圖），引導模型識別哪幅圖更能生成優質響應，實現跨模態語義對齊；

? 分層文本偏好優化模塊：

a.響應級：優化整個回答的偏好選擇；

b.段落級：關注實體詞和修改段的貢獻；

c.Token級：每個詞級別計算KL散度，引導模型逐詞去幻覺。

5. 實驗結果速覽

CHiP 在多項權威幻覺評測基準上展現了顯著優勢，尤其在與主流基線方法 DPO 進行對比時表現尤為突出。在 Object HalBench 數據集上，CHiP 將基于 LLaVA 模型的響應級幻覺率從原先的 42.7% 降低至 14.1%，提降幅度達到 55.5%；同時，基于 Muffin 模型的幻覺率也從 43.8% 降至 11%，顯示出強大的跨模型泛化能力。

在 MMHal-Bench 上，CHiP 顯著減少了由 GPT-4 評估判定的幻覺內容，幻覺率從原先的 38.9% 降至僅 4.9%，大幅提升了多模態問答的可信度。

6. 實用價值與應用

CHiP 作為統一的跨模態對齊方案，顯著增強了多模態大模型在以下場景的可信度與應用能力：

? AI助手問答/多模態搜索：降低錯誤描述風險；

? 醫療/安防等高可信場景：避免幻覺導致誤判；

? 對齊評估基準建設：提供細粒度對齊訓練方法，利于多模態訓練范式優化。

7. 開放問題

? 若視覺偏好圖像之間差異極小（如微小旋轉），CHiP是否仍能有效學習？

? 分層文本偏好機制是否可遷移至音頻、多輪對話等其他模態任務？

? CHiP能否與RLHF等強化學習范式結合，進一步提升對齊能力？

責任編輯：武曉燕來源：萍哥學AI

CHiP 視覺幻覺率

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看