成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

零成本突破多模態大模型瓶頸!多所美國頂尖高校華人團隊,聯合推出自增強技術CSR

人工智能 新聞
現有多模態大模型在對齊不同模態時面臨幻覺和細粒度感知不足等問題,傳統偏好學習方法依賴可能不適配的外源數據,存在成本和質量問題。Calibrated Self-Rewarding(CSR)框架通過自我增強學習,利用模型自身輸出構造更可靠的偏好數據,結合視覺約束提高學習效率和準確性。

多模態大模型展現出了多種多樣的能力,這些能力都通過SFT和預訓練從龐大的訓練數據集中學習。

但是模態之間的簡單對齊可能會使得模型存在幻覺,細粒度圖像感知能力差等各種問題。

已有的多模態大模型對齊方案一般采用DPO,POVID等偏好優化方法,或是蒸餾 GPT-4等昂貴閉源模型的方式來提升模型能力。

這些方法大多需要外源模型數據,這些數據構造存在很多問題,一是需要昂貴的價格,二是缺乏質量和多樣性的保證。

再者說,這真的適合需要提升模型本身的分布偏好嗎?

在Calibrated Self-Rewarding Vision Language Models文中,通過模型自身輸出概率證明了,外來模型構造的偏好數據可能不適合用于模型的偏好學習,相較于模型自身的response,外源模型所構造的數據模型自己說出的概率很小,簡單來說對于偏好數據中的負樣本模型并不會犯一樣的錯誤,對于偏好數據中的正樣本模型也不會講出那么好的response。

這種偏好數據用于偏好學習可能會引入模型自身分布的偏差導致其他錯誤,同時因為模型自身說同樣話的概率低,用這樣的數據來偏好學習增強模型收益很小。

圖片

同時傳統純文本大模型領域的Self-rewarding范式存在一定缺陷。

圖片

在此前self rewarding提供reward的模型是模型自身,當模型自身無法準確分辨偏好、所具有的知識不夠強大的時候,它所提供的反饋可能不夠精準或者沒用導致所更新的模型的分布無法向著目標分布更新。

為了解決上述問題,來自UNC ,芝加哥大學,UMD和羅格斯大學的研究團隊提出了Calibrated Self-Rewarding(CSR),多模態大模型的自我增強因為會存在一個真實圖像的參照,這會使得self-rewarding的過程更加可靠。

論文地址: https://arxiv.org/pdf/2405.14622

項目地址:https://github.com/YiyangZhou/CSR

項目頁面:https://dongjie-cheng.github.io/CSR.html

整個Calibrated Self-Rewarding(CSR)框架如下:

1. 通過模型本身在beam search過程中的輸出構造偏好數據對,過程中的獎勵來自于校準的自我獎勵:LVLM對于每句話的自我生成概率 + 結合視覺約束獎勵,用于獎勵校準。

2. 基于每一輪構造的偏好數據在線通過DPO迭代學習。

實驗

CSR相較于數據驅動的偏好學習對齊方法和模型自我反饋的方法均有較大提升。

更值得注意的是,在CSR多輪在線迭代過程中,模型能逐步提升自我能力!可以看到在多個輪次中以LLaVA-1.5為例,模型在多個benchmark上的均分逐步提升。

同時也可以看到特別是幻覺,在多輪迭代中是逐步減少的:

同時CSR也適用于其他模型,例如Vila:

 圖片

那么在Calibrated Self-Rewarding(CSR)的過程中究竟發生了什么呢?通過可視化經過CSR迭代前后模型自身的正樣本和負樣本輸出可以發現,經過多輪CSR學習后,模型自身說出的回復會有更高的分數:這代表模型的response更加符合圖像信息;同時負樣本和正樣本的gap更小:這說明模型所輸出的負樣本傾向于正樣本,模型的誤差和性能下界提升。

圖片

通過可視化attention可以看到,CSR能使得LVLM更加偏重于視覺模型,同時能緩解文本attention中存在的上下文依賴問題。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-10-25 14:30:00

模型AI

2024-10-21 13:20:00

視頻數據集

2023-09-19 13:48:02

2024-01-22 13:59:00

模型訓練

2024-05-27 12:39:32

2024-06-03 08:48:16

2025-01-08 08:21:16

2010-05-13 09:24:39

2024-06-12 11:50:23

2023-12-04 13:23:00

數據訓練

2023-06-05 10:01:18

模型測評

2025-03-07 08:40:00

模型數據AI

2025-03-10 07:00:00

模型數據訓練

2024-05-21 07:54:30

視頻多模態語義檢索算法

2025-05-21 08:35:00

2024-01-11 09:37:58

模型AI

2024-11-11 15:11:23

2009-02-16 09:29:14

存儲加密密鑰管理加密技術

2011-08-01 08:56:06

CouchDBSQLiteNoSQL

2023-09-11 11:45:44

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 99精品欧美一区二区蜜桃免费 | 欧美精品在线一区 | 中文字幕成人av | 国产精品伦一区二区三级视频 | 久久精品免费 | 成人午夜在线视频 | 一区二区三区视频 | 国产免费福利小视频 | 一级毛片免费完整视频 | 成人免费av | 欧美成人精品二区三区99精品 | 日本成人在线网址 | caoporn免费在线视频 | 久草精品视频 | 欧美在线视频一区二区 | 久久久精品一区二区三区 | 欧美一级淫片007 | 亚洲图片一区二区三区 | 午夜精品一区二区三区在线观看 | 亚洲免费人成在线视频观看 | 国产精品夜间视频香蕉 | 国产精品久久久久久婷婷天堂 | 成年人视频在线免费观看 | 在线视频一区二区 | 欧美激情久久久 | 秋霞电影院午夜伦 | av看看| 亚洲播放一区 | 国产免费人成xvideos视频 | 色综合成人网 | 狠狠色综合网站久久久久久久 | 久久99国产精一区二区三区 | 中文字幕在线一区二区三区 | 成人乱人乱一区二区三区软件 | av网站在线看 | 久久av一区二区三区 | 久久9999久久 | 九九热这里只有精品在线观看 | 欧美白人做受xxxx视频 | 欧美男人天堂 | 97av在线 |