成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<center id="ioaok"><acronym id="ioaok"></acronym></center><button id="ioaok"></button>

<li id="ioaok"></li>

<rt id="ioaok"></rt>

<code id="ioaok"></code>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

字節豆包、武大提出 CAL：通過視覺相關的 token 增強多模態對齊效果

輕薄滴假象

發布于 2024-6-17 12:43

瀏覽

0收藏

當前主流的視覺語言模型（VLM）主要基于大語言模型（LLM）進一步微調。因此需要通過各種方式將圖像映射到 LLM 的嵌入空間，然后使用自回歸方式根據圖像 token 預測答案。

在這個過程中，模態的對齊是通過文本 token 隱式實現的，如何做好這一步的對齊非常關鍵。

針對這一問題，武漢大學、字節跳動豆包大模型團隊和中國科學院大學的研究人員提出了一種基于對比學習的文本 token 篩選方法（CAL），從文本中篩選出與圖像高度相關的 token，并加大其損失函數權重，從而實現更精準的多模態對齊。

字節豆包、武大提出 CAL：通過視覺相關的 token 增強多模態對齊效果-AI.x社區

論文鏈接：???https://arxiv.org/pdf/2405.17871???
代碼鏈接：???https://github.com/foundation-multimodal-models/CAL???

CAL 有以下幾個亮點：

可以直接嵌套到訓練過程，無需額外預訓練階段。
在 OCR 和 Caption benchmarks 上獲得了明顯的提升，從可視化中可以發現 CAL 使得圖片模態對齊效果更好。
CAL 使得訓練過程對噪聲數據抵抗能力更強。

研究動機

目前視覺語言模型依賴于圖片模態的對齊，如何做好對齊非常關鍵。目前主流的方法是通過文本自回歸的方式進行隱式對齊，但是每個文本 token 對圖像對齊的貢獻是不一致的，對這些文本 token 進行區分是非常有必要的。

CAL 提出，在現有的視覺語言模型（VLM）訓練數據中，文本 token 可以被分為三類：

與圖片高度相關的文本：如實體（例如人、動物、物體）、數量、顏色、文字等。這些 token 與圖像信息直接對應，對多模態對齊至關重要。
與圖片低相關度的文本：如承接詞或可以通過前文推斷出的內容。這些 token 實際上主要是在訓練 VLM 的純文本能力。
與圖片內容相悖的文本：這些 token 與圖像信息不一致，甚至可能提供誤導信息，對多模態對齊過程產生負面影響。

字節豆包、武大提出 CAL：通過視覺相關的 token 增強多模態對齊效果-AI.x社區

圖一：綠色標記為與圖片高度相關 token，紅色為內容相悖，無色為中性 token

在訓練過程中，后兩類 token 整體而言實際上占據了較大比例，但由于它們并不強依賴于圖片，對圖片的模態對齊作用不大。因此，為了實現更好的對齊，需要加大第一類文本 token，即與圖片高度相關部分 token 的權重。如何找出這一部分 token 成為了解決這個問題的關鍵所在。

方法

找出與圖片高度相關 token 這個問題可以通過 condition contrastive 的方式來解決。

對于訓練數據中的每個圖文對，在沒有圖片輸入的情況下，每個文本 token 上的 logit 代表著 LLM 基于上下文情況和已有知識對這種情況出現的估計值。
如果在前面添加圖片輸入，相當于提供額外的上下文信息，這種情況下每個 text token 的 logit 會基于新的情況進行調整。這兩種情況的 logit 變化量代表著圖片這個新的條件對每個文本 token 的影響大小。

具體來說，在訓練過程中，CAL 將圖文序列和單獨的文本序列分別輸入到大語言模型（LLM）中，得到每個文本 token 的 logit。通過計算這兩種情況下的 logit 差值，可以衡量圖片對每個 token 的影響程度。logit 差值越大，說明圖片對該 token 的影響越大，因此該 token 與圖像越相關。下圖展示了文本 token 的 logit diff 和 CAL 方法的流程圖。

字節豆包、武大提出 CAL：通過視覺相關的 token 增強多模態對齊效果-AI.x社區

圖二：左圖是對兩種情形下 token logit diff 的可視化，右圖是 CAL 方法流程的可視化

實驗

CAL 在 LLaVA 和 MGM 兩個主流模型上進行了實驗驗證，在不同規模的模型下均實現了性能提升。

包含以下四個部分的驗證：

（1）使用 CAL 的模型在各項基準測試指標上表現更佳。

字節豆包、武大提出 CAL：通過視覺相關的 token 增強多模態對齊效果-AI.x社區

字節豆包、武大提出 CAL：通過視覺相關的 token 增強多模態對齊效果-AI.x社區

（2）通過按比例隨機交換兩個圖文對中的文本來制造一批噪聲數據（圖文錯配），并用于模型訓練，CAL 使得訓練過程具有更強的數據抗噪性能。

字節豆包、武大提出 CAL：通過視覺相關的 token 增強多模態對齊效果-AI.x社區

圖三：在不同強度訓練噪聲情況下，CAL 與基線的性能表現

（3）對 QA case 中的答案部分計算其與圖片 token 的注意力分數分布，并將其繪制在原圖上，CAL 訓練的模型擁有更清晰的注意力分布圖。

字節豆包、武大提出 CAL：通過視覺相關的 token 增強多模態對齊效果-AI.x社區

圖四：基線與 CAL 的 attention map 可視化，每對中的右邊為 CAL

（4）將每個圖片 token 映射為它最相似 LLM 詞表中的文本 token，將其繪制到原圖上，CAL 訓練的模型映射內容更接近圖片內容。

字節豆包、武大提出 CAL：通過視覺相關的 token 增強多模態對齊效果-AI.x社區

圖五：將 image token 映射為最相似詞表 token，并對應到原圖上

團隊介紹：

字節跳動豆包大模型團隊成立于 2023 年，致力于開發業界最先進的 AI 大模型技術，成為世界一流的研究團隊，為科技和社會發展作出貢獻。

本文轉自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/CkfSefskLPJwT8-JnBSWcg??

標簽

贊

收藏

回復

舉報

回復

相關推薦

場景圖知識增強多模態結構化表示能力

mb5f8eba9bdb0af ? 3141瀏覽 ? 0回復
CVPR 2024 | 通過細粒度人類反饋對齊數據，提高多模態大模型可信度

zhangyannni ? 4082瀏覽 ? 0回復
GPT超越擴散、視覺生成Scaling Law時刻！北大&字節提出VAR范式

輕薄滴假象 ? 2764瀏覽 ? 0回復
通過檢索增強生成(RAG) 增強LLM的實戰演練

51CTO內容精選 ? 3680瀏覽 ? 0回復
Flames 安全評測基準：大語言模型的對齊效果如何？

戀戀青鳥 ? 4075瀏覽 ? 0回復
字節豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍

輕薄滴假象 ? 3704瀏覽 ? 0回復
耳朵沒錯，是聲音太真了，字節豆包語音合成成果Seed-TTS技術揭秘

輕薄滴假象 ? 3908瀏覽 ? 0回復
KAM-CoT：知識增強多模態鏈式思維推理

AIRoobt ? 4903瀏覽 ? 0回復
卡內基梅隆提出VADER：通過獎勵梯度進行視頻擴散對齊

angel ? 2548瀏覽 ? 0回復
中科大提出UniMEL框架 | 革新知識圖譜，引領多模態實體鏈接新紀元

AI論文解讀 ? 4588瀏覽 ? 0回復
谷歌通過數據增強、對比調優，減少多模態模型幻覺

Aceryt ? 2986瀏覽 ? 0回復
華東師大&上大提出TinyVLA：高效視覺-語言-動作模型，遙遙領先

angel ? 3184瀏覽 ? 0回復
多模態RAG-VisRAG：基于視覺的檢索增強生成在多模態文檔上的應用

大模型自然語言處理 ? 3024瀏覽 ? 0回復
即插即用，無痛增強模型生成美感！字節跳動提出VMix:細粒度美學控制，光影、色彩全搞定

angel ? 2215瀏覽 ? 0回復
EVEv2.0，視覺語言分開編碼，多模態視覺語言理解；視覺信息引導與標記邏輯增強減少大語言模型幻覺

AI研究前瞻 ? 2520瀏覽 ? 0回復
MLLMs人類偏好增強對齊，自然圖像和數據圖表分離；視覺感知標記，模型自主決定感知內容

AI研究前瞻 ? 2304瀏覽 ? 0回復
Mistral發布最強多模態文檔理解模型Mistral OCR！可免費試用！

51CTO技術棧 ? 2464瀏覽 ? 0回復
時序Pattern提取+語義對齊增強基于LLM的時序預測效果

海因斯DK ? 2576瀏覽 ? 0回復
字節提出一致性視頻生成方法Phantom：通過跨模態對齊生成主題一致的視頻，超多應用場景

AIGCStudio ? 903瀏覽 ? 0回復

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

DeepSeek一口氣開源3個項目，還有梁文鋒親自參與，昨晚API大降價 2025-02-27 12:40:06發布
全球首個AI CUDA工程師來了！將PyTorch原生實現提速10-100倍 2025-02-21 13:20:31發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：上科大、影眸聯合提出DressCode：從文本生成3D服裝板片

下一篇：答案抽取正確率達96.88%，xFinder斷了大模型「作弊」的小心思

社區精華內容

目錄

主站蜘蛛池模板：久久激情视频 | 国产欧美精品区一区二区三区 | 中文字幕av一区二区三区 | 成人午夜视频在线观看 | 99福利视频导航 | 天天操网| 999热精品视频 | 91久久综合亚洲鲁鲁五月天 | 日本五月婷婷 | 亚洲一区在线日韩在线深爱 | 日韩日韩日韩日韩日韩日韩日韩 | 一区二区精品 | 男人的天堂中文字幕 | 一区二区三区在线 | 欧美日韩亚洲一区 | 成人三级影院 | 国产91在线播放 | www.国产精品 | 精品日韩 | 久久亚洲高清 | 日韩毛片| 福利片在线观看 | 免费在线日韩 | 亚洲欧美日韩精品久久亚洲区 | 四虎成人精品永久免费av九九 | 日产精品久久久一区二区福利 | 国产免费一二三区 | 日韩精品无码一区二区三区 | 玖玖国产 | 中文字幕av高清 | 免费精品久久久久久中文字幕 | 国产欧美精品一区二区三区 | 久久亚洲春色中文字幕久久久 | 欧美精品一区二区免费 | 欧美国产日韩精品 | 天天做日日做 | 久久一区精品 | 国产在线精品一区 | 欧美一级欧美三级在线观看 | 精品国产乱码久久久久久88av | 狠狠操天天操 |

<button id="waegq"></button>

<li id="waegq"><source id="waegq"></source></li>

<dl id="waegq"><acronym id="waegq"></acronym></dl>

<center id="waegq"><acronym id="waegq"></acronym></center>

<abbr id="waegq"><source id="waegq"></source></abbr>

<li id="waegq"><input id="waegq"></input></li>