成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

打破跨模態干擾,快手東北大學聯合提出統一多模態框架,橫掃多模態檢索基準

人工智能 新聞
來自快手與東北大學的研究人員推出了多模態統一嵌入框架——UNITE。

多模態檢索是信息理解與獲取的關鍵技術,但其中的跨模態干擾問題一直是一大難題。

可行的解決辦法是構建一種統一的多模態表示方式,為此,來自快手與東北大學的研究人員推出了多模態統一嵌入框架——UNITE。

圖片

UNITE的核心目標,就是構建一個能同時處理文本、圖像、視頻及其融合模態輸入的統一嵌入器。

它從數據策劃與訓練機制兩個關鍵視角出發,用對比學習的機制重新定義了統一多模態表示學習的范式。

在細粒度檢索、指令檢索等多個評測中,UNITE框架都斬獲了最佳成績。

圖片

模態感知對比學習,緩解跨模態干擾

在多模態檢索任務中,不同模態(文本、圖像、視頻)天然存在分布差異。

如果在訓練時將所有模態混合進行對比學習,會導致表示空間產生語義扭曲或干擾噪聲,影響模型對各模態語義的準確建模。

為了解決這一挑戰,UNITE團隊提出了Modal-Aware Masked Contrastive Learning(MAMCL)這一對比學習機制,能顯著緩解跨模態“相互干擾”。

圖片

在傳統InfoNCE損失下,模型會嘗試最大化正樣本對之間的相似度,并最小化其與負樣本之間的相似度:

圖片

但這種方式不能區分模態組合,例如,一個query的正樣本為文本模態,但其負樣本可能是圖像、視頻或者其他模態組合。這可能導致模型用圖像來學文本相似度,產生模態沖突。

MAMCL的核心思想是模態掩碼約束,也就是只在與當前query目標模態一致的負樣本中進行對比,從而避免模態間的錯誤競爭。

給定一個批次中個query,每個query()對應一個正樣本和個負樣本,構造相似度矩陣:

圖片

其中是第個候選樣本,是溫度系數。

接下來引入模態掩碼矩陣,用于標記候選樣本與正樣本模態是否一致:

圖片

其中表示提取候選樣本的模態標簽(例如 text, image, video, text+video)。

然后,構造模態感知掩碼相似度矩陣:

圖片

這一步確保在計算損失時,僅考慮模態一致的樣本

最終,MAMCL損失定義為(p是當前query對應的正樣本索引):

圖片

為了平衡泛化能力與判別能力,UNITE采用了“檢索適應 + 指令微調”的兩階段訓練方案:

  • 檢索適應階段,使用text-text、text-image、text-video等多模態數據訓練模型的基本檢索能力,同時引入高粒度視頻-文本數據,顯著提升模型的細粒度區分能力;
  • 指令微調階段,基于MMEB、CoVR等復雜多模態指令任務訓練,增強模型的指令遵循能力和擴展性。

多個評測中斬獲最佳成績

在細粒度檢索、指令檢索等多個評測中,UNITE框架都斬獲了最佳成績。

圖像-文本檢索任務中,在ShareGPT4V、Urban1K和DOCCI上,UNITE顯著超越E5-V和VLM2Vec等模型;

圖片

視頻-文本檢索方面,UNITE的2B模型在CaReBench三個子任務(General/Spatial/Temporal)中的General和Spatial里超越了前SOTA,7B模型以顯著領先水平刷新當前最好表現。

UNITE 7B在CaReBench上分別達到86.0,86.9,86.5,84.8,52.4,55.4。

圖片

指令檢索任務里,作者的UNITE系列模型也在多個數據集上表現出色。

圖片

具體來說,在涵蓋分類、VQA、檢索、定位四類任務共36個數據集的MMEB Benchmark中,UNITE 7B達到了最優性能70.3,超越了更大規模的模型mmE5 11B (69.8) 和IDMR 26B (69.2)。

圖片

在合成視頻檢索任務CoVR上,UNITE 2B和UNITE 7B達到了69.1和72.5,均明顯領先于現有SOTA模型(60.1)。

圖片

為驗證其通用性,團隊還在多個標準跨模態檢索任務上進行了評估。在Flickr30K、MSR-VTT、MSVD、DiDeMo任務上,展現了良好的通用表征能力。

圖片

綜合來看,UNITE支持文本、圖像、視頻及融合模態內容,并展現了綜合最優性能。

其可視化結果如下:

圖片

另外在實驗過程當中,作者還有三個關鍵發現。

一是視頻-文本數據具備“統一模態”的核心能力

具體來說,視頻-文本對數據在所有配置中表現最為突出,不僅在視頻檢索任務中遙遙領先(如MSR-VTT、MSVD),甚至在圖文檢索任務中也超越了基于圖像-文本對訓練的模型。

二是指令類任務更依賴文本主導的數據支撐——

盡管視頻-文本對數據在一般檢索任務中表現出色,但在復雜檢索指令跟隨類任務(如MMEB、CoVR)中,其優勢反而不明顯。

這類任務需要模型理解長文本、復雜邏輯或多階段指令,研究認為,Text–Text數據提升了語言理解與邏輯構建能力,而Text–Image數據提供精準的視覺語義映射,利于模態對齊。

最后,細粒度Text-Video樣本的添加策略影響巨大,直接在第一階段“檢索適應”中融合細粒度視頻-文本樣本,能帶來整體性能最優解,相比傳統“先對齊后微調”的做法更加有效且高效。

更多方法和實驗細節,請參照論文。

論文鏈接:https://arxiv.org/pdf/2505.19650
代碼鏈接:https://github.com/friedrichor/UNITE
項目鏈接:https://friedrichor.github.io/projects/UNITE
模型/數據鏈接:https://huggingface.co/collections/friedrichor/unite-682da30c4540abccd3da3a6b

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-03-04 09:50:00

2025-01-08 08:21:16

2023-07-30 16:05:44

多模態學習框架自然語言

2025-03-19 09:30:00

2023-07-22 13:17:33

人工智能框架

2024-11-13 09:39:13

2024-05-21 07:54:30

視頻多模態語義檢索算法

2025-05-21 08:47:00

2024-12-20 12:30:00

模型AI數據

2024-01-30 13:17:00

AI數據

2024-12-26 01:20:53

多模態大模型圖片

2023-06-06 14:09:32

模型開源

2024-12-18 18:57:58

2023-11-09 15:10:00

訓練數據

2023-05-28 23:26:16

多模態機器學習大腦

2025-02-12 10:20:00

2025-04-15 12:14:10

2023-11-07 18:08:03

GPT-4模型

2024-08-08 13:04:28

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久亚洲一区 | 日日噜噜夜夜爽爽狠狠 | 国产一级视频在线 | 日韩在线免费视频 | 国产精品国产三级国产aⅴ无密码 | 久草.com | 国产亚洲成av人在线观看导航 | 亚洲欧美日韩中文字幕一区二区三区 | 日韩欧美手机在线 | 热99精品视频 | 久久综合九色综合欧美狠狠 | 天天干天天爱天天操 | 久久99精品久久久久久噜噜 | 日韩欧美一区二区三区免费观看 | 日本在线一区二区 | 精品一区二区三区电影 | 日韩欧美在线一区二区 | 国产在线一区二区三区 | 福利片在线观看 | 懂色tv| 欧美精品99 | 亚洲精品视频导航 | 91av视频在线免费观看 | 久久久免费少妇高潮毛片 | 一级黄色毛片免费 | 99免费看| 国产成人精品久久二区二区 | 曰韩一二三区 | 亚洲国产精品久久久 | 久久久久久久亚洲精品 | 在线不卡视频 | 欧美日韩专区 | 日本一区二区三区视频在线 | 成人久久18免费网站麻豆 | 欧美高清视频在线观看 | 国产一区二区三区高清 | 精品国产亚洲一区二区三区大结局 | 美女视频一区 | 天天爽天天干 | 影音先锋中文字幕在线观看 | 在线播放一区二区三区 |