成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CVPR'25跨模態因果對齊,讓機器更懂視覺證據

人工智能
來自中山大學、新加坡南洋理工大學等團隊提出跨模態因果對齊框架(CRA),通過因果干預和跨模態對齊,顯著提升時空定位的準確性與可解釋性。

跨模態因果對齊,讓機器更懂視覺證據!

來自中山大學、新加坡南洋理工大學等團隊提出跨模態因果對齊框架(CRA),通過因果干預和跨模態對齊,顯著提升時空定位的準確性與可解釋性。

相關論文已被CVPR 2025接收,代碼已開源

圖片圖片

事情是這樣的——

近年來隨著多模態大模型的發展,視頻問答(VideoQA)任務——要求模型根據視頻內容回答自然語言問題——性能顯著提升

然而,現有模型往往依賴訓練數據中的統計偏差(如語言關鍵詞與答案的虛假關聯),而非真正的因果視覺證據,導致回答缺乏可解釋性。

舉個栗子~

例如下圖中,當視頻中出現“嬰兒”和“女性”時,模型可能僅因二者高頻共現而給出答案,卻忽略真實因果事件(如“女性抱起嬰兒”)

也就是說,雖然結果答對了,但過程中模型采納的是錯誤的視覺依據。

圖片圖片

針對類似情況,為提供可靠的視覺證據支持,視頻問答定位(VideoQG)任務應運而生,要求模型同時輸出答案及其對應視頻片段的時間區間。

但現有方法面臨兩大挑戰:

  • 多模態偏差:視頻與語言中的混淆因素(如高頻關鍵詞、短時視覺特征)導致模型學習虛假關聯;
  • 弱監督限制:標注視頻片段成本高昂,現有模型依賴視頻問答(VideoQA)的弱監督信號,難以精準定位。

以上就是CRA框架誕生的背景。

此外,中山大學HCP-Lab團隊已將關鍵的因果模塊集成到開源因果框架CausalVLR中。

該框架是一個基于PyTorch的python開源工具包,用于因果關系發現,因果推理,為各種視覺語言推理任務實現最先進的因果學習算法。

三模塊驅動因果推理

現有方法常因依賴于訓練數據中的統計偏差,導致模型無法準確識別與問題相關的因果視覺場景,進而產生不準確的時空定位結果。

為克服這一問題,CRA框架通過三個核心模塊實現了從噪聲抑制、特征對齊到因果關系建模的全流程優化。

該框架在NextGQA和STAR數據集上的實驗結果表明,CRA能夠顯著提升模型的時空定位能力和因果推理的準確性,為視頻問答定位任務提供了更可靠的技術解決方案。

圖片圖片

三個核心模塊具體展開如下:

GSG:抑制噪聲,聚焦關鍵幀

第一個,高斯平滑定位模塊(GSG)

GSG模塊通過自適應高斯濾波去噪,精準估計視頻片段的時間間隔。

圖片圖片

它的核心功能,是基于跨模態注意力估計時間區間,通過自適應高斯濾波去噪,生成魯棒的視頻片段特征。

技術亮點主要有仨:

1、跨模態注意力計算:利用CLIP視頻特征與RoBERTa語言特征的交互,生成初始時間注意力權重;
2、自適應高斯濾波:引入可學習參數的高斯核,抑制時序上的不穩定噪聲(如無關背景幀),突出關鍵事件區域(下圖)

圖片圖片

3、動態閾值分割:根據平滑后的注意力分布,動態截取高響應區間,提升定位精度。

消融實驗顯示,移除高斯濾波(GSG w/o GS)會導致IoU@0.5下降2.2%(下表),證明其對噪聲抑制的關鍵作用。

圖片圖片

△GSG消融實驗,其中SGG w/o GS?表示GSG在訓練過程中具有高斯平滑,但在推理過程中沒有高斯平滑

CMA:弱監督下的雙向對齊

第二個,交叉模態對齊模塊(CMA)

CMA模塊利用雙向對比學習,增強視頻與問答特征的對齊效果。

它的核心功能,是通過雙向對比學習,對齊視頻片段特征與問答特征,增強跨模態一致性。

技術亮點有二:

  • 雙向InfoNCE損失:從同一批次中采樣正/負樣本,分別對齊視覺→語言和語言→視覺特征(公式1-2)
  • 動態難樣本挖掘:優先選擇語義差異大的負樣本,迫使模型關注細粒度因果關聯。

圖片圖片

移除CMA模塊后,Acc@GQA下降2%,IoP@0.5下降2.2%(下表),凸顯其對弱監督訓練的重要性。

圖片圖片

ECI:切斷虛假因果鏈

第三個,顯式因果干預模塊(ECI)

ECI模塊則通過前門和后門干預,消除多模態偏差,提升因果一致性。

它的核心功能,是針對視覺和語言模態分別設計前門干預與后門干預,消除多模態混淆因素。

技術亮點有二:

  • 語言后門干預:解析問答語義結構圖(如主謂賓關系),阻斷關鍵詞與答案的虛假路徑;
  • 視覺前門干預:以視頻片段為中介變量,通過特征聚類模擬混雜因子分布,重構因果鏈(公式3-4)

圖片圖片

實驗結果顯示,在NextGQA數據集上,去除了Causal模塊后相對于CRA在Acc@GQA造成了1.2%的性能損失。

實驗結果:多維度性能領先

在NextGQA數據集中,CRA以18.2%超越Temp[CLIP](NG+)2.2%,且在使用FrozenBiLM大模型時仍保持優勢。

此外,IoP@0.5達28.5%,顯著優于基于LLM偽標注的TimeCraft(27.8%),證明其無需額外數據的高效性。

圖片圖片

在STAR數據集中,CRA分別以26.8%與27.5%的Acc@GQA分數在Temp[CLIP]和FrozenBiLM的Backbone下領先NG+。

圖片圖片

通過統計弱監督視頻定位的分布情況,研究團隊可以觀察到NG+局限于小區間的估計,而CRA所估計的區間與真實分布情況更符合。

圖片圖片

綜上,CRA框架通過跨模態因果對齊,首次在弱監督條件下實現了視頻問答定位的高精度與可解釋性。

目前,CRA框架代碼已開源。

研究團隊表示,CRA為視頻理解提供了新的因果推理范式,或將推動自動駕駛、智能監控等領域的可信AI應用。

論文地址:https://arxiv.org/abs/2503.07635CRA-GQA

倉庫:https://github.com/WissingChen/CRA-GQA

因果框架倉庫:https://github.com/HCPLab-SYSU/CausalVLR

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-03-17 12:48:50

2025-03-03 07:15:00

模型訓練AI

2024-08-13 15:00:00

大模型提示學習

2021-05-12 09:42:25

AI 數據人工智能

2022-07-28 12:18:40

視覺語言模型

2020-12-31 06:55:37

機器人自然語言人工智能

2024-01-15 16:41:00

模型數據

2018-10-29 10:08:01

2025-04-29 09:21:00

2022-03-04 19:07:03

模型視覺人工智能

2024-08-30 12:58:43

AI多模態技術

2023-07-11 15:43:16

JavaScript技巧

2022-07-19 14:01:44

阿里達摩院AI

2023-03-12 19:10:05

Spring 容器自動配置

2025-01-20 09:43:00

AI算法

2020-09-03 07:27:16

自然語言處理NLP語言

2017-04-06 10:40:49

機器學習開源Python庫

2017-04-27 13:42:56

機智云智能家居機器
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产九九九九 | 久久一区二区免费视频 | a级片在线 | 欧美不卡一区二区 | 999精品网 | 国产久| 久久久精品一区 | 99re6在线| 欧美精品一区二区在线观看 | 中文字幕在线播放第一页 | 久久伊人在| 国产日韩久久 | 亚洲国产精品视频 | 国产一区二区久久久 | 久久久91精品国产一区二区三区 | 国产一区二区三区在线 | 91精品国产91久久久久游泳池 | 97免费在线观看视频 | 久在线观看 | 欧美成人a | 国产视频日韩 | 久久精品 | 亚洲一区播放 | 美女久久 | 久久久久久国产一区二区三区 | 亚洲精品中文字幕av | 玖玖综合网 | 97国产精品视频人人做人人爱 | 男人天堂午夜 | 亚洲一区免费在线 | 亚洲一区二区久久 | 亚洲va国产日韩欧美精品色婷婷 | 国产在线不卡 | 中文字幕视频在线观看 | 久久久国产一区二区三区四区小说 | 亚洲一区二区三区免费视频 | 99这里只有精品视频 | 久久高清国产视频 | 爱综合| 精精精精xxxx免费视频 | 91精品国产高清一区二区三区 |