成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

規模小、效率高:DeepMind推出多模態解決方案Mirasol 3B

人工智能 新聞
最近,來自 Google DeepMind 的研究團隊將多模態模型解耦成多個獨立的、專門的自回歸模型,根據各種模態的特征來處理輸入。

多模態學習面臨的主要挑戰之一是需要融合文本、音頻、視頻等異構的模態,多模態模型需要組合不同來源的信號。然而,這些模態具有不同的特征,很難通過單一模型來組合。例如,視頻和文本具有不同的采樣率。

最近,來自 Google DeepMind 的研究團隊將多模態模型解耦成多個獨立的、專門的自回歸模型,根據各種模態的特征來處理輸入。

具體來說,該研究提出了多模態模型 Mirasol3B。Mirasol3B 由時間同步模態(音頻和視頻)自回歸組件,以及用于上下文模態的自回歸組件組成。這些模態不一定在時間上對齊,但是按順序排列的。

圖片

論文地址:https://arxiv.org/abs/2311.05698

Mirasol3B 在多模態基準測試中達到了 SOTA 水平,優于規模更大的模型。通過學習更緊湊的表征,控制音頻 - 視頻特征表征的序列長度,并根據時間對應關系進行建模,Mirasol3B 能夠有效滿足多模態輸入的高計算要求。

方法簡介

Mirasol3B 是一個音頻 - 視頻 - 文本多模態模型,其中將自回歸建模解耦成時間對齊模態(例如音頻、視頻)的自回歸組件,以及針對非時間對齊的上下文模態(例如文本)的自回歸組件。Mirasol3B 使用交叉注意力權重來協調這些組件的學習進程。這種解耦使得模型內部的參數分布更合理,也為模態(視頻和音頻)分配了足夠的容量,并使得整體模型更加輕量。

如下圖 1 所示,Mirasol3B 主要由兩個學習組件組成:自回歸組件,旨在處理(幾乎)同步的多模態輸入,例如視頻 + 音頻,并及時組合輸入。

圖片

圖片

該研究還提出將時間對齊的模態分割成時間段,在時間段中學習音頻 - 視頻聯合表征。具體來說,該研究提出了一種名為「Combiner」的模態聯合特征學習機制。「Combiner」融合了同一時間段中的模態特征,產生了更緊湊的表征。

「Combiner」從原始的模態輸入中提取初級的時空表示,捕捉視頻的動態特性,并結合與其共時的音頻特征,模型可以在不同的速率接收多模態輸入,在處理較長的視頻時表現良好。

「Combiner」有效地滿足了模態表征既要高效又要信息量豐富的需求。它可以充分涵蓋視頻與其他同時發生的模態中的事件和活動,并能夠用于后續的自回歸模型,學習長期依賴關系。

圖片

為了處理視頻和音頻信號,并適應更長的視頻 / 音頻輸入,它們被分割成(在時間上大致同步)的小塊,再通過「Combiner」學習聯合視聽表示。第二個組件處理上下文,或時間上未對齊的信號,如全局文本信息,這些信息通常仍然是連續的。它也是自回歸的,并使用組合的潛在空間作為交叉注意力輸入。

視頻 + 音頻學習組件有 3B 參數;沒有音頻的組件是 2.9B。多半參數用于音頻 + 視頻自回歸模型。Mirasol3B 通常處理 128 幀的視頻,也可以處理更長(例如 512 幀)的視頻。

由于設計了分區和「Combiner」的模型架構,增加更多幀,或增加塊的大小、數目等,只會使參數略有增加,解決了更長視頻需要更多參數、更大的內存的問題。

實驗及結果

該研究在標準 VideoQA 基準、長視頻 VideoQA 基準和音頻 + 視頻基準上對 Mirasol3B 進行了測試評估。

在 VideoQA 數據集 MSRVTTQA 上的測試結果如下表 1 所示,Mirasol3B 超越了目前的 SOTA 模型,以及規模更大的模型,如 PaLI-X、Flamingo。

圖片

在長視頻問答方面,該研究在 ActivityNet-QA、NExTQA 數據集上對 Mirasol3B 進行了測試評估,結果如下表 2 所示:

圖片

最后,該研究選擇使用 KineticsSound、VGG-Sound、Epic-Sound 進行音頻 - 視頻基準測試,采用開放式生成評估,實驗結果如下表 3 所示:

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究內容。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2011-09-13 09:57:25

谷歌云計算

2025-05-27 08:30:00

AI多模態模型VLR1-3B

2021-07-03 08:08:25

AkamaiAccount Pro安全決策

2009-11-02 18:10:39

綜合接入解決方案

2011-08-05 17:09:48

Informatica數據復制

2014-10-16 09:32:43

Akamai

2020-03-23 16:06:11

Nutanix

2011-07-14 10:36:06

H3CZero Config

2015-03-20 15:55:20

AppCan金融行業解決方案

2012-03-31 17:33:53

2015-02-05 20:41:49

惠普移動辦公

2015-03-09 16:51:04

PTCPTC PLM Clo

2010-04-19 20:59:18

IT運維管理數據中心H3C

2009-04-20 16:15:59

2014-11-12 14:28:22

CA Technolo云計算

2014-12-17 09:18:29

賽門鐵克

2011-11-01 12:51:13

美信VMware

2015-03-10 09:13:36

醫療數據存儲解決方案華為

2015-03-03 10:47:06

視頻監控解決方案昆騰公司

2011-06-03 21:07:19

飛魚星防雷
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美亚洲免费 | 视频在线观看一区 | 97日日碰人人模人人澡分享吧 | 91天堂网| 羞羞视频在线免费 | 成人免费在线视频 | 懂色中文一区二区三区在线视频 | 丝袜一区二区三区 | 亚洲bt 欧美bt 日本bt | 亚洲国产精品久久久 | 久久久久亚洲 | 久久久久亚洲精品中文字幕 | 超碰人人做 | 国产欧美精品一区二区三区 | 亚洲欧美日韩精品 | 亚洲视频二区 | 久久久久久久久久久久一区二区 | 久久精品一区二区三区四区 | 日韩成人性视频 | 国内精品久久久久久久影视简单 | 国产ts人妖另类 | 中文字幕 在线观看 | 99精品视频在线 | 亚洲一区二区 | 亚洲国产成人av好男人在线观看 | 亚洲网视频 | 免费黄色网址视频 | 国产成人精品免费视频大全最热 | 九九久视频 | 欧美一级黄色片在线观看 | 欧美一区二区三区久久精品 | 国产成人精品一区 | 在线免费观看日本 | 精品一区二区久久久久久久网站 | 亚洲一区在线日韩在线深爱 | 黄色毛片大全 | 精品一区二区不卡 | 91久久精品国产免费一区 | 国产精品1区2区3区 中文字幕一区二区三区四区 | 久久综合一区 | a久久|