成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

語言作“紐帶”,拳打腳踢各模態(tài),超越Imagebind

人工智能 新聞
多視角文本增強(qiáng)涵蓋了標(biāo)題、標(biāo)簽、關(guān)鍵幀描述以及視頻描述等多個(gè)組成部分,為視頻內(nèi)容提供了全面且詳盡的描述。

北大聯(lián)合騰訊打造了一個(gè)多模態(tài)15邊形戰(zhàn)士!

以語言為中心,“拳打腳踢”視頻、音頻、深度、紅外理解等各模態(tài)。

具體來說,研究人員提出了一個(gè)叫做LanguageBind的多模態(tài)預(yù)訓(xùn)練框架。

語言作為與其它模態(tài)之間的紐帶,凍結(jié)語言編碼器,然后用對比學(xué)習(xí)方法,將各個(gè)模態(tài)映射到一個(gè)共享的特征空間,實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的語義對齊。

使用這種方法,模型在5個(gè)數(shù)據(jù)集上的性能拿下新SOTA,在15個(gè)zero-shot檢索等任務(wù)中取得了顯著的性能提升,全面超越ImageBind、OpenCLIP。

圖片

將各模態(tài)與語言綁定

LanguageBind包含三個(gè)部分:

多模態(tài)編碼器(Multi-modal Encoders),語言編碼器(Language Encoder),以及多模態(tài)聯(lián)合學(xué)習(xí)(Multi-modal Joint Learning)。

先來看多模態(tài)編碼器部分。

除了語言之外的其它模態(tài),研究人員使用24層、1024維的視覺Transformer,具有14的Patch大小。編碼器是從OpenCLIP-large初始化的。

深度紅外被視為RGB圖像,在通道維度上復(fù)制3次與RGB圖像對齊。

按照ImageBind的方式,音頻數(shù)據(jù)被轉(zhuǎn)換為持續(xù)10秒(128個(gè)mel-bins)的頻譜圖,并進(jìn)行重復(fù)和填充。

  • Patch masking

為了解決在編碼器中處理所有Token的低效問題,研究人員將圖像分成補(bǔ)丁,并通過Mask獲取一小部分圖片序列,按照MAE的方法進(jìn)行。

  • LoRA fine-tuning

同時(shí)使用LoRA技術(shù)來加速微調(diào)。對于具有權(quán)重矩陣W0∈Rd×k的模態(tài)編碼器,在學(xué)習(xí)新的權(quán)重矩陣BA時(shí),保持權(quán)重矩陣W0不變。

  • Modality extending

將LanguageBind方法擴(kuò)展到多個(gè)(N個(gè))模態(tài)的第一步是將數(shù)據(jù)處理成令牌序列。隨后,參數(shù)將從OpenCLIP進(jìn)行初始化。然后通過令牌屏蔽和LoRA微調(diào)來訓(xùn)練不同模態(tài)的編碼器,同時(shí)保持語言編碼器凍結(jié)。最后,將該模態(tài)與語言特征空間對齊。

再來看看語言編碼器以及多模態(tài)聯(lián)合學(xué)習(xí)部分。

對于語言編碼器,研究人員使用了一個(gè)12層的transformer模型,維度為768,初始化來源于OpenCLIP。

對于給定的文本,他們首先使用BPE分詞器將單詞分割成相對常見的子詞。每個(gè)子詞對應(yīng)一個(gè)唯一的標(biāo)記,這些標(biāo)記在一個(gè)詞嵌入層內(nèi)嵌入。最終,這些標(biāo)記被語言編碼器編碼,以獲得文本對數(shù):

圖片

其中L表示序列的長度。為了確??绮煌B(tài)的對齊,研究人員采用了對比學(xué)習(xí)原則。

這種方法的目標(biāo)是增加配對數(shù)據(jù)的相似性,將它們帶到相同的語義空間,同時(shí)減小不配對數(shù)據(jù)的相似性。研究人員利用對比學(xué)習(xí)將各個(gè)模態(tài)與語言綁定在一起。

構(gòu)建高質(zhì)量數(shù)據(jù)集

此外,研究人員還創(chuàng)建了一個(gè)名為“VIDAL-10M”的高質(zhì)量數(shù)據(jù)集,其中包含1000萬個(gè)具有對齊視頻-語言、紅外-語言、深度-語言、音頻-語言的數(shù)據(jù)對,是第一個(gè)具有深度和紅外模態(tài)的大規(guī)模視頻多模態(tài)數(shù)據(jù)集。

圖片

數(shù)據(jù)集構(gòu)建方法如下:

圖片

△VIDAL-10M 構(gòu)建框架

第一步是生成搜索詞數(shù)據(jù)庫,這個(gè)過程中,研究人員設(shè)計(jì)了一種獨(dú)特的搜索詞獲取策略,利用來自各種視覺任務(wù)數(shù)據(jù)集的文本數(shù)據(jù),包括標(biāo)簽和標(biāo)題,以構(gòu)建具有豐富視覺概念和多樣性的視頻數(shù)據(jù)集。

第二步是從互聯(lián)網(wǎng)收集相關(guān)視頻和音頻,并進(jìn)行一系列過濾處理,以確保數(shù)據(jù)集的質(zhì)量和準(zhǔn)確性。

這個(gè)過程中,研究人員使用了多種過濾方法,包括基于文本的過濾、基于視覺與音頻的過濾,以確保數(shù)據(jù)集中的視頻和音頻與搜索詞相關(guān)且質(zhì)量高。

第三步是進(jìn)行紅外和深度模態(tài)生成,以及多視角文本生成和增強(qiáng)。

在空間信息增強(qiáng)方面,研究人員采用了OFA模型生成多個(gè)關(guān)鍵幀描述,以提升視頻內(nèi)容的空間表達(dá)質(zhì)量。

同時(shí),在時(shí)間信息增強(qiáng)方面,將視頻內(nèi)容、標(biāo)題以及Hashtag標(biāo)簽輸入到mPLUG-owl模型中,以獲取更為精煉和豐富的時(shí)間維度描述。

最后,研究人員運(yùn)用ChatGPT模型對文本描述進(jìn)行進(jìn)一步細(xì)化和增強(qiáng)。

綜合而言,多視角文本增強(qiáng)涵蓋了標(biāo)題、標(biāo)簽、關(guān)鍵幀描述以及視頻描述等多個(gè)組成部分,為視頻內(nèi)容提供了全面且詳盡的描述。

多個(gè)測試拿下SOTA

在測試階段,大量的實(shí)驗(yàn)驗(yàn)證了VIDAL-10M數(shù)據(jù)集和LanguageBind方法的有效性,在視頻、音頻以及其它模態(tài)理解任務(wù)中取得了顯著的性能。

LanguageBind在四個(gè)數(shù)據(jù)集上都性能拿下SOTA。

在MSR-VTT上比InterVideo方法高出1.9%,在MSVD上比 InterVideo高出 8.8%,在DiDeMo上比InterVideo高出 6.3%,在ActivityNet上比InterVideo高出 4.4%。

值得注意的是,InterVideo采用了更廣泛的訓(xùn)練數(shù)據(jù),正表明LanguageBind的有效性。

△Zero-Shot視頻-文本檢索結(jié)果

視頻-語言、紅外-語言、深度-語言和音頻-語言Zero-Shot分類,在所有數(shù)據(jù)集上的準(zhǔn)確率均優(yōu)于ImageBind、OpenCLIP:

圖片

Zero-Shot音頻-語言檢索性能同樣優(yōu)越:

圖片

論文鏈接:https://arxiv.org/pdf/2310.01852.pdf

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2016-08-31 11:19:11

Daydream谷歌Oculus

2021-03-03 09:39:26

勒索軟件漏洞網(wǎng)絡(luò)攻擊

2024-01-10 07:57:45

2013-08-30 11:26:56

百度輕應(yīng)用

2023-05-10 14:58:06

開源模型

2009-03-12 08:30:26

Android上網(wǎng)本

2025-05-06 08:40:00

2025-03-12 13:09:16

2024-01-25 11:43:00

2022-01-05 16:49:13

程序員字節(jié)跳動(dòng)收入

2015-10-10 14:54:00

網(wǎng)絡(luò)虛擬化物理網(wǎng)絡(luò)vSwitch

2011-05-18 08:50:44

項(xiàng)目經(jīng)理

2016-10-13 19:11:45

Go語言Java語言

2024-11-22 08:22:58

2020-01-08 14:14:29

TIOBEPython編程語言

2024-09-09 13:50:00

2021-06-15 10:45:27

PythonC 語言編程語言

2024-05-17 16:02:00

2019-10-25 15:58:10

人工智能機(jī)器學(xué)習(xí)技術(shù)

2017-11-15 19:00:49

深度學(xué)習(xí)SoftmaxRNN語言模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 成人欧美一区二区三区在线观看 | 在线观看免费av片 | 日韩中文字幕视频 | 97色在线视频 | 国产三级日本三级 | 一区二区三区四区在线视频 | 国产999精品久久久久久绿帽 | 日韩一区二区免费视频 | 国产精品毛片无码 | 视频在线一区 | 欧美久 | 极品一区 | av在线三级| 亚洲一区二区三区在线 | 亚洲一区中文字幕 | 色综合美女| 日韩电影一区 | av在线播放网址 | 成年无码av片在线 | 国产精品视频一区二区三区, | 国产欧美精品一区二区三区 | 亚洲免费网址 | 日韩精品一区二 | 精品乱子伦一区二区三区 | 91在线播| 国产中文 | 久久男人天堂 | 一级看片免费视频囗交动图 | 欧美九九| 黑人精品xxx一区一二区 | 日韩免费av一区二区 | 丁香六月激情 | 97免费在线观看视频 | 日韩理论电影在线观看 | 午夜爱爱网 | 日本黄色免费视频 | 国产亚洲网站 | 久久亚洲欧美日韩精品专区 | 久久久久久九九九九 | 久久久久高清 | 免费视频一区二区 |