給語言大模型加上綜合視聽能力，達(dá)摩院開源Video-LLaMA

作者：機(jī)器之心 2023-06-08 11:45:50

Video-LLaMA 作為一個(gè)具有綜合視聽能力的大模型，在音頻視頻理解領(lǐng)域取得了令人印象深刻的效果。隨著研究者的不斷攻堅(jiān)，以上挑戰(zhàn)也將逐個(gè)被克服，使得音視頻理解模型具有廣泛的實(shí)用價(jià)值。

視頻在當(dāng)今社交媒體和互聯(lián)網(wǎng)文化中扮演著愈發(fā)重要的角色，抖音，快手，B 站等已經(jīng)成為數(shù)以億計(jì)用戶的熱門平臺。用戶圍繞視頻分享自己的生活點(diǎn)滴、創(chuàng)意作品、有趣瞬間等內(nèi)容，與他人互動(dòng)和交流。

近期，大語言模型展現(xiàn)出了令人矚目的能力。我們能否給大模型裝上 “眼睛” 和 “耳朵”，讓它能夠理解視頻，陪著用戶互動(dòng)呢？

從這個(gè)問題出發(fā)，達(dá)摩院的研究人員提出了 Video-LLaMA，一個(gè)具有綜合視聽能力大模型。Video-LLaMA 能夠感知和理解視頻中的視頻和音頻信號，并能理解用戶輸入的指令，完成一系列基于音視頻的復(fù)雜任務(wù)，例如音 / 視頻描述，寫作，問答等。目前論文，代碼，交互 demo 都已開放。另外，在 Video-LLaMA 的項(xiàng)目主頁中，該研究團(tuán)隊(duì)還提供了中文版本的模型，讓中文用戶的體驗(yàn)更絲滑。

論文鏈接：https://arxiv.org/abs/2306.02858
代碼地址：https://github.com/DAMO-NLP-SG/Video-LLaMA

Demo 地址：
Modelscope: https://modelscope.cn/studios/damo/video-llama/summary
Huggingface: https://huggingface.co/spaces/DAMO-NLP-SG/Video-LLaMA
樣例輸入文件地址：
https://github.com/DAMO-NLP-SG/Video-LLaMA/tree/main/examples

模型設(shè)計(jì)

Video-LLaMA 采用了模塊化設(shè)計(jì)原則，把視頻中的視覺和音頻模態(tài)信息映射到到大語言模型的輸入空間中，以實(shí)現(xiàn)跨模態(tài)指令跟隨的能力。與之前側(cè)重于靜態(tài)圖像理解的大模型研究（MiNIGPT4，LLaVA）不同，Video-LLaMA 面臨著視頻理解中的兩個(gè)挑戰(zhàn)：捕捉視覺中的動(dòng)態(tài)場景變化和整合視聽信號。

為了捕捉視頻中的動(dòng)態(tài)場景變化，Video-LLaMA 引入了一個(gè)可插拔的視覺語言分支。該分支首先使用 BLIP-2 中預(yù)訓(xùn)練好的圖片編碼器得到每一幀圖像的單獨(dú)特征，再與對應(yīng)的幀位置嵌入結(jié)合后，所有圖像特征被送入 Video Q-Former，Video Q-Former 將聚合幀級別的圖像表示并且生成定長的綜合視頻表征。最后采用一個(gè)線性層將視頻表征對齊到大語言模型的 embedding 空間。

至于視頻中的聲音信號，Video-LLaMA 使用音頻 - 語言分支進(jìn)行處理。首先從原始視頻中均勻采樣多個(gè)時(shí)長兩秒的音頻片段，并將每個(gè)片段轉(zhuǎn)換為 128 維的梅爾頻譜圖。然后，采用強(qiáng)大的 ImageBind 作為音頻編碼器，單獨(dú)提取每個(gè)聲音片段的特征。在添加可學(xué)習(xí)的位置嵌入后，Audio Q-Former 將片段特征進(jìn)行整體聚合，并生成固定長度的音頻特征。與視覺語言分支類似，最后采用線性層將音頻表征對齊到大語言模型的 embedding 空間。

為了減少訓(xùn)練成本，Video-LLaMA 凍結(jié)了預(yù)訓(xùn)練好的圖片 / 音頻編碼器，只更新了視覺和音頻分支中的以下參數(shù)：Video/Audio Q-Former，位置編碼層以及線性層（如圖 1 所示）。

為了學(xué)習(xí)視覺和文本的對齊關(guān)系，作者們首先利用大規(guī)模的視頻 - 文本數(shù)據(jù)集 (WebVid-2M) 和圖像 - 文本數(shù)據(jù)集（CC-595K）對視覺分支進(jìn)行預(yù)訓(xùn)練。之后，作者們利用來自 MiniGPT-4，LLaVA 的圖像指令數(shù)據(jù)集和來自 Video-Chat 的視頻指令數(shù)據(jù)集來微調(diào)，從而達(dá)到更好的跨模態(tài)指令跟隨能力。

至于音頻 - 文本對齊關(guān)系的學(xué)習(xí)，由于缺乏大規(guī)模高質(zhì)量的音頻 - 文本數(shù)據(jù)，作者們采用了一種變通策略來達(dá)到這一目標(biāo)。首先，音頻 - 語言分支中可學(xué)習(xí)參數(shù)的目標(biāo)可以理解為將音頻編碼器的輸出與 LLM 的嵌入空間對齊。而音頻編碼器 ImageBind 具有非常強(qiáng)的多模態(tài)對齊能力，它能將不同模態(tài)的嵌入對齊到一個(gè)共同的空間中。因此，作者們使用視覺 - 文本數(shù)據(jù)來訓(xùn)練音頻 - 語言分支，將 ImageBind 的公共嵌入空間對齊到 LLM 的文本嵌入空間，從而實(shí)現(xiàn)音頻模態(tài)到 LLM 文本嵌入空間對齊。通過這種巧妙的方式，Video-LLaMA 能在推理過程中展現(xiàn)出理解音頻的能力，即使從未接受過音頻數(shù)據(jù)的訓(xùn)練。

實(shí)例展示

作者展示了 Video-LLaMA 基于視頻 / 音頻 / 圖像的對話的一些例子。

（1）下面兩個(gè)例子展示了 Video-LLaMA 的視聽綜合感知能力，例子中的會(huì)話圍繞有聲視頻展開。在例子二中，畫面上僅僅顯示了這個(gè)演奏家，但是聲音中是觀眾的歡呼聲和掌聲，如果模型只能接受視覺信號，將無法推測到觀眾的積極響應(yīng)，音頻中并沒有樂器的聲音，但畫面中出現(xiàn)了薩克斯，如果模型僅能接受聽覺信號，也將無法得知演奏家演奏了薩克斯。

（2）Video-LLaMA 對于靜態(tài)圖像也有較強(qiáng)的感知理解能力，可以完成圖片描述，問答等任務(wù)。

（3）令人驚奇的是，Video-LLaMA 能成功識別著名的地標(biāo)和人物，并能進(jìn)行常識性問答。比如下面 VIdeo-LLaMA 就成功識別出了白宮，并介紹了白宮的情況。又比如輸入一張龍媽和囧雪的劇照（經(jīng)典影視劇《權(quán)利的游戲》中角色），VIdeo-LLaMA 不僅能夠成功識別，而且能說出他們剪不斷理還亂的關(guān)系。

（4）針對于視頻的動(dòng)態(tài)事件，Video-llama 也能很好捕捉，例如噓聲的動(dòng)作，小船行駛的方向。

總結(jié)

目前，音頻視頻理解依舊是一個(gè)非常復(fù)雜，尚未有成熟解決方案的研究問題，Video-LLaMA 雖然表現(xiàn)出了令人印象深刻的能力，作者也提到了其存在一些局限性。

（1）有限的感知能力：Video-LLaMA 的視覺聽覺能力仍然較為初級，對復(fù)雜的視覺聲音信息依然難以辨認(rèn)。其中一部分原因是數(shù)據(jù)集的質(zhì)量和規(guī)模還不夠好。該研究團(tuán)隊(duì)正在積極構(gòu)建高質(zhì)量的音頻 - 視頻 - 文本對齊數(shù)據(jù)集，以增強(qiáng)模型的感知能力。

（2）難以處理長視頻的：長視頻 (如電影和電視節(jié)目) 包含大量的信息，對模型的推理能力和計(jì)算資源都較高。

（3）語言模型固有的幻覺問題，在 Video-LLaMA 中依然存在。

總的來說，Video-LLaMA 作為一個(gè)具有綜合視聽能力的大模型，在音頻視頻理解領(lǐng)域取得了令人印象深刻的效果。隨著研究者的不斷攻堅(jiān)，以上挑戰(zhàn)也將逐個(gè)被克服，使得音視頻理解模型具有廣泛的實(shí)用價(jià)值。

責(zé)任編輯：張燕妮來源：機(jī)器之心