AI視頻理解天花板,全新MiniGPT4-Video刷爆SOTA!寶格麗宣傳片配文一絕
幾天前,OpenAI官方賬號發布了第一支由Sora制作的MV——Worldweight,引全網圍觀。
AI視頻,已然成為多模態LLM發展的大趨勢。
然而,除了視頻生成,讓LLM對復雜視頻進行理解,也至關重要。
最近,來自KAUST和哈佛大學的研究人員提出了MiniGPT4-Video——專為視頻理解而設計的多模態大模型。
論文地址:??https://arxiv.org/pdf/2404.03413.pdf??
值得一提的是,MiniGPT4-Video能夠同時處理時態視覺數據和文本數據,因此善于理解視頻的復雜性。
比如,上傳一個寶格麗的首飾宣傳視頻。
MiniGPT4-Video能夠為其配出標題,宣傳語。
再比如,使用虛幻引擎制作的視頻,新模型可以對其進行理解。
能看出這個視頻使用了后期處理和特效,而不是實際拍攝出來的。
甚至,看過一簇簇花盛開的視頻,MiniGPT4-video即興作出了超美的抒情詩。
基于MiniGPT-v2,MiniGPT4-video將其能力擴展到處理幀序列,以便理解視頻。
MiniGPT4-video不僅考慮了視覺內容,還納入了文本對話,使該模型能夠有效地回答涉及視覺和文本內容的查詢。
實驗結果顯示,新方法在MSVD、MSRVTT、TGIF和TVQA基準上分別提高了4.22%、1.13%、20.82%和13.1%。
接下來,一起看看MiniGPT4-video還能做什么?
更多演示
上傳一個寶寶戴眼鏡看書的視頻后,MiniGPT4-video可以理解搞笑點在哪里。
提取視頻中核心要義,也不在話下。
你還可以讓MiniGPT4-Video生成一個創意性的廣告。
解說視頻也是超級厲害。
MiniGPT4-Video能能夠擁有如此強大視頻解讀能力,究竟是怎么做到的?
技術介紹
MiniGPT-v2通過將視覺特征轉化為LLM空間,從而實現了對單幅圖像的理解。
他的結構如下圖2所示,由于LLM上下文窗口的限制,每段視頻都要進行幀子采樣,幀數(N)由LLM的上下文窗口決定。
隨后,使用預先訓練好的模型EVA-CLIP,將視覺幀與文本描述對齊,然后使用線性層將其映射到大型語言模型空間。
與MiniGPT-v2類似,研究人員將每幅圖像中每四個相鄰的視覺token濃縮為一個token,從而將每幅圖像的token數減少了 75%,從256個減少到64個。
在訓練過程中,研究人員會隨數據集提供字幕,但在推理過程中或視頻沒有字幕時,研究人員會利用語音到文本模型(如 whisper)生成視頻字幕。
幀字幕使用LLM tokenizer進行token化,將每個采樣幀的視覺token和文本token進行連接。指令token被附加到輸入序列的末尾,然后模型輸出問題的答案。
訓練流程
大規模圖像-文本對預訓練
?
在第一階段,研究人員訓練了一個線性層。
它將由視覺編碼器編碼的視覺特征(例如 EVACLIP )投影到LLM的文本空間中,并采用captioning loss。
研究人員利用了一個結合的圖像描述數據集,包括來自LAION、概念性標題(Conceptual Captions)和SBU的圖像,以將視覺特征與LLM的輸入空間對齊。
大規模視頻-文本對預訓練
?
在第二階段,研究人員使模型通過輸入多幀來理解視頻。
具體來說,研究人員從每個視頻中抽取最多N幀。在此階段,研究人員使用以下模板中的預定義提示:
<s>[INST]<Img><FrameFeature_1><Sub><Subtitle text_1>... <Img> <FrameFeature_N><Sub><Subtitle text_N><Instruction></INST>
抽取的幀數取決于每個語言模型的上下文窗口,特別是對于Llama 2,上下文窗口是4096個tokens,而Mistral的上下文窗口是8192個tokens。
在研究人員的方法中,他們用了64個tokens表示每個圖像。
因此,對于Llama 2,研究人員指定N=45幀,相當于2880個tokens用于視覺內容表示。
此外,研究人員為字幕分配1000個tokens,而剩余的tokens用于模型輸出。
類似地,在Mistral的情況下,上下文窗口加倍,N相應地加倍到N=90幀,以確保與擴展的上下文窗口兼容。
在此提示中,每個<FrameFeature>都由視覺主干編碼的采樣視頻幀替換。
<Subtitle text>代表相應幀的字幕,<Instruction>代表研究人員預定義的指令集中隨機采樣的指令,包含多種形式的指令,如「簡要描述這些視頻」。
研究人員使用結合了CMD和WebVid的視頻描述數據進行大規模視頻描述訓練。
視頻問題解答指令微調
?
在這一階段,研究人員采用與第二階段相同的訓練策略,但重點是利用高質量的視頻答題數據集進行教學微調。
這一微調階段有助于提高模型解釋輸入視頻和生成精確回復的能力。
解釋輸入視頻并生成相應的問題。模板與第二階段模板與第二階段的模板相同,但將 <Instruction> 替換為Video-ChatGPT數據集中提到的一般問題。
實現細節
在三個訓練階段中,研究人員保持批大小為4,并使用AdamW優化器結合余弦學習率調度器,將學習率設置為1e4。
研究人員的視覺主干是EVA-CLIP,進行了權重凍結。
值得注意的是,研究人員訓練了線性投影層,并使用LoRA對語言模型進行了高效微調。
具體來說,研究人員微調了Wq和Wv組件,排名(r)為64,LoRA-alpha值為16。整個模型以一致的224×224像素的圖像分辨率進行訓練,確保了所有階段的統一性。
多項基準,刷新SOTA
為了對最新提出的架構進行全面評估,研究人員評估了三種基準類型的性能:Video-ChatGPT、Open-ended Questions和Multiple-Choice Questions (MCQs)。
表1所示的VideoChatGPT基準測試中,最新模型在沒有字幕的情況下與之前的方法不相上下。
當研究人員將字幕作為輸入時,模型在所有五個維度上都取得了SOTA。
這驗證了研究人員的模型可以利用字幕信息,來提高視頻的理解。
在另外兩個基準測試評估中,MiniGPT4-Video明顯優于最新的SOTA方法。
它在MSVD、MSRVTT、TGIF和TVQA基準上分別實現了4.22%、1.13%、20.82%和13.1%的顯著改進。
帶字幕和不帶字幕的結果進一步表明,將字幕信息與視覺提示集成可顯著提高性能,TVQA的準確率從33.9%提高到54.21%。
定性結果
更多的定性結果,如下圖所示。
最后,研究人員還將MiniGPT4-video與VideoChatGPT相比較。
可以看出,針對一個問題,最新方法的回復更加全面。
總之,MiniGPT4-video有效地融合了視頻領域內的視覺和對話理解,為視頻問答提供了一個 引人注目的解決方案。
不過,缺陷在于上下文窗口限制。
具體來說,當前版本要求Llama 2視頻長度為45幀(不到一分半),Mistral版本的視頻長度為90幀(不到三分鐘)。
因此,下一步研究將模型能力擴展到處理更長視頻的能力。
本文轉自 新智元 ,作者:新智元
