成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<nav id="w62eo"></nav>

<input id="w62eo"><th id="w62eo"></th></input>

<abbr id="w62eo"><code id="w62eo"></code></abbr>

<strike id="w62eo"></strike>

<kbd id="w62eo"><code id="w62eo"></code></kbd>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕

發布于 2024-4-7 11:54

瀏覽

0收藏

幾天前，OpenAI官方賬號發布了第一支由Sora制作的MV——Worldweight，引全網圍觀。

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕-AI.x社區

AI視頻，已然成為多模態LLM發展的大趨勢。

然而，除了視頻生成，讓LLM對復雜視頻進行理解，也至關重要。

最近，來自KAUST和哈佛大學的研究人員提出了MiniGPT4-Video——專為視頻理解而設計的多模態大模型。

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕-AI.x社區

論文地址：??https://arxiv.org/pdf/2404.03413.pdf??

值得一提的是，MiniGPT4-Video能夠同時處理時態視覺數據和文本數據，因此善于理解視頻的復雜性。

比如，上傳一個寶格麗的首飾宣傳視頻。

MiniGPT4-Video能夠為其配出標題，宣傳語。

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕-AI.x社區

再比如，使用虛幻引擎制作的視頻，新模型可以對其進行理解。

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕-AI.x社區

能看出這個視頻使用了后期處理和特效，而不是實際拍攝出來的。

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕-AI.x社區

甚至，看過一簇簇花盛開的視頻，MiniGPT4-video即興作出了超美的抒情詩。

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕-AI.x社區

基于MiniGPT-v2，MiniGPT4-video將其能力擴展到處理幀序列，以便理解視頻。

MiniGPT4-video不僅考慮了視覺內容，還納入了文本對話，使該模型能夠有效地回答涉及視覺和文本內容的查詢。

實驗結果顯示，新方法在MSVD、MSRVTT、TGIF和TVQA基準上分別提高了4.22%、1.13%、20.82%和13.1%。

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕-AI.x社區

接下來，一起看看MiniGPT4-video還能做什么？

更多演示

上傳一個寶寶戴眼鏡看書的視頻后，MiniGPT4-video可以理解搞笑點在哪里。

提取視頻中核心要義，也不在話下。

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕-AI.x社區

你還可以讓MiniGPT4-Video生成一個創意性的廣告。

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕-AI.x社區

解說視頻也是超級厲害。

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕-AI.x社區

MiniGPT4-Video能能夠擁有如此強大視頻解讀能力，究竟是怎么做到的？

技術介紹

MiniGPT-v2通過將視覺特征轉化為LLM空間，從而實現了對單幅圖像的理解。

他的結構如下圖2所示，由于LLM上下文窗口的限制，每段視頻都要進行幀子采樣，幀數（N）由LLM的上下文窗口決定。

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕-AI.x社區

隨后，使用預先訓練好的模型EVA-CLIP，將視覺幀與文本描述對齊，然后使用線性層將其映射到大型語言模型空間。

與MiniGPT-v2類似，研究人員將每幅圖像中每四個相鄰的視覺token濃縮為一個token，從而將每幅圖像的token數減少了 75%，從256個減少到64個。

在訓練過程中，研究人員會隨數據集提供字幕，但在推理過程中或視頻沒有字幕時，研究人員會利用語音到文本模型（如 whisper）生成視頻字幕。

幀字幕使用LLM tokenizer進行token化，將每個采樣幀的視覺token和文本token進行連接。指令token被附加到輸入序列的末尾，然后模型輸出問題的答案。

訓練流程

大規模圖像-文本對預訓練

?

在第一階段，研究人員訓練了一個線性層。

它將由視覺編碼器編碼的視覺特征（例如 EVACLIP ）投影到LLM的文本空間中，并采用captioning loss。

研究人員利用了一個結合的圖像描述數據集，包括來自LAION、概念性標題（Conceptual Captions）和SBU的圖像，以將視覺特征與LLM的輸入空間對齊。

大規模視頻-文本對預訓練

?

在第二階段，研究人員使模型通過輸入多幀來理解視頻。

具體來說，研究人員從每個視頻中抽取最多N幀。在此階段，研究人員使用以下模板中的預定義提示：

<s>[INST]<Img><FrameFeature_1><Sub><Subtitle text_1>... <Img> <FrameFeature_N><Sub><Subtitle text_N><Instruction></INST>

抽取的幀數取決于每個語言模型的上下文窗口，特別是對于Llama 2，上下文窗口是4096個tokens，而Mistral的上下文窗口是8192個tokens。

在研究人員的方法中，他們用了64個tokens表示每個圖像。

因此，對于Llama 2，研究人員指定N=45幀，相當于2880個tokens用于視覺內容表示。

此外，研究人員為字幕分配1000個tokens，而剩余的tokens用于模型輸出。

類似地，在Mistral的情況下，上下文窗口加倍，N相應地加倍到N=90幀，以確保與擴展的上下文窗口兼容。

在此提示中，每個<FrameFeature>都由視覺主干編碼的采樣視頻幀替換。

<Subtitle text>代表相應幀的字幕，<Instruction>代表研究人員預定義的指令集中隨機采樣的指令，包含多種形式的指令，如「簡要描述這些視頻」。

研究人員使用結合了CMD和WebVid的視頻描述數據進行大規模視頻描述訓練。

視頻問題解答指令微調

?

在這一階段，研究人員采用與第二階段相同的訓練策略，但重點是利用高質量的視頻答題數據集進行教學微調。

這一微調階段有助于提高模型解釋輸入視頻和生成精確回復的能力。

解釋輸入視頻并生成相應的問題。模板與第二階段模板與第二階段的模板相同，但將 <Instruction> 替換為Video-ChatGPT數據集中提到的一般問題。

實現細節

在三個訓練階段中，研究人員保持批大小為4，并使用AdamW優化器結合余弦學習率調度器，將學習率設置為1e4。

研究人員的視覺主干是EVA-CLIP，進行了權重凍結。

值得注意的是，研究人員訓練了線性投影層，并使用LoRA對語言模型進行了高效微調。

具體來說，研究人員微調了Wq和Wv組件，排名(r)為64，LoRA-alpha值為16。整個模型以一致的224×224像素的圖像分辨率進行訓練，確保了所有階段的統一性。

多項基準，刷新SOTA

為了對最新提出的架構進行全面評估，研究人員評估了三種基準類型的性能：Video-ChatGPT、Open-ended Questions和Multiple-Choice Questions (MCQs)。

表1所示的VideoChatGPT基準測試中，最新模型在沒有字幕的情況下與之前的方法不相上下。

當研究人員將字幕作為輸入時，模型在所有五個維度上都取得了SOTA。

這驗證了研究人員的模型可以利用字幕信息，來提高視頻的理解。

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕-AI.x社區

在另外兩個基準測試評估中，MiniGPT4-Video明顯優于最新的SOTA方法。

它在MSVD、MSRVTT、TGIF和TVQA基準上分別實現了4.22%、1.13%、20.82%和13.1%的顯著改進。

帶字幕和不帶字幕的結果進一步表明，將字幕信息與視覺提示集成可顯著提高性能，TVQA的準確率從33.9%提高到54.21%。

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕-AI.x社區

定性結果

更多的定性結果，如下圖所示。

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕-AI.x社區

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕-AI.x社區

最后，研究人員還將MiniGPT4-video與VideoChatGPT相比較。

可以看出，針對一個問題，最新方法的回復更加全面。

AI視頻理解天花板，全新MiniGPT4-Video刷爆SOTA！寶格麗宣傳片配文一絕-AI.x社區

總之，MiniGPT4-video有效地融合了視頻領域內的視覺和對話理解，為視頻問答提供了一個引人注目的解決方案。

不過，缺陷在于上下文窗口限制。

具體來說，當前版本要求Llama 2視頻長度為45幀（不到一分半），Mistral版本的視頻長度為90幀（不到三分鐘）。

因此，下一步研究將模型能力擴展到處理更長視頻的能力。

本文轉自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/Y8w6CqTvm7zVQMOmTuxePA??

標簽

贊

收藏

回復

舉報

回復

相關推薦

對比近期發布的幾個小模型，sLLM的天花板在哪里？

zhangyannni ? 4582瀏覽 ? 0回復
全新神經網絡架構KAN一夜爆火！200參數頂30萬，MIT華人一作，輕松復現Nature封面AI數學研究

Crystalcxt ? 3930瀏覽 ? 0回復
【LLM】ShareGPT4Video：借助更優質的標題提升視頻理解和生成能力

海因斯DK ? 4152瀏覽 ? 0回復
上科大、影眸聯合提出DressCode：從文本生成3D服裝板片

輕薄滴假象 ? 3725瀏覽 ? 0回復
ShareGPT4V作者團隊又一力作！百萬高質量視頻-字幕數據助力社區提升多模態大模型視頻理解及生成能力

輕薄滴假象 ? 2853瀏覽 ? 0回復
AI給《黑神話：悟空》生成了一個宣傳片…看完我沉默了

Crystalcxt ? 2546瀏覽 ? 0回復
頂穿天花板！AI編程初創公司挑戰1億上下文窗口，編碼能力超級加倍！

51CTO技術棧 ? 3513瀏覽 ? 0回復
一文徹底理解大模型 Agent 智能體原理和案例

玄姐聊AGI ? 4425瀏覽 ? 0回復
AI Video Composer：Qwen2.5-Coder 賦能，簡易開源視頻創作神器來襲

穿越時空111 ? 3626瀏覽 ? 0回復
構建AI Agent必學的4種設計模式，一文了解

Baihai_IDP ? 2313瀏覽 ? 0回復
視頻編輯最新SOTA！港中文&Adobe等發布統一視頻生成傳播框架——GenProp

angel ? 2192瀏覽 ? 0回復
Video Depth Anything引領超長視頻深度估計最新SOTA！字節跳動開源

angel ? 2490瀏覽 ? 0回復
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術，為何震動了全球 AI 圈

玄姐聊AGI ? 7873瀏覽 ? 1回復
達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩

Crystalcxt ? 2256瀏覽 ? 0回復
VTON 360突破3D虛擬試衣天花板：無死角虛擬換裝

angel ? 2644瀏覽 ? 0回復
AI Agents-4 | 一文讀懂 AI 智能體的多元類型

Halo咯咯 ? 1509瀏覽 ? 0回復
揭秘Embedding模型選型：如何用向量技術突破知識庫的智能天花板？

AI博物院 ? 1479瀏覽 ? 0回復
強化學習訓練后，大模型推理“天花板”反而降低了？清華研究揭示RLVR局限性

arnoldzhw ? 947瀏覽 ? 0回復
Aero-1-Audio：Qwen2.5架構加持，輕量級音頻模型天花板

穿越時空111 ? 1257瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

DeepSeek第五天開源猛料，3FS并行文件系統榨干SSD！6.6 TiB/s吞吐量堪比光速 2025-02-28 12:53:18發布
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓推顛覆級創新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： AI下一個重大飛躍是理解情感！第一個具有情商的對話型AI來了

下一篇： Llama提速500%！谷歌美女程序員手搓矩陣乘法內核

社區精華內容

目錄

主站蜘蛛池模板：日韩精品一区二区三区中文字幕 | 一级片网址 | 在线国产视频 | 久久网一区二区三区 | 日韩精品免费在线观看 | 国产精品美女久久久久久久网站 | 一区二区三区免费观看 | 视频一区二区三区中文字幕 | 亚洲精品综合 | 99久久婷婷国产综合精品电影 | 国产精品视频一区二区三区, | 在线观看中文字幕 | 欧美在线一区二区视频 | 91视频正在播放 | 妹子干综合 | 先锋资源吧 | 欧美精品一区二区三区四区在线 | av一级久久| 久久亚洲天堂 | 国产一区二区在线播放 | 97国产精品 | 国产yw851.c免费观看网站 | 一级黄色片美国 | 成人国产一区二区三区精品麻豆 | hitomi一区二区三区精品 | 欧美日韩在线免费观看 | 久久成人亚洲 | 日本a在线 | 亚洲一区二区三区在线免费 | 久久毛片 | 日韩午夜| 国产成人免费视频网站高清观看视频 | 在线成人免费视频 | 日韩在线看片 | 日韩欧美1区2区 | 色播久久 | 欧美日韩黄 | 久久久久国产精品一区 | 免费视频一区二区 | 日韩视频在线一区 | 精品国产乱码久久久久久丨区2区 |

<s id="0yq44"><dd id="0yq44"></dd></s>

<cite id="0yq44"><tbody id="0yq44"></tbody></cite>

<nav id="0yq44"></nav>

<strike id="0yq44"><dd id="0yq44"></dd></strike>

<center id="0yq44"></center>

<kbd id="0yq44"></kbd>