成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

年末重磅!ByteDance Research視頻理解大模型「眼鏡猴」正式發布

人工智能 新聞
Tarsier 在生成詳細且準確的視頻描述方面超越了現有的閉源和開源工作,更是在廣泛的視頻理解任務中樹立了新的標桿。

最近,ByteDance Research 的視頻理解大模型眼鏡猴(Tarsier) 迎來了巨大更新,發布了第二代模型 Tarsier2 及相關技術報告。研究團隊此前發布的 Tarsier-7B/34B 在視頻描述領域已經是最強開源模型,僅次于閉源模型 Gemini-1.5-Pro 和 GPT-4o。那么這次新版 Tarsier2 又會帶給我們什么樣的驚喜呢?

直接上強度!來看看 Tarsier2 對下面這兩個影視名場面的理解如何:

《燕子,沒有你我怎么活》

《曹操蓋飯》

可以看到,Tarsier2 不僅對于視頻中人物動作捕捉得細致入微(如小岳岳追車、跪地,曹操蓋飯、揮手),還可以充分結合視頻中的字幕信息,從而進一步分析人物的動機 / 心理,理解人物關系和情節發展。

既然如此復雜的影視片段能夠分析清楚,Tarsier 最擅長的視頻描述任務自然也不在話下:

Tarsier2 視頻描述效果合集

無論是真人還是動畫、橫屏還是豎屏、多場景還是多鏡頭,Tarsier2 總是能敏銳地捕捉視頻中的核心視覺元素動態事件,使用簡練的語言表述出來,并且很少產生幻覺。這么看來,Tarsier2 已經可以和 GPT-4o 扳一扳手腕了。

圖片

“火眼金睛” 是怎么煉成的?

Tarsier2 是一個 7B 大小的輕量級模型,支持動態分辨率,能夠看得懂長達幾十分鐘的視頻,尤其擅長對幾十秒的短視頻片段進行分析。研究團隊公開了詳盡的技術報告,相關數據、代碼和模型也在持續開源中:

圖片


  • 論文地址:https://arxiv.org/abs/2501.07888
  • 項目倉庫:https://github.com/bytedance/tarsier
  • HuggingFace:https://huggingface.co/omni-research

Tarsier2 強大的視頻理解能力主要得益于預訓練后訓練兩個階段的精益求精

預訓練

Tarsier2 在 4000 萬個互聯網視頻 - 文本數據上進行預訓練。不同于文本模型只需要互聯網上的單語語料就可訓練,視頻理解模型嚴重依賴高質量的視頻 - 文本對齊數據。因此,如何大規模地獲取對齊數據是模型訓練的最大難點。團隊主要通過以下兩個途徑來解決:

  • 數據收集方面:Tarsier2 海量收集互聯網上的視頻 - 文本數據。這些數據分布廣泛,涵蓋電影、電視劇、短視頻等各種來源,涉及人機交互、自動駕駛等多個領域。值得一提的是,Tarsier2 篩選了一大批影視劇解說的視頻。這些視頻不僅能夠幫助模型學會簡單的動作、事件,還能輔助模型理解更高層次的情節信息。
  • 數據篩選方面:Tarsier2 設計了一套嚴謹的流程,來篩選高質量訓練數據。每條數據都會經歷 “分鏡 → 過濾 → 合并” 3 個階段。“分鏡” 階段,視頻會被切分成多個單一鏡頭片段;“過濾” 階段針對不同的數據使用不同的模型過濾低質數據,如過濾掉動態性太差的、文本和畫面無關的等;“合并” 階段再將剩下的相鄰的視頻片段合在一起,增加視頻的復雜度。

后訓練

后訓練分為 SFT 和 DPO 兩個階段。

SFT:這一階段,模型在人工標注的視頻描述數據上進行訓練。這個階段的描述數據也是大有講究。Tarsier2 提出在視頻描述中引入針對每個子事件的具體定位信息(即明確每個事件源自哪些幀),以強化模型對時序信息與視覺特征的關注度,增強文本與視覺信號的對齊。

圖片

SFT數據樣例

DPO:這一階段,模型在自動化構造的正負樣本上進行 DPO 訓練。其中,正樣來源于模型對原始視頻的預測結果;負樣本來源于模型對經過預先設計的隨機擾動的視頻的預測結果。這種直觀高效的構造方式使得模型能夠在描述視頻時,“又準確又全面”,減少描述中存在的幻覺。

是騾子是馬,牽出來溜溜!

俗話說,“光說不練假把式”,Tarsier2 在多達 19 個視頻理解公開基準上進行了性能測試,和最新最強的 10+ 個開源模型(Qwen2-VL、InternVL2.5、LLaVA-Video 等)以及閉源模型(Gemini-1.5, GPT-4o)來了場 “硬碰硬”。

Tarsier2 在包括視頻描述、短 / 長視頻問答在內的通用視頻理解任務上表現亮眼。在視頻描述評測集 DREAM-1K 上,Tarsier2 相比 GPT-4o 提升 +2.8%,相比 Gemini-1.5-Pro 提升 +5.8%;在人工評估中,Tarsier2-7b 相比 GPT-4o 優勢占比 +7.8%,相比 Gemini-1.5-Pro 優勢占比 +12.3%。

圖片

視頻描述質量人工評估結果

此外,Tarsier2 更是在 10+ 個視頻理解公開榜單上,超越了 Qwen2-VL-7B、InternVL2.5-8B 等同規模的模型,取得了 SOTA 成績:

圖片


Tarsier2在廣泛的視頻理解任務上樹立了新的標桿

除了勝任各種通用視頻理解任務,Tarsier2 作為基座模型在機器人、智能駕駛等下游任務場景中也展現出了極強的泛化能力。在機器人領域,Tarsier2 能為指定的任務生成詳細的步驟指令。在智能駕駛方面,Tarsier2 也能夠幫助車輛識別道路情況,并輔助進行決策。

機器人場景。

智能駕駛場景。

向更強的智能進發

Tarsier 在生成詳細且準確的視頻描述方面超越了現有的閉源和開源工作,更是在廣泛的視頻理解任務中樹立了新的標桿。文本、語音、圖片、視頻多模態深度融合是當下人工智能發展的核心趨勢與關鍵方向,Tarsier2 在這條道路上已經邁出了堅實的步伐。期待未來 Tarsier2 能在多模態融合的浪潮中持續領航,為人工智能的發展帶來更多驚喜與突破 。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-24 20:23:50

云知聲AGI大模型

2025-05-16 16:00:15

Spring AI大模型) 人工智能

2015-02-05 09:52:14

MongoDB

2017-11-23 15:42:03

視頻

2021-07-16 09:55:37

iSQE峰會

2024-10-09 15:06:56

2024-03-21 10:32:55

2020-12-07 11:22:09

私域流量運營

2025-02-21 13:00:00

2021-11-09 22:50:44

數據安全
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日日操夜夜操天天操 | 亚洲欧美中文日韩在线v日本 | www.99热.com | 久久久91 | 黄色片免费在线观看 | 久久久精品一区 | 黄色网址免费在线观看 | 亚洲高清视频在线观看 | 久久最新精品 | 在线亚洲免费视频 | 亚洲一区中文字幕 | 国产精品久久国产精品99 | 噜噜噜色网 | 久久人人网 | 国产精品一二三区 | 一区二区三区久久 | 婷婷成人在线 | 欧美炮房 | 国产成人在线观看免费 | 一区欧美 | 久久久综合精品 | 在线免费观看成年人视频 | 一级黄色片在线免费观看 | 雨宫琴音一区二区在线 | 久久午夜国产精品www忘忧草 | 国产精品久久久久久亚洲调教 | 成人午夜 | 国产精品成人69xxx免费视频 | 亚洲444kkkk在线观看最新 | 国内精品99| 久久成人在线视频 | 欧美日韩在线高清 | 亚洲va中文字幕 | 精品欧美乱码久久久久久1区2区 | 免费人成激情视频在线观看冫 | 一级特黄视频 | 精品日韩在线 | 偷拍自拍在线观看 | 黄色av网站在线观看 | 天天久久 | 欧美三级视频在线观看 |