字節發布 Seed1.5-VL 視覺-語言多模態大模型,20B 參數狂攬 60 項公開評測基準中 38 項 SOTA!
5 月 13 日,火山引擎在上海搞了場 FORCE LINK AI 創新巡展,一股腦發布了 5 款模型和產品,包括豆包?視頻生成模型 Seedance 1.0 lite、升級后的豆包 1.5?視覺深度思考模型,以及新版豆包?音樂模型。同時,Data Agent 和 Trae 等產品也有了新進展。
今天給大家介紹的是Seed 1.5-VL,相比于之前版本,Seed1.5-VL 具備更強的通用多模態理解和推理能力,不僅視覺定位和推理更快更準,還新增了視頻理解、多模態智能體能力。舉個例子。僅需一張圖,再來個提示詞,Seed1.5-VL 就能精準識別觀眾、棒球、座椅、圍欄等多種元素,還能正確分類并給出坐標。
示例展示
基礎感知能力
視覺定位
視覺謎題
相關鏈接
- 官網:https://seed.bytedance.com/tech/seed1_5_vl
- 代碼:https://github.com/ByteDance-Seed/Seed1.5-VL
- API:https://www.volcengine.com/experience/ark?model=doubao-1-5-thinking-vision-pro-250428
模型架構
Seed1.5-VL 包含一個 5.32 億參數的視覺編碼器,以及一個激活參數規模達 200 億的混合專家(MoE)大語言模型。
Seed1.5-VL 模型結構圖
模型由以下三個核心組件組成:
- SeedViT:用于對圖像和視頻進行編碼;
- MLP 適配器:將視覺特征投射為多模態 token;
- 大語言模型:用于處理多模態輸入并執行推理。
Seed1.5-VL 支持多種分辨率的圖像輸入,并通過原生分辨率變換(native-resolution transform)確保最大限度保留圖像細節。在視頻處理方面,提出了一種動態幀分辨率采樣策略(dynamic frame-resolution sampling strategy),能夠根據需要動態調整采樣幀率和分辨率。此外,為了增強模型的時間信息感知能力,在每幀圖像之前引入了時間戳標記(timestamp token)。
預訓練數據與 Scaling Law
Seed1.5-VL 的預訓練語料庫包含 3 萬億個多樣化且高質量的源標記(source tokens)。這些數據根據模型目標能力的需求進行了分類。
在預訓練階段觀察到大多數子類別的數據訓練損失與訓練標記數量之間遵循冪律關系。此外,某一子類別的訓練損失與該類別對應的下游任務評估指標之間呈現對數線性關系(例如:評估指標 ~ log(訓練損失))的趨勢,尤其在局部區域內尤為顯著。
后訓練
Seed1.5-VL 的后訓練過程采用了結合拒絕采樣(rejection sampling)和在線強化學習(online reinforcement learning)的迭代更新方法。我們構建了一條完整的數據 pipeline,用于收集和篩選復雜提示,以增強后訓練階段的數據質量。
強化學習實現的一個關鍵特點是,監督信號通過獎勵模型(reward models)和規則驗證器(rule verifiers)僅作用于模型生成的最終輸出結果。我們特意避免對模型的詳細鏈式思維推理(chain-of-thought reasoning)過程進行監督。這一區別在插圖的右側部分得到了重點說明。
基準測試
Seed1.5-VL 在 60 項公開基準測試中取得了 38 項的最新最優性能(state-of-the-art performance),其中包括 19 項視頻基準測試中的 14 項,以及 7 項 GUI 代理任務中的 3 項。
局限性
盡管 Seed1.5-VL 展現了出色能力,但仍存在一些局限性,尤其是在細粒度視覺感知、三維空間推理以及復雜組合搜索任務方面。解決這些挑戰是我們持續研究的核心部分,研究方向包括統一現有模型能力與圖像生成,以及引入更健全的工具使用機制。