字節最強多模態模型登陸火山引擎！Seed1.5-VL靠20B激活參數狂攬38項SOTA

2025-05-14 15:05:21

字節拿出了國際頂尖水平的視覺–語言多模態大模型。

5 月 13 日，火山引擎在上海搞了場 FORCE LINK AI 創新巡展，一股腦發布了 5 款模型和產品，包括豆包?視頻生成模型 Seedance 1.0 lite、升級后的豆包 1.5?視覺深度思考模型，以及新版豆包?音樂模型。同時，Data Agent 和 Trae 等產品也有了新進展。

其中，全場最吸睛的就是豆包 1.5?視覺深度思考模型（以下稱 Seed 1.5-VL）。

相比于之前版本，Seed1.5-VL 具備更強的通用多模態理解和推理能力，不僅視覺定位和推理更快更準，還新增了視頻理解、多模態智能體能力。

舉個例子。僅需一張圖，再來個提示詞，Seed1.5-VL 就能精準識別觀眾、棒球、座椅、圍欄等多種元素，還能正確分類并給出坐標。

再比如，喂它一段監控，問一句：「今天小貓干了哪些壞事？」幾秒鐘后，它就丟過來幾段視頻，「抓包」了小貓遛彎、玩球、巡視、搞破壞等各種「作案」現場。

盡管 Seed1.5-VL 的激活參數僅有 20B，但其性能可達到與 Gemini2.5 Pro 相當的水平，在 60 個公開評測基準中，有 38 個取得 SOTA 表現，在視頻理解、視覺推理、多模態智能體能力等方面均處于第一梯隊。

Seed1.5-VL 推理性能拉滿，但推理成本極具優勢。據其官網顯示，Seed1.5-VL 推理輸入價格僅為每千 tokens 0.003 元，推理輸出價格為每千 tokens 0.009 元。

目前，Seed1.5-VL 已在火山引擎全面開放 API，開發者登錄后選擇 Doubao-1.5-thinking-vision-pro 即可快速調用其能力，構建自己的 AI 視覺助手、巡檢系統、交互 Agent 或下一代智能攝像頭。

官網：https://seed.bytedance.com/tech/seed1_5_vl

API：https://www.volcengine.com/experience/ark?model=doubao-1-5-thinking-vision-pro-250428

一手實測：視覺定位、推理又快又準

說一千道一萬，模型好不好使，還得親自上手試。接下來，我們就奉上一手實測，檢驗一下 Seed1.5-VL 真實能力。

先來看看它的視覺定位和推理能力。

我們上傳一張擺滿各式各樣牛奶的貨架圖片，讓它找出圖中有幾盒黃桃味果粒酸奶優酸乳，并計算它們的價格。

這類任務看似簡單，實則非常考驗模型的多模態協同能力，需要它同時具備圖像理解（識別包裝）、文本 OCR（識別價格標簽）、語義匹配（產品名稱匹配）、數學推理（乘法計算）等能力。

而 Seed1.5-VL 僅用不到 10 秒，就精準識別出貨架角落里的黃桃味酸奶優酸乳，還準確數清瓶數、識別單價，并進行正確的價格計算。

除了門店貨架巡檢的工作，我們還讓它找出下圖中有幾只小貓在生氣。

從圖像像素級別的變化中提取情緒線索，這對大模型的圖像理解精度、注意力機制、細粒度識別能力都是極大的挑戰。Seed1.5-VL 面對一整屏表情相似的小貓臉，準確識別出 5 只在「生氣」，并給出了相應坐標。

還有下面這個「找不同」測試，Seed1.5-VL 既能精確分析兩張相似圖片的細微差別，又能清晰描述所有不同點，比如太陽左側飛鳥數量、沙灘球顏色等，這展示了它在視覺理解、空間關系處理和結構化輸出方面的綜合能力。

此外，它還可以推理復雜視覺謎題。

比如這道公務員圖形推理題目，大部分人看到這些黑白方塊一頭霧水，但 Seed1.5-VL 僅用 10 秒就捕捉到其中的規律，通過精準識別前兩行圖形疊加后「去同存異」的變換邏輯，準確推導出第三行的缺失圖形。

對于開發者來說，Seed1.5-VL 新增的多模態智能體能力是一大利器。它基于強大的 GUI 定位性能，可在 PC 端、手機端等不同環境中完成復雜交互任務。

比如在測試環境中，Agent 可以識別并點擊「點贊」按鈕，用于模擬用戶行為，驗證功能流程是否正常。

技術解讀：重構視覺理解邊界

作為 Seed 系列最新一代多模態模型，Seed1.5-VL 在超過 3T token 的多模態數據上完成預訓練，在圖像問答、圖表理解、視覺推理、視頻分析、GUI 智能體等多個任務上表現突出，成為推動多模態交互應用落地的重要引擎。

那么，該模型背后有哪些獨門絕技？

論文鏈接：https://arxiv.org/abs/2505.07062
技術報告：https://github.com/ByteDance-Seed/Seed1.5-VL/blob/main/Seed1.5-VL-Technical-Report.pdf
GitHub：https://github.com/ByteDance-Seed/Seed1.5-VL

從模型架構上來說，Seed1.5-VL 由三個核心組件構成：首先是視覺編碼模塊 SeedViT，模型參數為 532M，用于對圖像和視頻進行編碼，能夠處理任意長寬比的圖像輸入；其次是一個多層感知機（MLP）適配器，負責將視覺特征投影到多模態表征空間；最后是基于 MoE 架構的大語言模型 Seed1.5-LLM，激活參數為 20B，專注于處理融合后的多模態輸入。

盡管激活參數規模遠小于傳統大型模型，但其表現卻足以媲美甚至超越當前多項主流方法，在保證性能的同時顯著降低了推理成本。

在訓練方法上，Seed1.5-VL 并未從一開始就進行聯合多模態學習，而是選擇了在語言模型基座上進行多模態預訓練，以實現靈活的消融實驗和快速迭代開發。

整個預訓練過程分為三個階段：初期僅訓練 MLP 適配器以初步對齊視覺和語言表征；中期解凍所有參數，在大規模圖文數據中強化知識積累、視覺 grounding 和 OCR 能力；后期在更均衡的數據混合中加入視頻、編程、三維理解等新領域數據，并將序列長度顯著增加，以處理復雜場景和長序列依賴。

到了后訓練階段，Seed1.5-VL 引入了監督微調（SFT）與強化學習（RL）的組合策略。

SFT 訓練數據集包含通用指令數據和長鏈式思考數據，前者用于簡潔準確響應，后者用于詳細分步推理。其中長鏈式思考數據是基于強化學習后的模型，通過拒絕采樣的方式得到。

強化學習則整合了基于人類和驗證器反饋的強化學習（RLHF/RLVR）及多項先進技術。采用混合獎勵，區分通用與可驗證提示，通用提示僅獎勵最終解以激勵思考探索；針對不同類型的任務采用差異化 KL 散度系數，平衡獎勵利用與探索。

考慮到多模態模型在訓練中的異構性挑戰，Seed1.5-VL 在 Training Infrastructure 設計上也進行了大量工程創新。

模型采用多模態并行框架，針對視覺編碼 / MLP 適配器和語言模型分別使用 ZeRO 數據并行與標準 4D 并行策略，充分發揮各自優勢；視覺 token 的重分配采用局部貪心負載均衡算法，將計算負載合理分布在 GPU 集群中，提升吞吐效率；此外，還定制了數據加載器，優化了數據讀取和分發過程。

Seed1.5-VL 以其強大的多模態理解與推理能力，正在重塑我們與視覺世界交互的方式。無論是圖像定位、視覺推理還是長視頻解析，Seed1.5-VL 都展示了行業領先的技術實力，也為通用視覺系統的實際應用拓寬了路徑。

結語

在此次上海巡展中，火山引擎展示了其在 AI 領域的多項創新成果。從輕量級視頻生成到深度視覺理解，再到音樂創作與全流程數據智能體，火山引擎正逐步構建一個完整的技術生態，不僅為企業提供了更強的技術支撐，也推動了從業務流程到智能體應用的全面落地。

這也意味著，真正的多模態智能時代，正加速走進現實。

責任編輯：張燕妮來源：機器之心

模型 AI 訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字節最強多模態模型登陸火山引擎！Seed1.5-VL靠20B激活參數狂攬38項SOTA

一手實測：視覺定位、推理又快又準

技術解讀：重構視覺理解邊界

結語