字節屠榜!最強多模態大模型發布:20 B參數橫掃38項第一!
5月13日,火山引擎FORCE LINK AI創新巡展上,Seed團隊推出的視覺-語言多模態大模型Seed1.5-VL,以僅20B激活參數的架構,橫掃60個評測基準中的38項SOTA,在視頻理解、GUI智能體等關鍵指標上直接叫板谷歌Gemini 2.5 Pro,而推理成本僅為對方的1/3。
Seed1.5-VL的顛覆性首先體現在全能戰士般的多模態理解力。上傳一張畫作,它能全面分析畫面元素,自動識別出作品的作者、藝術風格、畫面元素、思想內涵等。
面對包含多個人物的圖片,Seed1.5-VL 能精準識別觀眾、棒球、座椅、圍欄等畫面元素,并給出正確坐標;
而在視頻理解領域,Seed1.5-VL則展現出偵探般的敏銳度。
輸入一段監控視頻詢問「小貓今天干了哪些壞事」,它能快速標記出抓撓沙發、打翻水杯等現場,并生成帶時間戳的“案情報告”。
而Seed1.5-VL的殺手锏多模態智能體功能,可以讓AI能像人類一樣操作PC界面:在測試中成功完成點擊點贊按鈕、填寫表單等GUI交互任務,可以為自動化測試、智能客服等場景打開新的可能。
Seed1.5-VL采用三件套設計:
532M參數的SeedViT視覺編碼器處理任意比例圖像,MLP適配器對齊多模態表征;
20B參數的MoE架構語言模型專注復雜推理。這種模塊化組合既保證性能,又將推理成本壓至每千token輸入0.003元,輸出僅0.009元,比同類模型降低67%;
訓練策略上獨創漸進式解鎖:先凍結視覺編碼器訓練MLP對齊特征,再解凍所有參數進行大規模預訓練,最后引入強化學習優化長鏈推理。
這種精細調優,讓模型在3T token的多模態數據中提煉出了極致效率。
據透露,該模型已開始在抖音內容審核、飛書智能助手等場景試點,預計半年內接入全線產品。
