成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字節發布 Seed1.5-VL 視覺-語言多模態大模型,20B 參數狂攬 60 項公開評測基準中 38 項 SOTA!

人工智能 新聞
今天給大家介紹的是Seed 1.5-VL,相比于之前版本,Seed1.5-VL 具備更強的通用多模態理解和推理能力,不僅視覺定位和推理更快更準,還新增了視頻理解、多模態智能體能力。

5 月 13 日,火山引擎在上海搞了場 FORCE LINK AI 創新巡展,一股腦發布了 5 款模型和產品,包括豆包?視頻生成模型 Seedance 1.0 lite、升級后的豆包 1.5?視覺深度思考模型,以及新版豆包?音樂模型。同時,Data Agent 和 Trae 等產品也有了新進展。

圖片

今天給大家介紹的是Seed 1.5-VL,相比于之前版本,Seed1.5-VL 具備更強的通用多模態理解和推理能力,不僅視覺定位和推理更快更準,還新增了視頻理解、多模態智能體能力。舉個例子。僅需一張圖,再來個提示詞,Seed1.5-VL 就能精準識別觀眾、棒球、座椅、圍欄等多種元素,還能正確分類并給出坐標。

圖片

示例展示

基礎感知能力

圖片

視覺定位

圖片

視覺謎題

圖片

相關鏈接

  • 官網:https://seed.bytedance.com/tech/seed1_5_vl
  • 代碼:https://github.com/ByteDance-Seed/Seed1.5-VL
  • API:https://www.volcengine.com/experience/ark?model=doubao-1-5-thinking-vision-pro-250428
    圖片

模型架構

Seed1.5-VL 包含一個 5.32 億參數的視覺編碼器,以及一個激活參數規模達 200 億的混合專家(MoE)大語言模型。

Seed1.5-VL 模型結構圖Seed1.5-VL 模型結構圖

模型由以下三個核心組件組成:

  1. SeedViT:用于對圖像和視頻進行編碼;
  2. MLP 適配器:將視覺特征投射為多模態 token;
  3. 大語言模型:用于處理多模態輸入并執行推理。

Seed1.5-VL 支持多種分辨率的圖像輸入,并通過原生分辨率變換(native-resolution transform)確保最大限度保留圖像細節。在視頻處理方面,提出了一種動態幀分辨率采樣策略(dynamic frame-resolution sampling strategy),能夠根據需要動態調整采樣幀率和分辨率。此外,為了增強模型的時間信息感知能力,在每幀圖像之前引入了時間戳標記(timestamp token)。

預訓練數據與 Scaling Law

Seed1.5-VL 的預訓練語料庫包含 3 萬億個多樣化且高質量的源標記(source tokens)。這些數據根據模型目標能力的需求進行了分類。

在預訓練階段觀察到大多數子類別的數據訓練損失與訓練標記數量之間遵循冪律關系。此外,某一子類別的訓練損失與該類別對應的下游任務評估指標之間呈現對數線性關系(例如:評估指標 ~ log(訓練損失))的趨勢,尤其在局部區域內尤為顯著。(a) OCR 相關數據集的訓練損失隨訓練標記數量的變化曲線; (b) ChartQA 的 Top-1 準確率隨訓練損失的變化曲線; (c) InfographicVQA 的 Top-1 準確率隨訓練損失的變化曲線; (d) 定位(grounding)相關數據集的訓練損失隨訓練標記數量的變化曲線; (e) RefCOCO 的準確率隨訓練損失的變化曲線; (f) RefCOCO+ 的準確率隨訓練損失的變化曲線。 需要注意的是,圖中所展示的評估指標為模型在預訓練后直接獲得的性能表現,因此與最終結果(即通過強化學習進一步優化后獲得的性能)并不直接可比。

后訓練

Seed1.5-VL 的后訓練過程采用了結合拒絕采樣(rejection sampling)和在線強化學習(online reinforcement learning)的迭代更新方法。我們構建了一條完整的數據 pipeline,用于收集和篩選復雜提示,以增強后訓練階段的數據質量。

強化學習實現的一個關鍵特點是,監督信號通過獎勵模型(reward models)和規則驗證器(rule verifiers)僅作用于模型生成的最終輸出結果。我們特意避免對模型的詳細鏈式思維推理(chain-of-thought reasoning)過程進行監督。這一區別在插圖的右側部分得到了重點說明。Seed1.5-VL 后訓練流程

基準測試

Seed1.5-VL 在 60 項公開基準測試中取得了 38 項的最新最優性能(state-of-the-art performance),其中包括 19 項視頻基準測試中的 14 項,以及 7 項 GUI 代理任務中的 3 項。

圖片圖片圖片

局限性

盡管 Seed1.5-VL 展現了出色能力,但仍存在一些局限性,尤其是在細粒度視覺感知、三維空間推理以及復雜組合搜索任務方面。解決這些挑戰是我們持續研究的核心部分,研究方向包括統一現有模型能力與圖像生成,以及引入更健全的工具使用機制。

責任編輯:張燕妮 來源: AIGC Studio
相關推薦

2025-05-14 15:05:21

模型AI訓練

2025-05-15 08:30:00

2025-04-14 00:30:00

2024-04-02 09:17:50

AI數據開源

2023-12-04 13:40:09

AI訓練

2024-12-18 14:50:00

AI訓練數據

2024-08-30 15:19:22

2025-02-27 10:08:19

2024-08-05 08:46:00

模型測評

2025-02-13 09:40:00

2024-11-13 09:39:13

2024-07-23 10:34:57

2024-03-25 12:40:19

訓練模型

2025-01-09 09:56:34

視覺模型圖像生成

2023-08-02 12:52:02

谷歌模型

2025-03-19 09:30:00

2025-05-21 08:47:00

2025-01-08 08:21:16

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本精品国产 | 国产精品美女一区二区 | 亚洲网在线 | 国产亚洲精品精品国产亚洲综合 | 黄色一级视频免费 | 国产精品久久久乱弄 | 亚洲精品国产成人 | 欧美日韩不卡合集视频 | 亚洲精品乱码久久久久久按摩 | 7777奇米影视 | 国产精品一区在线观看 | 国产成人精品久久 | 国产欧美在线视频 | 91久久久久久久久久久 | 中文字幕一区二区三 | aaaaaaa片毛片免费观看 | 亚洲免费成人 | 成人黄色av| 精品国产欧美一区二区 | 91亚洲精| 91精品久久 | 久久精品美女 | 亚洲精品在线免费 | 久久久www成人免费精品 | 四虎影院在线播放 | 国产精品特级毛片一区二区三区 | 欧美综合一区 | 欧美日韩综合视频 | 亚洲不卡一 | 亚洲一区国产精品 | 成年免费大片黄在线观看一级 | 天天澡天天操 | 成人特级毛片 | 日韩在线小视频 | 一区二区不卡视频 | 精品毛片在线观看 | 麻豆av免费观看 | 一级毛片色一级 | 欧美群妇大交群中文字幕 | 超碰电影| 91精品久久久久久久久久入口 |