成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MiniMax開源首個視覺RL統一框架,閆俊杰領銜!推理感知兩手抓,性能橫掃MEGA-Bench

人工智能 新聞
最新開源V-Triune(視覺三重統一強化學習系統)框架,使VLM首次能夠在單個后訓練流程中,聯合學習和掌握視覺推理和感知任務。

僅需一個強化學習(RL)框架,就能實現視覺任務大統一?

現有RL對推理和感知任務只能二選一,但“大模型六小強”之一MiniMax表示:我全都要!

最新開源V-Triune(視覺三重統一強化學習系統)框架,使VLM首次能夠在單個后訓練流程中,聯合學習和掌握視覺推理和感知任務。

通過三層組件設計基于動態交并比(IoU)的獎勵機制,彌補了傳統RL方法無法兼顧多重任務的空白。

圖片

甚至基于V-Triune,MiniMax還一步到位,貼心地給大家開發了全新的Orsta(One RL to See Them All)模型系列(7B至32B),在MEGA-Bench Core基準測試中從+2.1%顯著提升至+14.1%。

圖片

值得注意的是,在論文的作者一欄,MiniMax創始人兼CEO閆俊杰也參與了這項研究。

圖片

目前V-Triune框架和Orsta模型都在GitHub上實現全面開源,點擊文末鏈接即可跳轉一鍵獲取。

那話不多說,咱們直接上細節。

推理感知“兩手抓”

視覺任務可以分為推理感知兩類,在當前,RL研究主要集中于數學QA和科學QA等視覺推理任務。

而目標檢測和定位等視覺感知任務,因亟需獨特的獎勵設計和訓練穩定性保障,還沒有得到一個很好的解決方案……

圖片

針對上述問題,MiniMax針對性地提出了新框架V-Triune,作為首個面向VLM后訓練的統一RL系統,通過三個互補組件核心巧妙實現二者的平衡。

樣本級數據格式化

讓每個樣本自定義其獎勵設置和驗證器,支持動態路由和權重調整,以處理多種任務需求。

數據模式基于HuggingFace數據集實現,包含以下三個字段:

  1. reward_model:樣本級定義獎勵類型、權重。
  2. verifier:指定驗證器及其參數。
  3. data_source:標識樣本來源。

最終實現了多樣化數據集的無縫集成,同時支持高度靈活的獎勵控制。

驗證器級獎勵計算

采用異步客戶端-服務器架構,將獎勵計算與主訓練循環解耦。

圖片

客戶端通過代理工作器異步發送請求,而服務器則根據”verifier”字段路由至專用驗證器。

主要使用兩類驗證器:

  1. MathVerifyVerifierr:處理推理、OCR和計數任務。
  2. DetectionVerifier:處理檢測和定位任務,應用動態IoU獎勵。

從而實現在無需修改核心訓練流程的情況下,靈活擴展新任務或更新獎勵邏輯。

數據源級指標監控

在多任務多源訓練中,按數據源記錄以下指標:

  1. 獎勵值:追蹤數據集特定穩定性。
  2. IoU和mAP(感知任務):記錄不同閾值下的IoU和mAP。
  3. 響應長度和反思率:跟蹤響應長度分布、截斷率,以及15個預定義反思詞(如“re-check”)的出現比例。

該監控機制幫助診斷模型行為(如過度思考或膚淺響應),并確保學習的穩定性。

圖片

動態IoU獎勵

此外針對監測和定位任務,團隊還創新性地提出了動態IoU獎勵,分階段調整閾值,以緩解冷啟動問題,同時引導模型逐步提升定位精度:

  • 初始10%訓練步驟:
  • 10%-25%訓練步驟:
  • 剩余訓練步驟:

圖片

雖然V-Triune提供了可擴展的數據、任務和指標框架,但早期實驗顯示,聯合訓練可能會導致評估性能下降梯度范數突增等不穩定現象,于是團隊又通過以下調整逐步解決:

  1. 凍結ViT參數,防止梯度爆炸。
  2. 過濾偽圖像特殊詞元,確保輸入特征對齊,提升訓練穩定性。
  3. 構建隨機化CoT提示池,降低提示依賴性。
  4. 由于V-Triune基于Verl框架實現,主節點內存壓力較大,需解耦測試階段與主訓練循環以管理內存。

Orsta模型

另外值得一提的是,基于開源的Qwen2.5-VL模型,團隊還訓練出7B和32B的Orsta模型

圖片

依據4類推理任務(數學、謎題、科學、圖表分析)和4類感知任務(物體檢測、目標定位、計數、OCR)的訓練數據,進行規則和難度的兩階段過濾和訓練優化。

最終實現在MEGA-Bench Core基準測試中,Orsta相比原始模型提升至+14.1%,尤其是在感知任務中,mAP指標顯著提高,證明了該統一方法的有效性和可擴展性。

圖片

MiniMax布局多模態領域

MiniMax作為商湯背景出身的AI六小龍之一,近期在多模態領域可謂動作頻頻,模型橫跨語言、音頻、視頻。

圖片

例如MiniMax的S2V-01視頻模型、MiniMax-VL-01視覺多模態模型以及MiniMax-T2A-01系列語言模型等。

尤其是廣受好評的MiniMax-01系列,包含基礎語言模型和視覺多模態模型兩種,性能上比肩DeepSeek-V3、GPT-4o等國內外頂尖模型的同時,還首次創新性實現了對新型Lightning Attention架構的大規模擴展。

最新發布的Speech-02,在AI語言生成上也是一騎絕塵,直接刷新全球權威語音基準測試榜單第一,一舉打破OpenAI、ElevenLabs的行業壟斷。

圖片

同時,據MiniMax高級研究總監鐘怡然同量子位訪談時所說:

MiniMax將會進一步探索多模態架構創新,即原生的生成理解統一大模型的架構。

而今天這個統一視覺任務的RL架構也許僅僅是一個開始。

論文鏈接:https://arxiv.org/abs/2505.18129代碼鏈接:https://github.com/MiniMax-AI/One-RL-to-See-Them-All

責任編輯:張燕妮 來源: 量子位
相關推薦

2009-05-19 15:06:33

TD-SCDMA3G建設

2011-08-10 16:21:40

網康ITM網絡擁塞

2023-10-07 00:11:22

CIO

2010-03-15 15:02:54

2017-11-01 10:11:00

CIO創新房地產

2023-05-08 15:14:38

技術AI

2021-04-26 08:24:41

DDoS攻擊黑客

2009-02-16 09:58:00

無線路由自動斷線故障

2015-04-15 13:04:45

AMDLisa Su策略

2022-09-05 11:39:38

瑞數信息動態安全

2015-04-15 13:49:31

公共Wi-Fi避害兩手抓

2021-07-26 08:01:35

數據資產智能化安全性

2013-12-20 09:08:40

智慧城市

2018-07-10 17:48:22

百度云

2025-05-15 09:04:00

2024-11-15 15:38:00

模型測評

2017-01-16 13:13:34

H3C關鍵業務
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 最新国产在线 | 一区二区免费视频 | 91精品国产美女在线观看 | 日本天天操 | 亚洲欧美日韩精品久久亚洲区 | 亚洲国产一 | 久久久www成人免费无遮挡大片 | 欧美一级在线 | 国产精品视频在线播放 | 九九视频在线观看 | 中文字幕电影在线观看 | 精品欧美一区二区三区久久久 | 欧美久久久久久 | 国产日韩欧美 | 久久久女女女女999久久 | 超碰av免费 | 欧美综合精品 | 玖玖精品视频 | 精品日韩在线观看 | 91人人视频在线观看 | 日韩三级 | 免费在线观看一区二区 | 国产剧情一区 | 国产精品成人在线播放 | 日本五月婷婷 | 日本一区二区高清不卡 | 91成人午夜性a一级毛片 | 欧美精品一区二区在线观看 | 亚洲a在线观看 | 91精品国产麻豆 | 亚洲精品欧美 | 五月天婷婷狠狠 | 91精品久久久久久久久久入口 | 国产亚洲精品综合一区 | 成人欧美一区二区三区白人 | 国产亚洲精品精品国产亚洲综合 | 成人精品在线观看 | 日韩在线免费视频 | 一本一道久久a久久精品蜜桃 | 人成精品 | 国产精品福利视频 |