成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

讓視覺語言模型像o3一樣動手搜索、寫代碼!Visual ARFT實(shí)現(xiàn)多模態(tài)智能體能力

人工智能 新聞
上海交大、上海 AI Lab、港中文、武漢大學(xué)的研究團(tuán)隊(duì)最新推出的多模態(tài)智能體訓(xùn)練方法?Visual-ARFT(Visual Agentic Reinforcement Fine-Tuning),專為賦予視覺語言模型(LVLMs)以「工具智能體」能力而設(shè)計。

在大型推理模型(例如 OpenAI-o3)中,一個關(guān)鍵的發(fā)展趨勢是讓模型具備原生的智能體能力。具體來說,就是讓模型能夠調(diào)用外部工具(如網(wǎng)頁瀏覽器)進(jìn)行搜索,或編寫/執(zhí)行代碼以操控圖像,從而實(shí)現(xiàn)「圖像中的思考」。

盡管開源研究社區(qū)在純文本的智能體能力方面(比如函數(shù)調(diào)用和工具集成)已取得顯著進(jìn)展,但涉及圖像理解與操作的多模態(tài)智能體能力及其對應(yīng)的評估體系仍處于起步階段。

因此,上海交大、上海 AI Lab、港中文、武漢大學(xué)的研究團(tuán)隊(duì)最新推出的多模態(tài)智能體訓(xùn)練方法 Visual-ARFT(Visual Agentic Reinforcement Fine-Tuning),專為賦予視覺語言模型(LVLMs)以「工具智能體」能力而設(shè)計。

并且,Visual-ARFT 項(xiàng)目已全面開源(包含訓(xùn)練、評測代碼,數(shù)據(jù)和模型)。如果你對多模態(tài)模型、強(qiáng)化學(xué)習(xí)、視覺語言理解感興趣,不妨一起來探索更多可能性吧!

圖片

  • 論文標(biāo)題:Visual Agentic Reinforcement Fine-Tuning
  • arXiv 地址:  https://arxiv.org/pdf/2505.14246
  • 代碼地址: https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT

Visual-ARFT 讓模型不僅能看圖、能理解,還能「動腦推理、動手操作」,主要包括以下三個方面的核心能力:

  • 模型能夠自動調(diào)用搜索引擎查資料或者編寫并執(zhí)行 Python 代碼處理圖像;
  • 面對復(fù)雜任務(wù),能夠自主拆解問題、規(guī)劃步驟、調(diào)用合適工具完成任務(wù);
  • 支持多步推理、多模態(tài)輸入,具備強(qiáng)大的跨模態(tài)泛化能力!

如圖 1 所示,本文的方法編寫并執(zhí)行 Python 代碼以精準(zhǔn)讀取圖像中特定區(qū)域的文本(上圖),或者通過互聯(lián)網(wǎng)搜索回答多模態(tài)多跳問題(下圖)。

圖片

圖 1. 視覺智能體強(qiáng)化微調(diào)(Visual Agentic Reinforcement Fine-Tuning,簡稱 Visual-ARFT)在執(zhí)行復(fù)雜的多模態(tài)推理任務(wù)中展現(xiàn)出顯著優(yōu)勢,例如:(上圖)編寫并執(zhí)行 Python 代碼以精準(zhǔn)讀取圖像中特定區(qū)域的文本,以及(下圖)通過互聯(lián)網(wǎng)搜索回答多跳問題。

同時,為了評估模型的工具調(diào)用和多模態(tài)推理能力,團(tuán)隊(duì)構(gòu)建了智能體評測基準(zhǔn) MAT-Bench (Multimodal Agentic Tool Bench)。測試結(jié)果顯示,Visual-ARFT 在多個子任務(wù)中全面超越 GPT-4o,通過調(diào)用工具 ——「寫代碼 + 查資料」,展現(xiàn)出了完成復(fù)雜多模態(tài)視覺任務(wù)的強(qiáng)大潛力。

方法概覽

Visual-ARFT 基于強(qiáng)化微調(diào)的訓(xùn)練策略,使用 GRPO 的算法來更新模型權(quán)重。團(tuán)隊(duì)針對多模態(tài)智能體完成任務(wù)的流程,對 LVLM 的多步工具調(diào)用和問題回答設(shè)計了 rule-based verifiable reward。通過簡單高效的 reward 設(shè)計,驅(qū)動模型自主探索工具的使用方法和思考模式。

團(tuán)隊(duì)在訓(xùn)練中使用幾十到最多 1.2k 的訓(xùn)練數(shù)據(jù),通過少量數(shù)據(jù)實(shí)現(xiàn)了對模型的多模態(tài)智能體能力的訓(xùn)練。

圖片

圖 2. Visual-ARFT 框圖。主要針對 Agentic Search 和 Agentic Coding 兩類任務(wù)的多步推理和工具調(diào)用能力進(jìn)行優(yōu)化。

Visual-ARFT 針對以下兩類高難度任務(wù)場景進(jìn)行強(qiáng)化訓(xùn)練:

  • Agentic Search:模型面對多模態(tài)的多跳復(fù)雜問題,先對視覺信息進(jìn)行分析和推理,然后能夠主動進(jìn)行任務(wù)分解、規(guī)劃信息檢索路徑,通過調(diào)用搜索引擎獲取外部知識并整合作答。
  • Agentic Coding:模型面對模糊、旋轉(zhuǎn)、曝光過強(qiáng)等復(fù)雜圖像,能主動生成 Python 代碼完成圖像修復(fù),或剪裁圖像,提取關(guān)鍵區(qū)域,并據(jù)此完成視覺問答。

在這一過程中,模型并非簡單輸出結(jié)果,而是具備完整的推理結(jié)構(gòu):

每一步都以 <think> 思考引導(dǎo)、<search> 檢索信息、<code> 編寫程序、<answer> 給出結(jié)論,真正形成可解釋的多模態(tài)認(rèn)知路徑。

MAT 基準(zhǔn)

團(tuán)隊(duì)發(fā)布了全新的多模態(tài)智能體評測基準(zhǔn):MAT(Multimodal Agentic Tool Bench),專門評估多模態(tài)工具調(diào)用能力:

  • MAT-Search:包含 150 道多跳視覺問答任務(wù),人工標(biāo)注 + 搜索推理;
  • MAT-Coding:包含 200 道復(fù)雜圖像問答任務(wù)。模型可以直接作答或通過調(diào)用代碼工具處理圖像,輔助作答。

這一基準(zhǔn)填補(bǔ)了當(dāng)前開源模型在「多模態(tài)智能體以及工具調(diào)用」方面的評估空白。

圖片

圖 3. MAT 數(shù)據(jù)標(biāo)注過程。MAT-Search 采用人工標(biāo)注方法構(gòu)建多模態(tài)多跳推理 VQA 數(shù)據(jù),MAT-Coding 采用自動化流程構(gòu)造針對 Agentic Coding 任務(wù)的 VQA 數(shù)據(jù)。

Visual-ARFT 實(shí)驗(yàn)結(jié)果

團(tuán)隊(duì)基于 Qwen2.5-VL 模型在 MAT 上對本文方法進(jìn)行了測試。結(jié)果顯示,無論在 MAT-Search 還是在 MAT-Coding 上,本文方法都較 baseline 有了顯著的提升,并擊敗了 GPT-4o 模型。

相較于 baseline 模型直接推理的方式,本文方法通過讓 LVLM 學(xué)會推理與調(diào)用工具,在解決復(fù)雜的多模態(tài)任務(wù)時,更加的得心應(yīng)手。此外,團(tuán)隊(duì)觀察到 OpenAI-o3 模型在一眾開源閉源中取得了遙遙領(lǐng)先的性能,尤其是在 MAT-Coding 上,憑借其多模態(tài)推理和工具調(diào)用能力,斷層式超越了 GPT-4o 模型。

圖片

表 1. MAT 測試結(jié)果。 Visual-ARFT 相較 baseline 取得了顯著性能提升,擊敗 GPT-4o。開閉源模型距離 OpenAI-o3 模型存在較大性能差距。

為了測試本文方法的泛化能力,團(tuán)隊(duì)選取了 4 個 Out of Domain 的傳統(tǒng) MultihopQA Benchmark 來測試他們的模型,包括 2wikimlutihopQA,HotpotQA,MuSiQue 和 Bamboogle。

結(jié)果顯示基于 Visual-ARFT 的 Qwen2.5-VL 模型雖然僅僅使用幾十條數(shù)據(jù)進(jìn)行訓(xùn)練,但是模型獲得在這些多跳推理數(shù)據(jù)集上展現(xiàn)出了顯著的性能提升,并擊敗了其他基于強(qiáng)化學(xué)習(xí)的方法。

圖片

表 2. 傳統(tǒng) MultihopQA 測試結(jié)果。團(tuán)隊(duì)在 Out of Domain 的多個 multihopQA 上測試了本文方法,展現(xiàn)出 Visual-ARFT 的強(qiáng)大泛化能力。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-05-23 13:59:41

RustPython程序

2022-10-12 08:05:04

PlantUML代碼運(yùn)行環(huán)境

2022-12-21 15:56:23

代碼文檔工具

2021-04-13 22:30:17

SpringBoot日志微服務(wù)

2023-02-15 08:17:20

VSCodeTypeScrip

2023-03-06 09:20:53

扁平化管理代碼

2017-05-22 10:33:14

PythonJuliaCython

2011-10-24 13:07:00

2021-04-23 15:13:16

算法模型技術(shù)

2024-11-13 09:39:13

2024-07-23 10:34:57

2023-09-22 11:56:57

模型駕駛

2009-12-08 18:06:12

戴爾存儲動車組

2025-05-19 08:24:29

圖片加載開發(fā)

2009-12-08 14:26:13

大型網(wǎng)絡(luò)運(yùn)維

2022-07-12 14:56:30

AI模型研究

2025-04-23 08:30:05

2020-01-09 17:03:29

人工智能技術(shù)算法

2022-07-28 14:46:01

人工智能機(jī)器人計算機(jī)科學(xué)

2023-04-05 14:19:07

FlinkRedisNoSQL
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美aaaaa| 精品一二区 | 日韩欧美三区 | 午夜视频精品 | 精品1区2区| 日韩av一区二区在线观看 | 国产成人精品视频在线观看 | 国产在线一区二区 | 午夜网站视频 | 国产精品视频一区二区三区 | 久久精品小视频 | 黄色大片在线视频 | a级片播放 | 中文字幕一区二区在线观看 | 亚洲成人动漫在线观看 | 国产a视频 | 久久一二区 | 中文字幕一区二区三区在线乱码 | 国产激情片在线观看 | 亚洲 中文 欧美 日韩 在线观看 | 欧美精品在欧美一区二区少妇 | 国产精品久久久久久久久久三级 | 日p视频免费看 | 91麻豆精品一区二区三区 | 久久久久久久久久久成人 | 日韩高清一区 | 日本不卡一区 | 精品久久久久久久久久久久 | 亚洲视频二区 | 中文字幕av在线一二三区 | 国产日韩精品一区 | 亚洲精品中文字幕在线观看 | 精品成人在线视频 | caoporn地址 | 日韩福利在线 | 少妇一级淫片免费播放 | 羞羞视频网页 | 久久精品免费观看 | 精品国产乱码久久久久久中文 | 插插宗合网 | 日韩一区二区三区在线视频 |