成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準

發(fā)布于 2025-6-9 22:40
瀏覽
0收藏

RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

2025-06-04|BUAA, PKU, BAAI|??32

??http://arxiv.org/abs/2506.04308v1???
???https://huggingface.co/papers/2506.04308???
???https://zhoues.github.io/RoboRefer/??

研究背景與意義

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

  • 問題定義與現(xiàn)狀

空間指稱是機器人理解并與三維物理世界交互的基礎(chǔ)能力。盡管現(xiàn)有預訓練視覺語言模型(VLMs)在二維視覺任務(wù)上表現(xiàn)優(yōu)異,但它們在復雜三維場景的空間理解和動態(tài)推理方面仍存在顯著不足,尤其是在處理多步驟空間推理時能力有限。

  • 挑戰(zhàn)與目標

當前方法通常依賴昂貴的三維重建或?qū)⑸疃纫暈槎S圖像輸入,導致模態(tài)干擾和性能下降。此外,缺乏大規(guī)模支持多步驟空間推理的數(shù)據(jù)集,限制了模型的推理能力和泛化能力。本研究旨在構(gòu)建一個3D感知的視覺語言模1型,能夠?qū)崿F(xiàn)精準的單步空間理解與泛化強的多步驟空間推理,推動機器人在復雜環(huán)境中的高效空間指稱。

研究方法與創(chuàng)新

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

  • 模型架構(gòu)設(shè)計

RoboRefer采用獨立的RGB和深度編碼器,避免了模態(tài)干擾問題,且深度編碼器通過監(jiān)督微調(diào)(SFT)專門強化空間感知能力。此設(shè)計保證了預訓練圖像編碼器的穩(wěn)定性,同時提升了對深度信息的利用效率。

  • 訓練策略創(chuàng)新

采用兩階段訓練:

a.監(jiān)督微調(diào)(SFT),結(jié)合大規(guī)模RefSpatial數(shù)據(jù)集,強化模型的單步空間理解能力,并通過顯式的多步驟推理注釋提供初步的推理能力。

b.強化微調(diào)(RFT),引入基于多步驟推理過程的度量敏感獎勵函數(shù),顯著提升模型對復雜空間指稱任務(wù)的推理精度和泛化能力。

  • 數(shù)據(jù)集構(gòu)建

RefSpatial數(shù)據(jù)集融合了2D網(wǎng)絡(luò)圖像、3D實體視頻和模擬環(huán)境數(shù)據(jù),涵蓋31種豐富的空間關(guān)系,支持單步及多步驟空間推理。該數(shù)據(jù)集不僅規(guī)模龐大(2.5M樣本,20M問答對),還包含詳細的推理過程注釋,填補了現(xiàn)有數(shù)據(jù)集在多步驟空間指稱任務(wù)上的空白。

  • 理論基礎(chǔ)與優(yōu)勢

通過分離編碼器和分階段訓練策略,有效解決了模態(tài)干擾和推理泛化難題。度量敏感的獎勵設(shè)計使模型能夠在推理過程中逐步優(yōu)化中間步驟的準確性,提升了復雜空間指稱的整體性能。

實驗設(shè)計與結(jié)果分析

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

  • 實驗設(shè)計

評估涵蓋單步空間理解(CV-Bench、BLINK等)、多步驟空間指稱(RefSpatial-Bench)以及機器人操作和導航任務(wù)。對比了多種最新視覺語言模型和空間專家模型,驗證了RoboRefer在不同任務(wù)和輸入模態(tài)(RGB與RGB-D)下的表現(xiàn)。

  • 關(guān)鍵結(jié)果

a.SFT階段的RoboRefer在單步空間理解任務(wù)中達到了89.6%的平均成功率,超越了多項現(xiàn)有頂尖模型。

b.RFT階段進一步提升性能,在多步驟空間指稱的RefSpatial-Bench上,平均準確率領(lǐng)先第二名Gemini-2.5-Pro達17.4%。

c.在未見過的空間關(guān)系組合上,RFT模型表現(xiàn)優(yōu)于SFT,顯示出更強的泛化能力。

d.機器人實地測試中,RoboRefer成功執(zhí)行復雜的空間指稱任務(wù),實現(xiàn)了動態(tài)環(huán)境下的精準操控和導航,且響應(yīng)速度快,執(zhí)行效率高。

  • 統(tǒng)計與多場景表現(xiàn)

實驗覆蓋室內(nèi)外多樣場景,涉及多機器人平臺(UR5機械臂、G1人形機器人),結(jié)果顯示模型具有良好的跨場景和跨任務(wù)適應(yīng)性,且深度信息的引入顯著提升了三維空間理解能力。

結(jié)論與展望

  • 貢獻總結(jié)

本文提出了RoboRefer——首個結(jié)合獨立深度編碼器及強化微調(diào)的3D感知視覺語言模型,實現(xiàn)了從精準單步空間理解到泛化多步驟空間推理的跨越。構(gòu)建了大規(guī)模高質(zhì)量的RefSpatial數(shù)據(jù)集及相應(yīng)基準測試,推動了空間指稱領(lǐng)域的數(shù)據(jù)資源發(fā)展。實驗充分驗證了方法的有效性及其在機器人實際任務(wù)中的應(yīng)用潛力。

  • 局限性分析

盡管取得顯著進展,模型在極端復雜場景和實時推理速度上仍有提升空間。數(shù)據(jù)集雖大,但仍需擴展更多樣化的環(huán)境和任務(wù)類型以增強泛化。強化學習階段計算資源需求較高,限制了更大模型的訓練。

  • 未來展望

未來研究可探索更高效的多模態(tài)融合機制和輕量級推理架構(gòu),以支持實時復雜環(huán)境下的空間指稱。擴展數(shù)據(jù)集至更多實際應(yīng)用場景,結(jié)合多傳感器信息融合,提升模型的魯棒性和適應(yīng)性。同時,進一步深化對多步驟空間推理機制的理解,推動機器人智能交互能力邁向更高水平。

Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights

2025-06-03|H, Alphabetical|??27

??http://arxiv.org/abs/2506.02865v1???
???https://huggingface.co/papers/2506.02865???
???https://www.hcompany.ai/??

研究背景與意義

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

  • 問題定義與現(xiàn)狀概述:當前大型語言模型(LLMs)在推理和問題解決方面表現(xiàn)卓越,但受限于靜態(tài)預訓練數(shù)據(jù),無法實時執(zhí)行動作或獲取最新信息,限制了其在動態(tài)網(wǎng)絡(luò)環(huán)境中的應(yīng)用能力。
  • 挑戰(zhàn)指出:傳統(tǒng)增強LLMs的工具使用能力依賴于預定義接口,擴展性受限;而直接通過圖形用戶界面(GUI)與軟件交互的新范式尚面臨復雜界面元素定位和任務(wù)執(zhí)行的挑戰(zhàn)。
  • 目標闡明:本文旨在開發(fā)一個成本效益高且通用的視覺語言模型(VLM)驅(qū)動的網(wǎng)頁代智能體urfer-H,結(jié)合新穎的Holo1模型和WebClick基準,實現(xiàn)高效、準確的網(wǎng)頁與信息提取,推動智能代理在真實網(wǎng)絡(luò)環(huán)境中的實用性。

研究方法與創(chuàng)新

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

  • 技術(shù)架構(gòu)描述:Surfer-H由策略模塊(policy)、定位器(localizer)和驗證器(validator)三部分組成,協(xié)同作用于網(wǎng)頁截圖,實現(xiàn)動作決策、界面元素定位及答案驗證,支持多輪交互和反饋機制。
  • 創(chuàng)新點突出

a.Holo1模型家族:專為網(wǎng)頁導航和信息提取任務(wù)設(shè)計的輕量級VLM,融合多樣化訓練數(shù)據(jù)(真實網(wǎng)頁、合成界面、代理行為軌跡等),實現(xiàn)跨界面泛化和精確定位。

b.多模態(tài)訓練策略:結(jié)合視覺、語言與行為軌跡數(shù)據(jù),采用離線強化學習和行為克隆,提升模型對復雜網(wǎng)頁狀態(tài)的理解和決策能力。

c.WebClick基準:首次引入專門針對網(wǎng)頁UI元素定位的公開數(shù)據(jù)集,涵蓋多樣化網(wǎng)頁和日歷等復雜組件,推動定位技術(shù)標準化評測。

  • 優(yōu)勢解釋與對比

       a.Holo1在多個公開及新建基準上超越同規(guī)模競品,兼具性能與成本優(yōu)勢。

       b.Surfer-H結(jié)合Holo1實現(xiàn)了WebVoyager任務(wù)中92.2%的最優(yōu)準確率,同時保持較低推理成本,優(yōu)于現(xiàn)有主流系統(tǒng)。

實驗設(shè)計與結(jié)果分析

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

  • 實驗設(shè)計

a.在多項UI定位基準(Screenspot系列、GroundUI-Web及WebClick)上評測Holo1不同規(guī)模模型,比較同類先進模型表現(xiàn)。

b.在WebVoyager綜合任務(wù)集上,測試Surfer-H結(jié)合不同策略、定位器和驗證器模塊的性能,統(tǒng)計成功率與推理成本,分析嘗試次數(shù)對效果的影響。

c.評估模型在不同訓練數(shù)據(jù)組合下的泛化能力,特別是跨域與專域任務(wù)的表現(xiàn)差異。

  • 結(jié)果分析

      a.Holo1-3B與7B在定位準確率上均領(lǐng)先競品,7B模型表現(xiàn)更優(yōu),體現(xiàn)良好擴展性。

      b.Surfer-H搭載Holo1策略和GPT-4o驗證器,在10次嘗試內(nèi)達成92.2%準確率,成本僅為主流競品的四分之一,呈現(xiàn)Pareto最優(yōu)解。

      c.純Holo1驅(qū)動的驗證器雖然降低成本,但性能有所下降,表明驗證任務(wù)復雜,需更大模型能力支持。

      d.訓練包含豐富代理軌跡數(shù)據(jù)顯著提升模型在未見任務(wù)上的表現(xiàn),驗證了跨域與專域結(jié)合訓練的必要性。

結(jié)論與展望

  • 貢獻總結(jié)

a.本文提出的Surfer-H及Holo1模型家族實現(xiàn)了高效、精準的網(wǎng)頁代理系統(tǒng),填補了現(xiàn)有LLM在動態(tài)網(wǎng)頁交互中的空缺。

b.新引入的WebClick基準為網(wǎng)頁UI定位提供了標準化評測工具,促進相關(guān)領(lǐng)域研究進步。

c.通過多模態(tài)、大規(guī)模、多樣化訓練數(shù)據(jù)及模塊化設(shè)計,兼顧了性能和成本,推動智能代理技術(shù)向?qū)嶋H應(yīng)用邁進。

  • 局限性分析

      a.驗證模塊性能仍有提升空間,表明復雜任務(wù)的多模態(tài)推理和反饋機制需要更強模型支持。

      b.訓練數(shù)據(jù)雖豐富,但仍依賴于合成及代理軌跡,真實世界多樣性和動態(tài)變化可能帶來挑戰(zhàn)。

  • 未來展望

      a.進一步優(yōu)化驗證模塊,探索更高效的多模態(tài)推理策略,提升整體系統(tǒng)魯棒性。

      b.拓展訓練數(shù)據(jù)覆蓋更多實際場景和動態(tài)網(wǎng)頁,增強模型泛化能力。

      c.推動開放源代碼與數(shù)據(jù)集共享,促進社區(qū)合作,加速智能網(wǎng)頁代理技術(shù)的發(fā)展與應(yīng)用普及。

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos

2025-06-05|MBZUAI, UC Merced, Google, ANU, Link?ping U|??21

??http://arxiv.org/abs/2506.05349v1???
???https://huggingface.co/papers/2506.05349???
???https://mbzuai-oryx.github.io/VideoMathQA??

研究背景與意義

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

  • 問題定義與挑戰(zhàn)

傳統(tǒng)數(shù)學推理研究多集中于靜態(tài)圖像或文本環(huán)境,然而視頻中數(shù)學推理面臨獨特挑戰(zhàn):需要解析細粒度的視覺信息,準確識別手寫或數(shù)字文本,并整合分散且非線性出現(xiàn)的語音提示。成功的推理不僅依賴感知能力,更需在豐富且嘈雜的多模態(tài)信息流中精準篩選并整合關(guān)鍵上下文細節(jié)。

  • 現(xiàn)有研究不足

現(xiàn)有數(shù)學推理基準多局限于靜態(tài)圖像或文本,缺乏對動態(tài)、時序和多模態(tài)信息的綜合評估。視頻問答領(lǐng)域雖有進展,但未針對數(shù)學問題的多模態(tài)、多步驟推理進行深入探討,且多依賴合成數(shù)據(jù)或狹窄任務(wù),缺乏細致推理注釋,難以判斷模型是否真正理解。

  • 研究目標

本文旨在通過引入VideoMathQA基準,系統(tǒng)評估模型在視頻中進行跨模態(tài)、時序延展的深度數(shù)學推理能力。該基準覆蓋10個數(shù)學領(lǐng)域,視頻時長從數(shù)秒到數(shù)小時,結(jié)合視覺、語音和文本信息,設(shè)計三大推理場景:直接問題解決、概念遷移和深度教學理解,輔以細粒度推理步驟注釋,實現(xiàn)對模型推理過程的精細診斷。

研究方法與創(chuàng)新

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

  • 技術(shù)框架

VideoMathQA構(gòu)建了一個包含420對真實視頻-問題對的多模態(tài)數(shù)學推理數(shù)據(jù)集。視頻涵蓋多種教學資源,包括白板講解、數(shù)字幻燈片、動畫圖表等,問題設(shè)計需模型跨越視覺、語音及文本模態(tài),進行多步驟推理。每個問題配備4-10步專家標注的推理軌跡,支持細粒度評估。

  • 創(chuàng)新點詳解

a.多模態(tài)時序推理挑戰(zhàn):視頻中數(shù)學信息非線性展開,要求模型具備動態(tài)視覺理解(高分辨率幀OCR)、語音文本對齊及跨模態(tài)聯(lián)合推理能力,突破傳統(tǒng)靜態(tài)圖像或文本基準的局限。

b.三類推理任務(wù)設(shè)計:涵蓋直接觀察推理、概念遷移應(yīng)用和長時多步驟教學理解,全面模擬真實教學場景下的數(shù)學思維過程。

c.細粒度推理注釋與評估機制:通過專家分階段標注推理步驟,模型不僅需給出最終答案,更需展現(xiàn)合理的推理路徑,支持中間推理質(zhì)量和錯誤類型的深入分析。

d.多樣化數(shù)學領(lǐng)域與視頻時長:覆蓋幾何、統(tǒng)計、拓撲、圖論等10大領(lǐng)域,視頻長度從10秒至1小時,兼顧短期感知與長期依賴能力評估。

e.嚴格的視頻篩選與標注流程:結(jié)合自動篩選與專家人工復核,確保視頻內(nèi)容富含時序動態(tài)與多模態(tài)信息,問題設(shè)計避免依賴單一模態(tài),保證數(shù)據(jù)質(zhì)量和挑戰(zhàn)性。

  • 優(yōu)勢比較

相較于現(xiàn)有視頻問答及數(shù)學推理基準,VideoMathQA突破了靜態(tài)與單模態(tài)限制,強調(diào)多模態(tài)信息的時序整合和深層推理,提供了更具挑戰(zhàn)性的評測平臺和更豐富的推理注釋,填補了視頻數(shù)學推理領(lǐng)域的空白。

實驗設(shè)計與結(jié)果分析

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

  • 實驗設(shè)置

評測涵蓋30款模型,包括5個專有多模態(tài)大模型(如Claude-3.7-sonnet、GPT-4o、Gemini系列)及25個開源模型,參數(shù)規(guī)模從數(shù)十億到數(shù)百億不等。采用多種評估策略:多項選擇題(MCQ)、多二元選擇(MBin)、鏈式思維推理(CoT)及步驟級推理質(zhì)量評估。

  • 關(guān)鍵發(fā)現(xiàn)

a.模型性能整體較低:所有模型在VideoMathQA上的表現(xiàn)均遠低于理想水平,表明視頻數(shù)學推理的復雜性顯著超出現(xiàn)有模型能力。

b.多模態(tài)融合與時序推理難點突出:模型常因遺漏關(guān)鍵幀、符號或語音細節(jié)而推理失敗,顯示出對長時序多模態(tài)信息整合的不足。

c.模型規(guī)模與架構(gòu)影響顯著:總體上,模型規(guī)模越大性能越好,尤其是在CoT推理設(shè)置中表現(xiàn)更佳;但新穎架構(gòu)和訓練策略能使小模型超越舊大型模型,說明質(zhì)量與規(guī)模同等重要。

d.專有模型與開源模型差距縮小:最新開源模型在多項指標上已接近甚至超越部分專有模型,顯示開源生態(tài)快速進步。

e.字幕信息提升性能:提供字幕輔助輸入顯著提升模型理解和推理效果,體現(xiàn)多模態(tài)信息互補價值。

f.細粒度推理評估揭示缺陷:步驟級評估顯示模型推理過程多存在邏輯跳躍和錯誤,提示未來改進方向應(yīng)聚焦推理鏈條的完整性和準確性。

結(jié)論與展望

  • 研究貢獻總結(jié)

VideoMathQA首次系統(tǒng)構(gòu)建了一個涵蓋多模態(tài)、多時序、跨領(lǐng)域的數(shù)學視頻推理基準,設(shè)計了三大核心推理任務(wù),配備細致的推理步驟注釋和多維度評估指標。通過廣泛模型評測,揭示了當前多模態(tài)大模型在視頻數(shù)學推理中的顯著不足和挑戰(zhàn)。

  • 局限性分析

盡管數(shù)據(jù)集涵蓋廣泛數(shù)學領(lǐng)域與視頻類型,但樣本總量有限,且標注成本高昂限制了規(guī)模擴展。模型評估主要依賴現(xiàn)有公開及專有模型,尚未涵蓋所有可能的多模態(tài)融合與推理架構(gòu)。推理步驟注釋雖細致,但對復雜推理的自動評估仍存在困難。

  • 未來展望

a.數(shù)據(jù)集擴展與多樣化:未來可擴展更多數(shù)學領(lǐng)域與教學資源,豐富問題類型,提升數(shù)據(jù)規(guī)模和多樣性。

b.模型架構(gòu)創(chuàng)新:推動設(shè)計更高效的多模態(tài)時序推理模型,強化長時依賴捕捉與跨模態(tài)信息融合。

c.推理解釋性與可驗證性:加強模型推理鏈的透明度和可解釋性,結(jié)合細粒度注釋推動自動化推理質(zhì)量評估。

d.跨學科應(yīng)用探索:將此類多模態(tài)數(shù)學推理技術(shù)推廣至教育輔助、智能輔導及科學研究等領(lǐng)域,促進人工智能與教育教學的深度融合。

綜上,VideoMathQA為視頻數(shù)學推理領(lǐng)域提供了首個系統(tǒng)化、多維度的評測平臺,推動了多模態(tài)理解與復雜推理技術(shù)的發(fā)展,未來有望成為推動智能數(shù)學教育和科學計算的重要基石。

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

2025-06-05|NJU|??19

??http://arxiv.org/abs/2506.05328v1???
???https://huggingface.co/papers/2506.05328???
???https://av-reasoner.github.io??

研究背景與意義

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

  • 研究背景:當前多模態(tài)大語言模型(MLLMs)在視頻理解領(lǐng)域取得了顯著進展,但在精細化任務(wù)如計數(shù)方面表現(xiàn)依然有限。計數(shù)任務(wù)要求模型具備精確的時空定位能力,能夠跨幀或場景識別并累積目標實例,這對模型的視覺、聽覺和語言對齊能力提出了嚴峻挑戰(zhàn)。
  • 存在問題:現(xiàn)有計數(shù)基準測試多為短視頻,查詢類型封閉,缺乏線索注釋,且多聚焦單一模態(tài),限制了模型綜合推理能力的評估。
  • 研究意義:提出了CG-AV-Counting,一個涵蓋497個長視頻、1027個多模態(tài)問題及5845條線索注釋的計數(shù)基準,支持黑盒(端到端)與白盒(推理過程)雙重評估,填補了長視頻多模態(tài)計數(shù)評測的空白,推動多模態(tài)計數(shù)能力的全面提升。

研究方法與創(chuàng)新

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

  • 技術(shù)描述:基于Ola-Omni模型,提出AV-Reasoner,通過結(jié)合GRPO強化學習算法和課程學習策略,訓練模型逐步掌握音視頻理解、時空定位及計數(shù)能力。訓練涵蓋多數(shù)據(jù)集的問答(AVQA)、時空定位(AVTG、ARIG)和計數(shù)任務(wù),設(shè)計了多樣化的可驗證獎勵函數(shù)(格式正確性、IoU、相對MAE等)以引導模型生成結(jié)構(gòu)化且準確的輸出。
  • 創(chuàng)新點

a.引入細粒度線索注釋,支持白盒評估,提升計數(shù)任務(wù)的可解釋性。

b.設(shè)計分階段課程學習和階段回顧機制,緩解任務(wù)間遺忘,促進技能的穩(wěn)定遷移和累積。

c.利用強化學習優(yōu)化模型在多模態(tài)計數(shù)任務(wù)中的推理策略,而非僅依賴標注數(shù)據(jù),增強模型的泛化能力。

  • 優(yōu)勢解釋:該方法突破了傳統(tǒng)依賴大量計數(shù)標注數(shù)據(jù)的限制,通過任務(wù)相關(guān)性的能力遷移和策略優(yōu)化,顯著提升了模型在復雜長視頻多模態(tài)計數(shù)任務(wù)中的表現(xiàn),且具備良好的跨任務(wù)適應(yīng)性和輸出格式控制能力。
  • 與現(xiàn)有方法對比:相比以往短視頻、單模態(tài)或無線索注釋的基準,CG-AV-Counting提供更豐富的多模態(tài)、多目標計數(shù)場景,AV-Reasoner在多個音視頻理解和計數(shù)基準上均實現(xiàn)了領(lǐng)先性能,充分體現(xiàn)了強化學習與課程學習結(jié)合的優(yōu)勢。

實驗設(shè)計與結(jié)果分析

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準-AI.x社區(qū)

  • 實驗設(shè)計:評測涵蓋黑盒長視頻端到端計數(shù)、參考區(qū)間計數(shù)及白盒推理計數(shù),使用準確率、偏差一計準確率、平均絕對誤差、均方根誤差及白盒計數(shù)評分(結(jié)合定位與計數(shù)準確性)等多維指標,全面衡量模型性能。
  • 結(jié)果分析

a.所有模型在計數(shù)任務(wù)上均遠低于人類水平,表明該任務(wù)的挑戰(zhàn)性。

b.關(guān)閉源模型普遍優(yōu)于開源模型,Gemini 2.5 Pro/Flash表現(xiàn)最佳,顯示多模態(tài)融合的潛力。

c.開源音視頻模型未必優(yōu)于視覺單模態(tài)模型,原因在于音視頻對齊不佳和缺乏針對性訓練。

c.AV-Reasoner通過GRPO訓練和課程學習顯著提升計數(shù)準確率和推理質(zhì)量,尤其在白盒評測中表現(xiàn)出更強的因果解釋能力。

e.采用顯式推理輸出的模型版本在部分任務(wù)表現(xiàn)更優(yōu),驗證了推理過程的透明性對性能的促進作用。

  • 統(tǒng)計顯著性:提升幅度覆蓋多個基準和指標,且通過多輪訓練與樣本篩選機制保證結(jié)果的穩(wěn)定性和泛化性。
  • 多場景表現(xiàn):模型在涵蓋體育、生活記錄、幽默、教程等十余類長視頻中均表現(xiàn)出較強的適應(yīng)能力,驗證了方法的廣泛適用性。

結(jié)論與展望

  • 總結(jié)貢獻:本文提出了首個支持多模態(tài)長視頻計數(shù)的細粒度線索基準CG-AV-Counting,設(shè)計了結(jié)合強化學習與課程學習的AV-Reasoner模型,有效提升了MLLM在復雜計數(shù)任務(wù)中的性能和解釋能力,推動了多模態(tài)計數(shù)研究向更高精度和更強泛化邁進。
  • 局限分析:當前模型在跨域泛化和音視頻對齊方面仍存在不足,計數(shù)任務(wù)中對精確時空定位和多模態(tài)融合的需求尚未完全滿足,推理輸出格式控制仍需進一步優(yōu)化。
  • 未來展望

a.加強音視頻同步與多模態(tài)特征融合技術(shù),提升模型對動態(tài)環(huán)境的感知能力。

b.探索更多樣化的訓練策略和獎勵設(shè)計,促進模型推理能力的進一步增強。

c.拓展基準數(shù)據(jù)集規(guī)模和多樣性,涵蓋更多實際應(yīng)用場景,推動模型實用化。

d.深入研究模型推理過程的可解釋性與可控性,提升模型在實際部署中的可靠性和透明度。

本文轉(zhuǎn)載自??AI研究前瞻??,作者:胡耀淇


已于2025-6-10 09:46:48修改
收藏
回復
舉報
回復
相關(guān)推薦
主站蜘蛛池模板: 欧美日韩综合一区 | 福利色导航 | 日韩一区二区成人 | 中文字幕av在线播放 | 成人在线观看免费视频 | 男人天堂网址 | 欧美性一区二区三区 | 久精品视频 | 天堂色网 | 欧美在线视频一区二区 | 久久精品小视频 | 久久久av一区 | 成年人在线电影 | 日韩亚洲一区二区 | av片免费| 国产色爽 | 日韩美女一区二区三区在线观看 | 国产伦精品一区二区三区照片91 | 99色视频| 精久久久久 | 91av在线电影| 久久精品在线免费视频 | 成人影院在线视频 | 在线播放国产视频 | 国产一区在线免费观看视频 | 成人免费毛片在线观看 | 欧美国产精品久久久 | 午夜视频网站 | 日韩成人在线看 | 欧美精品久久久久久 | 免费一级欧美在线观看视频 | 国产九九精品 | 欧美一级二级视频 | 亚洲一区二区黄 | 日韩欧美在线精品 | 伊人伊成久久人综合网站 | 97精品视频在线 | 成人国产精品色哟哟 | 亚洲视频中文字幕 | 全部免费毛片在线播放网站 | 狠狠操狠狠干 |