成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<li id="qogyq"></li><li id="qogyq"><tbody id="qogyq"></tbody></li><button id="qogyq"></button>

<dl id="qogyq"></dl>

<rt id="qogyq"></rt>

<rt id="qogyq"></rt>

<rt id="qogyq"></rt>

<li id="qogyq"><dl id="qogyq"></dl></li>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準

發(fā)布于 2025-6-9 22:40

瀏覽

0收藏

RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

2025-06-04｜BUAA, PKU, BAAI|??32

??http://arxiv.org/abs/2506.04308v1???
???https://huggingface.co/papers/2506.04308???
???https://zhoues.github.io/RoboRefer/??

研究背景與意義

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

問題定義與現(xiàn)狀

空間指稱是機器人理解并與三維物理世界交互的基礎(chǔ)能力。盡管現(xiàn)有預訓練視覺語言模型（VLMs）在二維視覺任務(wù)上表現(xiàn)優(yōu)異，但它們在復雜三維場景的空間理解和動態(tài)推理方面仍存在顯著不足，尤其是在處理多步驟空間推理時能力有限。

挑戰(zhàn)與目標

當前方法通常依賴昂貴的三維重建或?qū)⑸疃纫暈槎S圖像輸入，導致模態(tài)干擾和性能下降。此外，缺乏大規(guī)模支持多步驟空間推理的數(shù)據(jù)集，限制了模型的推理能力和泛化能力。本研究旨在構(gòu)建一個3D感知的視覺語言模1型，能夠?qū)崿F(xiàn)精準的單步空間理解與泛化強的多步驟空間推理，推動機器人在復雜環(huán)境中的高效空間指稱。

研究方法與創(chuàng)新

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

模型架構(gòu)設(shè)計

RoboRefer采用獨立的RGB和深度編碼器，避免了模態(tài)干擾問題，且深度編碼器通過監(jiān)督微調(diào)（SFT）專門強化空間感知能力。此設(shè)計保證了預訓練圖像編碼器的穩(wěn)定性，同時提升了對深度信息的利用效率。

訓練策略創(chuàng)新

采用兩階段訓練：

a.監(jiān)督微調(diào)（SFT），結(jié)合大規(guī)模RefSpatial數(shù)據(jù)集，強化模型的單步空間理解能力，并通過顯式的多步驟推理注釋提供初步的推理能力。

b.強化微調(diào)（RFT），引入基于多步驟推理過程的度量敏感獎勵函數(shù)，顯著提升模型對復雜空間指稱任務(wù)的推理精度和泛化能力。

數(shù)據(jù)集構(gòu)建

RefSpatial數(shù)據(jù)集融合了2D網(wǎng)絡(luò)圖像、3D實體視頻和模擬環(huán)境數(shù)據(jù)，涵蓋31種豐富的空間關(guān)系，支持單步及多步驟空間推理。該數(shù)據(jù)集不僅規(guī)模龐大（2.5M樣本，20M問答對），還包含詳細的推理過程注釋，填補了現(xiàn)有數(shù)據(jù)集在多步驟空間指稱任務(wù)上的空白。

理論基礎(chǔ)與優(yōu)勢

通過分離編碼器和分階段訓練策略，有效解決了模態(tài)干擾和推理泛化難題。度量敏感的獎勵設(shè)計使模型能夠在推理過程中逐步優(yōu)化中間步驟的準確性，提升了復雜空間指稱的整體性能。

實驗設(shè)計與結(jié)果分析

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

實驗設(shè)計

評估涵蓋單步空間理解（CV-Bench、BLINK等）、多步驟空間指稱（RefSpatial-Bench）以及機器人操作和導航任務(wù)。對比了多種最新視覺語言模型和空間專家模型，驗證了RoboRefer在不同任務(wù)和輸入模態(tài)（RGB與RGB-D）下的表現(xiàn)。

關(guān)鍵結(jié)果

a.SFT階段的RoboRefer在單步空間理解任務(wù)中達到了89.6%的平均成功率，超越了多項現(xiàn)有頂尖模型。

b.RFT階段進一步提升性能，在多步驟空間指稱的RefSpatial-Bench上，平均準確率領(lǐng)先第二名Gemini-2.5-Pro達17.4%。

c.在未見過的空間關(guān)系組合上，RFT模型表現(xiàn)優(yōu)于SFT，顯示出更強的泛化能力。

d.機器人實地測試中，RoboRefer成功執(zhí)行復雜的空間指稱任務(wù)，實現(xiàn)了動態(tài)環(huán)境下的精準操控和導航，且響應(yīng)速度快，執(zhí)行效率高。

統(tǒng)計與多場景表現(xiàn)

實驗覆蓋室內(nèi)外多樣場景，涉及多機器人平臺（UR5機械臂、G1人形機器人），結(jié)果顯示模型具有良好的跨場景和跨任務(wù)適應(yīng)性，且深度信息的引入顯著提升了三維空間理解能力。

結(jié)論與展望

貢獻總結(jié)

本文提出了RoboRefer——首個結(jié)合獨立深度編碼器及強化微調(diào)的3D感知視覺語言模型，實現(xiàn)了從精準單步空間理解到泛化多步驟空間推理的跨越。構(gòu)建了大規(guī)模高質(zhì)量的RefSpatial數(shù)據(jù)集及相應(yīng)基準測試，推動了空間指稱領(lǐng)域的數(shù)據(jù)資源發(fā)展。實驗充分驗證了方法的有效性及其在機器人實際任務(wù)中的應(yīng)用潛力。

局限性分析

盡管取得顯著進展，模型在極端復雜場景和實時推理速度上仍有提升空間。數(shù)據(jù)集雖大，但仍需擴展更多樣化的環(huán)境和任務(wù)類型以增強泛化。強化學習階段計算資源需求較高，限制了更大模型的訓練。

未來展望

未來研究可探索更高效的多模態(tài)融合機制和輕量級推理架構(gòu)，以支持實時復雜環(huán)境下的空間指稱。擴展數(shù)據(jù)集至更多實際應(yīng)用場景，結(jié)合多傳感器信息融合，提升模型的魯棒性和適應(yīng)性。同時，進一步深化對多步驟空間推理機制的理解，推動機器人智能交互能力邁向更高水平。

Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights

2025-06-03｜H, Alphabetical|??27

??http://arxiv.org/abs/2506.02865v1???
???https://huggingface.co/papers/2506.02865???
???https://www.hcompany.ai/??

研究背景與意義

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

問題定義與現(xiàn)狀概述：當前大型語言模型（LLMs）在推理和問題解決方面表現(xiàn)卓越，但受限于靜態(tài)預訓練數(shù)據(jù)，無法實時執(zhí)行動作或獲取最新信息，限制了其在動態(tài)網(wǎng)絡(luò)環(huán)境中的應(yīng)用能力。
挑戰(zhàn)指出：傳統(tǒng)增強LLMs的工具使用能力依賴于預定義接口，擴展性受限；而直接通過圖形用戶界面（GUI）與軟件交互的新范式尚面臨復雜界面元素定位和任務(wù)執(zhí)行的挑戰(zhàn)。
目標闡明：本文旨在開發(fā)一個成本效益高且通用的視覺語言模型（VLM）驅(qū)動的網(wǎng)頁代智能體urfer-H，結(jié)合新穎的Holo1模型和WebClick基準，實現(xiàn)高效、準確的網(wǎng)頁與信息提取，推動智能代理在真實網(wǎng)絡(luò)環(huán)境中的實用性。

研究方法與創(chuàng)新

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

技術(shù)架構(gòu)描述：Surfer-H由策略模塊（policy）、定位器（localizer）和驗證器（validator）三部分組成，協(xié)同作用于網(wǎng)頁截圖，實現(xiàn)動作決策、界面元素定位及答案驗證，支持多輪交互和反饋機制。
創(chuàng)新點突出：

a.Holo1模型家族：專為網(wǎng)頁導航和信息提取任務(wù)設(shè)計的輕量級VLM，融合多樣化訓練數(shù)據(jù)（真實網(wǎng)頁、合成界面、代理行為軌跡等），實現(xiàn)跨界面泛化和精確定位。

b.多模態(tài)訓練策略：結(jié)合視覺、語言與行為軌跡數(shù)據(jù)，采用離線強化學習和行為克隆，提升模型對復雜網(wǎng)頁狀態(tài)的理解和決策能力。

c.WebClick基準：首次引入專門針對網(wǎng)頁UI元素定位的公開數(shù)據(jù)集，涵蓋多樣化網(wǎng)頁和日歷等復雜組件，推動定位技術(shù)標準化評測。

優(yōu)勢解釋與對比：

a.Holo1在多個公開及新建基準上超越同規(guī)模競品，兼具性能與成本優(yōu)勢。

b.Surfer-H結(jié)合Holo1實現(xiàn)了WebVoyager任務(wù)中92.2%的最優(yōu)準確率，同時保持較低推理成本，優(yōu)于現(xiàn)有主流系統(tǒng)。

實驗設(shè)計與結(jié)果分析

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

實驗設(shè)計：

a.在多項UI定位基準（Screenspot系列、GroundUI-Web及WebClick）上評測Holo1不同規(guī)模模型，比較同類先進模型表現(xiàn)。

b.在WebVoyager綜合任務(wù)集上，測試Surfer-H結(jié)合不同策略、定位器和驗證器模塊的性能，統(tǒng)計成功率與推理成本，分析嘗試次數(shù)對效果的影響。

c.評估模型在不同訓練數(shù)據(jù)組合下的泛化能力，特別是跨域與專域任務(wù)的表現(xiàn)差異。

結(jié)果分析：

a.Holo1-3B與7B在定位準確率上均領(lǐng)先競品，7B模型表現(xiàn)更優(yōu)，體現(xiàn)良好擴展性。

b.Surfer-H搭載Holo1策略和GPT-4o驗證器，在10次嘗試內(nèi)達成92.2%準確率，成本僅為主流競品的四分之一，呈現(xiàn)Pareto最優(yōu)解。

c.純Holo1驅(qū)動的驗證器雖然降低成本，但性能有所下降，表明驗證任務(wù)復雜，需更大模型能力支持。

d.訓練包含豐富代理軌跡數(shù)據(jù)顯著提升模型在未見任務(wù)上的表現(xiàn)，驗證了跨域與專域結(jié)合訓練的必要性。

結(jié)論與展望

貢獻總結(jié)：

a.本文提出的Surfer-H及Holo1模型家族實現(xiàn)了高效、精準的網(wǎng)頁代理系統(tǒng)，填補了現(xiàn)有LLM在動態(tài)網(wǎng)頁交互中的空缺。

b.新引入的WebClick基準為網(wǎng)頁UI定位提供了標準化評測工具，促進相關(guān)領(lǐng)域研究進步。

c.通過多模態(tài)、大規(guī)模、多樣化訓練數(shù)據(jù)及模塊化設(shè)計，兼顧了性能和成本，推動智能代理技術(shù)向?qū)嶋H應(yīng)用邁進。

局限性分析：

a.驗證模塊性能仍有提升空間，表明復雜任務(wù)的多模態(tài)推理和反饋機制需要更強模型支持。

b.訓練數(shù)據(jù)雖豐富，但仍依賴于合成及代理軌跡，真實世界多樣性和動態(tài)變化可能帶來挑戰(zhàn)。

未來展望：

a.進一步優(yōu)化驗證模塊，探索更高效的多模態(tài)推理策略，提升整體系統(tǒng)魯棒性。

b.拓展訓練數(shù)據(jù)覆蓋更多實際場景和動態(tài)網(wǎng)頁，增強模型泛化能力。

c.推動開放源代碼與數(shù)據(jù)集共享，促進社區(qū)合作，加速智能網(wǎng)頁代理技術(shù)的發(fā)展與應(yīng)用普及。

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos

2025-06-05｜MBZUAI, UC Merced, Google, ANU, Link?ping U|??21

??http://arxiv.org/abs/2506.05349v1???
???https://huggingface.co/papers/2506.05349???
???https://mbzuai-oryx.github.io/VideoMathQA??

研究背景與意義

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

問題定義與挑戰(zhàn)

傳統(tǒng)數(shù)學推理研究多集中于靜態(tài)圖像或文本環(huán)境，然而視頻中數(shù)學推理面臨獨特挑戰(zhàn)：需要解析細粒度的視覺信息，準確識別手寫或數(shù)字文本，并整合分散且非線性出現(xiàn)的語音提示。成功的推理不僅依賴感知能力，更需在豐富且嘈雜的多模態(tài)信息流中精準篩選并整合關(guān)鍵上下文細節(jié)。

現(xiàn)有研究不足

現(xiàn)有數(shù)學推理基準多局限于靜態(tài)圖像或文本，缺乏對動態(tài)、時序和多模態(tài)信息的綜合評估。視頻問答領(lǐng)域雖有進展，但未針對數(shù)學問題的多模態(tài)、多步驟推理進行深入探討，且多依賴合成數(shù)據(jù)或狹窄任務(wù)，缺乏細致推理注釋，難以判斷模型是否真正理解。

研究目標

本文旨在通過引入VideoMathQA基準，系統(tǒng)評估模型在視頻中進行跨模態(tài)、時序延展的深度數(shù)學推理能力。該基準覆蓋10個數(shù)學領(lǐng)域，視頻時長從數(shù)秒到數(shù)小時，結(jié)合視覺、語音和文本信息，設(shè)計三大推理場景：直接問題解決、概念遷移和深度教學理解，輔以細粒度推理步驟注釋，實現(xiàn)對模型推理過程的精細診斷。

研究方法與創(chuàng)新

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

技術(shù)框架

VideoMathQA構(gòu)建了一個包含420對真實視頻-問題對的多模態(tài)數(shù)學推理數(shù)據(jù)集。視頻涵蓋多種教學資源，包括白板講解、數(shù)字幻燈片、動畫圖表等，問題設(shè)計需模型跨越視覺、語音及文本模態(tài)，進行多步驟推理。每個問題配備4-10步專家標注的推理軌跡，支持細粒度評估。

創(chuàng)新點詳解

a.多模態(tài)時序推理挑戰(zhàn)：視頻中數(shù)學信息非線性展開，要求模型具備動態(tài)視覺理解（高分辨率幀OCR）、語音文本對齊及跨模態(tài)聯(lián)合推理能力，突破傳統(tǒng)靜態(tài)圖像或文本基準的局限。

b.三類推理任務(wù)設(shè)計：涵蓋直接觀察推理、概念遷移應(yīng)用和長時多步驟教學理解，全面模擬真實教學場景下的數(shù)學思維過程。

c.細粒度推理注釋與評估機制：通過專家分階段標注推理步驟，模型不僅需給出最終答案，更需展現(xiàn)合理的推理路徑，支持中間推理質(zhì)量和錯誤類型的深入分析。

d.多樣化數(shù)學領(lǐng)域與視頻時長：覆蓋幾何、統(tǒng)計、拓撲、圖論等10大領(lǐng)域，視頻長度從10秒至1小時，兼顧短期感知與長期依賴能力評估。

e.嚴格的視頻篩選與標注流程：結(jié)合自動篩選與專家人工復核，確保視頻內(nèi)容富含時序動態(tài)與多模態(tài)信息，問題設(shè)計避免依賴單一模態(tài)，保證數(shù)據(jù)質(zhì)量和挑戰(zhàn)性。

優(yōu)勢比較

相較于現(xiàn)有視頻問答及數(shù)學推理基準，VideoMathQA突破了靜態(tài)與單模態(tài)限制，強調(diào)多模態(tài)信息的時序整合和深層推理，提供了更具挑戰(zhàn)性的評測平臺和更豐富的推理注釋，填補了視頻數(shù)學推理領(lǐng)域的空白。

實驗設(shè)計與結(jié)果分析

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

實驗設(shè)置

評測涵蓋30款模型，包括5個專有多模態(tài)大模型（如Claude-3.7-sonnet、GPT-4o、Gemini系列）及25個開源模型，參數(shù)規(guī)模從數(shù)十億到數(shù)百億不等。采用多種評估策略：多項選擇題（MCQ）、多二元選擇（MBin）、鏈式思維推理（CoT）及步驟級推理質(zhì)量評估。

關(guān)鍵發(fā)現(xiàn)

a.模型性能整體較低：所有模型在VideoMathQA上的表現(xiàn)均遠低于理想水平，表明視頻數(shù)學推理的復雜性顯著超出現(xiàn)有模型能力。

b.多模態(tài)融合與時序推理難點突出：模型常因遺漏關(guān)鍵幀、符號或語音細節(jié)而推理失敗，顯示出對長時序多模態(tài)信息整合的不足。

c.模型規(guī)模與架構(gòu)影響顯著：總體上，模型規(guī)模越大性能越好，尤其是在CoT推理設(shè)置中表現(xiàn)更佳；但新穎架構(gòu)和訓練策略能使小模型超越舊大型模型，說明質(zhì)量與規(guī)模同等重要。

d.專有模型與開源模型差距縮小：最新開源模型在多項指標上已接近甚至超越部分專有模型，顯示開源生態(tài)快速進步。

e.字幕信息提升性能：提供字幕輔助輸入顯著提升模型理解和推理效果，體現(xiàn)多模態(tài)信息互補價值。

f.細粒度推理評估揭示缺陷：步驟級評估顯示模型推理過程多存在邏輯跳躍和錯誤，提示未來改進方向應(yīng)聚焦推理鏈條的完整性和準確性。

結(jié)論與展望

研究貢獻總結(jié)

VideoMathQA首次系統(tǒng)構(gòu)建了一個涵蓋多模態(tài)、多時序、跨領(lǐng)域的數(shù)學視頻推理基準，設(shè)計了三大核心推理任務(wù)，配備細致的推理步驟注釋和多維度評估指標。通過廣泛模型評測，揭示了當前多模態(tài)大模型在視頻數(shù)學推理中的顯著不足和挑戰(zhàn)。

局限性分析

盡管數(shù)據(jù)集涵蓋廣泛數(shù)學領(lǐng)域與視頻類型，但樣本總量有限，且標注成本高昂限制了規(guī)模擴展。模型評估主要依賴現(xiàn)有公開及專有模型，尚未涵蓋所有可能的多模態(tài)融合與推理架構(gòu)。推理步驟注釋雖細致，但對復雜推理的自動評估仍存在困難。

未來展望

a.數(shù)據(jù)集擴展與多樣化：未來可擴展更多數(shù)學領(lǐng)域與教學資源，豐富問題類型，提升數(shù)據(jù)規(guī)模和多樣性。

b.模型架構(gòu)創(chuàng)新：推動設(shè)計更高效的多模態(tài)時序推理模型，強化長時依賴捕捉與跨模態(tài)信息融合。

c.推理解釋性與可驗證性：加強模型推理鏈的透明度和可解釋性，結(jié)合細粒度注釋推動自動化推理質(zhì)量評估。

d.跨學科應(yīng)用探索：將此類多模態(tài)數(shù)學推理技術(shù)推廣至教育輔助、智能輔導及科學研究等領(lǐng)域，促進人工智能與教育教學的深度融合。

綜上，VideoMathQA為視頻數(shù)學推理領(lǐng)域提供了首個系統(tǒng)化、多維度的評測平臺，推動了多模態(tài)理解與復雜推理技術(shù)的發(fā)展，未來有望成為推動智能數(shù)學教育和科學計算的重要基石。

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

2025-06-05｜NJU|??19

??http://arxiv.org/abs/2506.05328v1???
???https://huggingface.co/papers/2506.05328???
???https://av-reasoner.github.io??

研究背景與意義

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

研究背景：當前多模態(tài)大語言模型（MLLMs）在視頻理解領(lǐng)域取得了顯著進展，但在精細化任務(wù)如計數(shù)方面表現(xiàn)依然有限。計數(shù)任務(wù)要求模型具備精確的時空定位能力，能夠跨幀或場景識別并累積目標實例，這對模型的視覺、聽覺和語言對齊能力提出了嚴峻挑戰(zhàn)。
存在問題：現(xiàn)有計數(shù)基準測試多為短視頻，查詢類型封閉，缺乏線索注釋，且多聚焦單一模態(tài)，限制了模型綜合推理能力的評估。
研究意義：提出了CG-AV-Counting，一個涵蓋497個長視頻、1027個多模態(tài)問題及5845條線索注釋的計數(shù)基準，支持黑盒（端到端）與白盒（推理過程）雙重評估，填補了長視頻多模態(tài)計數(shù)評測的空白，推動多模態(tài)計數(shù)能力的全面提升。

研究方法與創(chuàng)新

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

技術(shù)描述：基于Ola-Omni模型，提出AV-Reasoner，通過結(jié)合GRPO強化學習算法和課程學習策略，訓練模型逐步掌握音視頻理解、時空定位及計數(shù)能力。訓練涵蓋多數(shù)據(jù)集的問答（AVQA）、時空定位（AVTG、ARIG）和計數(shù)任務(wù)，設(shè)計了多樣化的可驗證獎勵函數(shù)（格式正確性、IoU、相對MAE等）以引導模型生成結(jié)構(gòu)化且準確的輸出。
創(chuàng)新點：

a.引入細粒度線索注釋，支持白盒評估，提升計數(shù)任務(wù)的可解釋性。

b.設(shè)計分階段課程學習和階段回顧機制，緩解任務(wù)間遺忘，促進技能的穩(wěn)定遷移和累積。

c.利用強化學習優(yōu)化模型在多模態(tài)計數(shù)任務(wù)中的推理策略，而非僅依賴標注數(shù)據(jù)，增強模型的泛化能力。

優(yōu)勢解釋：該方法突破了傳統(tǒng)依賴大量計數(shù)標注數(shù)據(jù)的限制，通過任務(wù)相關(guān)性的能力遷移和策略優(yōu)化，顯著提升了模型在復雜長視頻多模態(tài)計數(shù)任務(wù)中的表現(xiàn)，且具備良好的跨任務(wù)適應(yīng)性和輸出格式控制能力。
與現(xiàn)有方法對比：相比以往短視頻、單模態(tài)或無線索注釋的基準，CG-AV-Counting提供更豐富的多模態(tài)、多目標計數(shù)場景，AV-Reasoner在多個音視頻理解和計數(shù)基準上均實現(xiàn)了領(lǐng)先性能，充分體現(xiàn)了強化學習與課程學習結(jié)合的優(yōu)勢。

實驗設(shè)計與結(jié)果分析

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

空間感知的VLM模型；VLM的GUI網(wǎng)頁智能體；數(shù)學視頻QA基準；長視頻計數(shù)基準-AI.x社區(qū)

實驗設(shè)計：評測涵蓋黑盒長視頻端到端計數(shù)、參考區(qū)間計數(shù)及白盒推理計數(shù)，使用準確率、偏差一計準確率、平均絕對誤差、均方根誤差及白盒計數(shù)評分（結(jié)合定位與計數(shù)準確性）等多維指標，全面衡量模型性能。
結(jié)果分析：

a.所有模型在計數(shù)任務(wù)上均遠低于人類水平，表明該任務(wù)的挑戰(zhàn)性。

b.關(guān)閉源模型普遍優(yōu)于開源模型，Gemini 2.5 Pro/Flash表現(xiàn)最佳，顯示多模態(tài)融合的潛力。

c.開源音視頻模型未必優(yōu)于視覺單模態(tài)模型，原因在于音視頻對齊不佳和缺乏針對性訓練。

c.AV-Reasoner通過GRPO訓練和課程學習顯著提升計數(shù)準確率和推理質(zhì)量，尤其在白盒評測中表現(xiàn)出更強的因果解釋能力。

e.采用顯式推理輸出的模型版本在部分任務(wù)表現(xiàn)更優(yōu)，驗證了推理過程的透明性對性能的促進作用。

統(tǒng)計顯著性：提升幅度覆蓋多個基準和指標，且通過多輪訓練與樣本篩選機制保證結(jié)果的穩(wěn)定性和泛化性。
多場景表現(xiàn)：模型在涵蓋體育、生活記錄、幽默、教程等十余類長視頻中均表現(xiàn)出較強的適應(yīng)能力，驗證了方法的廣泛適用性。

結(jié)論與展望

總結(jié)貢獻：本文提出了首個支持多模態(tài)長視頻計數(shù)的細粒度線索基準CG-AV-Counting，設(shè)計了結(jié)合強化學習與課程學習的AV-Reasoner模型，有效提升了MLLM在復雜計數(shù)任務(wù)中的性能和解釋能力，推動了多模態(tài)計數(shù)研究向更高精度和更強泛化邁進。
局限分析：當前模型在跨域泛化和音視頻對齊方面仍存在不足，計數(shù)任務(wù)中對精確時空定位和多模態(tài)融合的需求尚未完全滿足，推理輸出格式控制仍需進一步優(yōu)化。
未來展望：

a.加強音視頻同步與多模態(tài)特征融合技術(shù)，提升模型對動態(tài)環(huán)境的感知能力。

b.探索更多樣化的訓練策略和獎勵設(shè)計，促進模型推理能力的進一步增強。

c.拓展基準數(shù)據(jù)集規(guī)模和多樣性，涵蓋更多實際應(yīng)用場景，推動模型實用化。

d.深入研究模型推理過程的可解釋性與可控性，提升模型在實際部署中的可靠性和透明度。

本文轉(zhuǎn)載自??AI研究前瞻??，作者：胡耀淇

標簽

已于2025-6-10 09:46:48修改

贊

收藏

回復

舉報

回復

相關(guān)推薦

今日arXiv最熱NLP大模型論文：天津大學發(fā)布大模型數(shù)學能力細粒度評價基準FineMath

pangguiyu ? 4363瀏覽 ? 0回復
VideoMamba：用于高效視頻理解的狀態(tài)空間模型

爛漫樹林 ? 4110瀏覽 ? 0回復
TAVGBench: 文本生成語音-視頻最新基準

angel ? 3358瀏覽 ? 0回復
Flames 安全評測基準：大語言模型的對齊效果如何？

戀戀青鳥 ? 4075瀏覽 ? 0回復
考考大模型視頻理解能力，中科院人大百川提出新基準合成框架

Crystalcxt ? 2706瀏覽 ? 0回復
LLMs并非智能思考者：引入數(shù)學主題樹基準來全面評估LLMs

AIRoobt ? 2590瀏覽 ? 0回復
MMLU-Pro：新的 LLM 評估基準

amei2000go ? 1.2w瀏覽 ? 0回復
長視頻生成速度提升100倍！新加坡國立提出Video-Infinity：分布式長視頻生成

angel ? 3297瀏覽 ? 0回復
T-Eval：大模型智能體能力評測基準解讀 | ACL 2024

戀戀青鳥 ? 3939瀏覽 ? 0回復
長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架

angel ? 1.0w瀏覽 ? 0回復
長視頻生成再突破！高質(zhì)量連貫達600幀 | ConFiner：專家鏈加持的免訓練長視頻生成器

angel ? 2668瀏覽 ? 0回復
斯坦福大學：VideoAgent基于大語言模型的視頻QA系統(tǒng)

大語言模型論文跟蹤 ? 2459瀏覽 ? 0回復
DeepSeek-VL2開源，VLM邁入MoE時代！

xuxiangda ? 3434瀏覽 ? 0回復
騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓練的系統(tǒng)框架

Halo咯咯 ? 3505瀏覽 ? 0回復
微軟人工智能研究院推出 OLA-VLM：一種以視覺為中心的優(yōu)化多模態(tài)大型語言模型的方法

Halo咯咯 ? 2850瀏覽 ? 0回復
阿里巴巴Qwen研究員推出ProcessBench：衡量數(shù)學推理過程錯誤識別能力的新AI基準

Halo咯咯 ? 2392瀏覽 ? 0回復
文本生成無限長視頻，無需任何訓練

Aceryt ? 2288瀏覽 ? 0回復
API智能體與GUI智能體：差異與融合，誰才是未來？

十一月雨_55 ? 1579瀏覽 ? 0回復
AI Agent評測基準大揭秘：智能體的“體檢標準”

AIGC新知 ? 2232瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

圖表代碼生成，ChartIR；視頻與文本統(tǒng)一多模態(tài)模型 5天前發(fā)布
跨領(lǐng)域強化學習樣本數(shù)據(jù)集；符號表達的分層推理基準 5天前發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：多模態(tài)推理模型綜述；多模態(tài)多智能體協(xié)同基準；跨模態(tài)，跨領(lǐng)域推理能力泛化

下一篇：跨領(lǐng)域強化學習樣本數(shù)據(jù)集；符號表達的分層推理基準

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：欧美日韩综合一区 | 福利色导航 | 日韩一区二区成人 | 中文字幕av在线播放 | 成人在线观看免费视频 | 男人天堂网址 | 欧美性一区二区三区 | 久精品视频 | 天堂色网 | 欧美在线视频一区二区 | 久久精品小视频 | 久久久av一区 | 成年人在线电影 | 日韩亚洲一区二区 | av片免费| 国产色爽 | 日韩美女一区二区三区在线观看 | 国产伦精品一区二区三区照片91 | 99色视频| 精久久久久 | 91av在线电影| 久久精品在线免费视频 | 成人影院在线视频 | 在线播放国产视频 | 国产一区在线免费观看视频 | 成人免费毛片在线观看 | 欧美国产精品久久久 | 午夜视频网站 | 日韩成人在线看 | 欧美精品久久久久久 | 免费一级欧美在线观看视频 | 国产九九精品 | 欧美一级二级视频 | 亚洲一区二区黄 | 日韩欧美在线精品 | 伊人伊成久久人综合网站 | 97精品视频在线 | 成人国产精品色哟哟 | 亚洲视频中文字幕 | 全部免费毛片在线播放网站 | 狠狠操狠狠干 |

<rt id="64ou8"><tr id="64ou8"></tr></rt>

<noscript id="64ou8"><wbr id="64ou8"></wbr></noscript>

<code id="64ou8"></code>

<abbr id="64ou8"><source id="64ou8"></source></abbr>