空間感知的VLM模型;VLM的GUI網(wǎng)頁智能體;數(shù)學視頻QA基準;長視頻計數(shù)基準
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
2025-06-04|BUAA, PKU, BAAI|??32
??http://arxiv.org/abs/2506.04308v1???
???https://huggingface.co/papers/2506.04308???
???https://zhoues.github.io/RoboRefer/??
研究背景與意義
- 問題定義與現(xiàn)狀
空間指稱是機器人理解并與三維物理世界交互的基礎(chǔ)能力。盡管現(xiàn)有預訓練視覺語言模型(VLMs)在二維視覺任務(wù)上表現(xiàn)優(yōu)異,但它們在復雜三維場景的空間理解和動態(tài)推理方面仍存在顯著不足,尤其是在處理多步驟空間推理時能力有限。
- 挑戰(zhàn)與目標
當前方法通常依賴昂貴的三維重建或?qū)⑸疃纫暈槎S圖像輸入,導致模態(tài)干擾和性能下降。此外,缺乏大規(guī)模支持多步驟空間推理的數(shù)據(jù)集,限制了模型的推理能力和泛化能力。本研究旨在構(gòu)建一個3D感知的視覺語言模1型,能夠?qū)崿F(xiàn)精準的單步空間理解與泛化強的多步驟空間推理,推動機器人在復雜環(huán)境中的高效空間指稱。
研究方法與創(chuàng)新
- 模型架構(gòu)設(shè)計
RoboRefer采用獨立的RGB和深度編碼器,避免了模態(tài)干擾問題,且深度編碼器通過監(jiān)督微調(diào)(SFT)專門強化空間感知能力。此設(shè)計保證了預訓練圖像編碼器的穩(wěn)定性,同時提升了對深度信息的利用效率。
- 訓練策略創(chuàng)新
采用兩階段訓練:
a.監(jiān)督微調(diào)(SFT),結(jié)合大規(guī)模RefSpatial數(shù)據(jù)集,強化模型的單步空間理解能力,并通過顯式的多步驟推理注釋提供初步的推理能力。
b.強化微調(diào)(RFT),引入基于多步驟推理過程的度量敏感獎勵函數(shù),顯著提升模型對復雜空間指稱任務(wù)的推理精度和泛化能力。
- 數(shù)據(jù)集構(gòu)建
RefSpatial數(shù)據(jù)集融合了2D網(wǎng)絡(luò)圖像、3D實體視頻和模擬環(huán)境數(shù)據(jù),涵蓋31種豐富的空間關(guān)系,支持單步及多步驟空間推理。該數(shù)據(jù)集不僅規(guī)模龐大(2.5M樣本,20M問答對),還包含詳細的推理過程注釋,填補了現(xiàn)有數(shù)據(jù)集在多步驟空間指稱任務(wù)上的空白。
- 理論基礎(chǔ)與優(yōu)勢
通過分離編碼器和分階段訓練策略,有效解決了模態(tài)干擾和推理泛化難題。度量敏感的獎勵設(shè)計使模型能夠在推理過程中逐步優(yōu)化中間步驟的準確性,提升了復雜空間指稱的整體性能。
實驗設(shè)計與結(jié)果分析
- 實驗設(shè)計
評估涵蓋單步空間理解(CV-Bench、BLINK等)、多步驟空間指稱(RefSpatial-Bench)以及機器人操作和導航任務(wù)。對比了多種最新視覺語言模型和空間專家模型,驗證了RoboRefer在不同任務(wù)和輸入模態(tài)(RGB與RGB-D)下的表現(xiàn)。
- 關(guān)鍵結(jié)果
a.SFT階段的RoboRefer在單步空間理解任務(wù)中達到了89.6%的平均成功率,超越了多項現(xiàn)有頂尖模型。
b.RFT階段進一步提升性能,在多步驟空間指稱的RefSpatial-Bench上,平均準確率領(lǐng)先第二名Gemini-2.5-Pro達17.4%。
c.在未見過的空間關(guān)系組合上,RFT模型表現(xiàn)優(yōu)于SFT,顯示出更強的泛化能力。
d.機器人實地測試中,RoboRefer成功執(zhí)行復雜的空間指稱任務(wù),實現(xiàn)了動態(tài)環(huán)境下的精準操控和導航,且響應(yīng)速度快,執(zhí)行效率高。
- 統(tǒng)計與多場景表現(xiàn)
實驗覆蓋室內(nèi)外多樣場景,涉及多機器人平臺(UR5機械臂、G1人形機器人),結(jié)果顯示模型具有良好的跨場景和跨任務(wù)適應(yīng)性,且深度信息的引入顯著提升了三維空間理解能力。
結(jié)論與展望
- 貢獻總結(jié)
本文提出了RoboRefer——首個結(jié)合獨立深度編碼器及強化微調(diào)的3D感知視覺語言模型,實現(xiàn)了從精準單步空間理解到泛化多步驟空間推理的跨越。構(gòu)建了大規(guī)模高質(zhì)量的RefSpatial數(shù)據(jù)集及相應(yīng)基準測試,推動了空間指稱領(lǐng)域的數(shù)據(jù)資源發(fā)展。實驗充分驗證了方法的有效性及其在機器人實際任務(wù)中的應(yīng)用潛力。
- 局限性分析
盡管取得顯著進展,模型在極端復雜場景和實時推理速度上仍有提升空間。數(shù)據(jù)集雖大,但仍需擴展更多樣化的環(huán)境和任務(wù)類型以增強泛化。強化學習階段計算資源需求較高,限制了更大模型的訓練。
- 未來展望
未來研究可探索更高效的多模態(tài)融合機制和輕量級推理架構(gòu),以支持實時復雜環(huán)境下的空間指稱。擴展數(shù)據(jù)集至更多實際應(yīng)用場景,結(jié)合多傳感器信息融合,提升模型的魯棒性和適應(yīng)性。同時,進一步深化對多步驟空間推理機制的理解,推動機器人智能交互能力邁向更高水平。
Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights
2025-06-03|H, Alphabetical|??27
??http://arxiv.org/abs/2506.02865v1???
???https://huggingface.co/papers/2506.02865???
???https://www.hcompany.ai/??
研究背景與意義
- 問題定義與現(xiàn)狀概述:當前大型語言模型(LLMs)在推理和問題解決方面表現(xiàn)卓越,但受限于靜態(tài)預訓練數(shù)據(jù),無法實時執(zhí)行動作或獲取最新信息,限制了其在動態(tài)網(wǎng)絡(luò)環(huán)境中的應(yīng)用能力。
- 挑戰(zhàn)指出:傳統(tǒng)增強LLMs的工具使用能力依賴于預定義接口,擴展性受限;而直接通過圖形用戶界面(GUI)與軟件交互的新范式尚面臨復雜界面元素定位和任務(wù)執(zhí)行的挑戰(zhàn)。
- 目標闡明:本文旨在開發(fā)一個成本效益高且通用的視覺語言模型(VLM)驅(qū)動的網(wǎng)頁代智能體urfer-H,結(jié)合新穎的Holo1模型和WebClick基準,實現(xiàn)高效、準確的網(wǎng)頁與信息提取,推動智能代理在真實網(wǎng)絡(luò)環(huán)境中的實用性。
研究方法與創(chuàng)新
- 技術(shù)架構(gòu)描述:Surfer-H由策略模塊(policy)、定位器(localizer)和驗證器(validator)三部分組成,協(xié)同作用于網(wǎng)頁截圖,實現(xiàn)動作決策、界面元素定位及答案驗證,支持多輪交互和反饋機制。
- 創(chuàng)新點突出:
a.Holo1模型家族:專為網(wǎng)頁導航和信息提取任務(wù)設(shè)計的輕量級VLM,融合多樣化訓練數(shù)據(jù)(真實網(wǎng)頁、合成界面、代理行為軌跡等),實現(xiàn)跨界面泛化和精確定位。
b.多模態(tài)訓練策略:結(jié)合視覺、語言與行為軌跡數(shù)據(jù),采用離線強化學習和行為克隆,提升模型對復雜網(wǎng)頁狀態(tài)的理解和決策能力。
c.WebClick基準:首次引入專門針對網(wǎng)頁UI元素定位的公開數(shù)據(jù)集,涵蓋多樣化網(wǎng)頁和日歷等復雜組件,推動定位技術(shù)標準化評測。
- 優(yōu)勢解釋與對比:
a.Holo1在多個公開及新建基準上超越同規(guī)模競品,兼具性能與成本優(yōu)勢。
b.Surfer-H結(jié)合Holo1實現(xiàn)了WebVoyager任務(wù)中92.2%的最優(yōu)準確率,同時保持較低推理成本,優(yōu)于現(xiàn)有主流系統(tǒng)。
實驗設(shè)計與結(jié)果分析
- 實驗設(shè)計:
a.在多項UI定位基準(Screenspot系列、GroundUI-Web及WebClick)上評測Holo1不同規(guī)模模型,比較同類先進模型表現(xiàn)。
b.在WebVoyager綜合任務(wù)集上,測試Surfer-H結(jié)合不同策略、定位器和驗證器模塊的性能,統(tǒng)計成功率與推理成本,分析嘗試次數(shù)對效果的影響。
c.評估模型在不同訓練數(shù)據(jù)組合下的泛化能力,特別是跨域與專域任務(wù)的表現(xiàn)差異。
- 結(jié)果分析:
a.Holo1-3B與7B在定位準確率上均領(lǐng)先競品,7B模型表現(xiàn)更優(yōu),體現(xiàn)良好擴展性。
b.Surfer-H搭載Holo1策略和GPT-4o驗證器,在10次嘗試內(nèi)達成92.2%準確率,成本僅為主流競品的四分之一,呈現(xiàn)Pareto最優(yōu)解。
c.純Holo1驅(qū)動的驗證器雖然降低成本,但性能有所下降,表明驗證任務(wù)復雜,需更大模型能力支持。
d.訓練包含豐富代理軌跡數(shù)據(jù)顯著提升模型在未見任務(wù)上的表現(xiàn),驗證了跨域與專域結(jié)合訓練的必要性。
結(jié)論與展望
- 貢獻總結(jié):
a.本文提出的Surfer-H及Holo1模型家族實現(xiàn)了高效、精準的網(wǎng)頁代理系統(tǒng),填補了現(xiàn)有LLM在動態(tài)網(wǎng)頁交互中的空缺。
b.新引入的WebClick基準為網(wǎng)頁UI定位提供了標準化評測工具,促進相關(guān)領(lǐng)域研究進步。
c.通過多模態(tài)、大規(guī)模、多樣化訓練數(shù)據(jù)及模塊化設(shè)計,兼顧了性能和成本,推動智能代理技術(shù)向?qū)嶋H應(yīng)用邁進。
- 局限性分析:
a.驗證模塊性能仍有提升空間,表明復雜任務(wù)的多模態(tài)推理和反饋機制需要更強模型支持。
b.訓練數(shù)據(jù)雖豐富,但仍依賴于合成及代理軌跡,真實世界多樣性和動態(tài)變化可能帶來挑戰(zhàn)。
- 未來展望:
a.進一步優(yōu)化驗證模塊,探索更高效的多模態(tài)推理策略,提升整體系統(tǒng)魯棒性。
b.拓展訓練數(shù)據(jù)覆蓋更多實際場景和動態(tài)網(wǎng)頁,增強模型泛化能力。
c.推動開放源代碼與數(shù)據(jù)集共享,促進社區(qū)合作,加速智能網(wǎng)頁代理技術(shù)的發(fā)展與應(yīng)用普及。
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos
2025-06-05|MBZUAI, UC Merced, Google, ANU, Link?ping U|??21
??http://arxiv.org/abs/2506.05349v1???
???https://huggingface.co/papers/2506.05349???
???https://mbzuai-oryx.github.io/VideoMathQA??
研究背景與意義
- 問題定義與挑戰(zhàn)
傳統(tǒng)數(shù)學推理研究多集中于靜態(tài)圖像或文本環(huán)境,然而視頻中數(shù)學推理面臨獨特挑戰(zhàn):需要解析細粒度的視覺信息,準確識別手寫或數(shù)字文本,并整合分散且非線性出現(xiàn)的語音提示。成功的推理不僅依賴感知能力,更需在豐富且嘈雜的多模態(tài)信息流中精準篩選并整合關(guān)鍵上下文細節(jié)。
- 現(xiàn)有研究不足
現(xiàn)有數(shù)學推理基準多局限于靜態(tài)圖像或文本,缺乏對動態(tài)、時序和多模態(tài)信息的綜合評估。視頻問答領(lǐng)域雖有進展,但未針對數(shù)學問題的多模態(tài)、多步驟推理進行深入探討,且多依賴合成數(shù)據(jù)或狹窄任務(wù),缺乏細致推理注釋,難以判斷模型是否真正理解。
- 研究目標
本文旨在通過引入VideoMathQA基準,系統(tǒng)評估模型在視頻中進行跨模態(tài)、時序延展的深度數(shù)學推理能力。該基準覆蓋10個數(shù)學領(lǐng)域,視頻時長從數(shù)秒到數(shù)小時,結(jié)合視覺、語音和文本信息,設(shè)計三大推理場景:直接問題解決、概念遷移和深度教學理解,輔以細粒度推理步驟注釋,實現(xiàn)對模型推理過程的精細診斷。
研究方法與創(chuàng)新
- 技術(shù)框架
VideoMathQA構(gòu)建了一個包含420對真實視頻-問題對的多模態(tài)數(shù)學推理數(shù)據(jù)集。視頻涵蓋多種教學資源,包括白板講解、數(shù)字幻燈片、動畫圖表等,問題設(shè)計需模型跨越視覺、語音及文本模態(tài),進行多步驟推理。每個問題配備4-10步專家標注的推理軌跡,支持細粒度評估。
- 創(chuàng)新點詳解
a.多模態(tài)時序推理挑戰(zhàn):視頻中數(shù)學信息非線性展開,要求模型具備動態(tài)視覺理解(高分辨率幀OCR)、語音文本對齊及跨模態(tài)聯(lián)合推理能力,突破傳統(tǒng)靜態(tài)圖像或文本基準的局限。
b.三類推理任務(wù)設(shè)計:涵蓋直接觀察推理、概念遷移應(yīng)用和長時多步驟教學理解,全面模擬真實教學場景下的數(shù)學思維過程。
c.細粒度推理注釋與評估機制:通過專家分階段標注推理步驟,模型不僅需給出最終答案,更需展現(xiàn)合理的推理路徑,支持中間推理質(zhì)量和錯誤類型的深入分析。
d.多樣化數(shù)學領(lǐng)域與視頻時長:覆蓋幾何、統(tǒng)計、拓撲、圖論等10大領(lǐng)域,視頻長度從10秒至1小時,兼顧短期感知與長期依賴能力評估。
e.嚴格的視頻篩選與標注流程:結(jié)合自動篩選與專家人工復核,確保視頻內(nèi)容富含時序動態(tài)與多模態(tài)信息,問題設(shè)計避免依賴單一模態(tài),保證數(shù)據(jù)質(zhì)量和挑戰(zhàn)性。
- 優(yōu)勢比較
相較于現(xiàn)有視頻問答及數(shù)學推理基準,VideoMathQA突破了靜態(tài)與單模態(tài)限制,強調(diào)多模態(tài)信息的時序整合和深層推理,提供了更具挑戰(zhàn)性的評測平臺和更豐富的推理注釋,填補了視頻數(shù)學推理領(lǐng)域的空白。
實驗設(shè)計與結(jié)果分析
- 實驗設(shè)置
評測涵蓋30款模型,包括5個專有多模態(tài)大模型(如Claude-3.7-sonnet、GPT-4o、Gemini系列)及25個開源模型,參數(shù)規(guī)模從數(shù)十億到數(shù)百億不等。采用多種評估策略:多項選擇題(MCQ)、多二元選擇(MBin)、鏈式思維推理(CoT)及步驟級推理質(zhì)量評估。
- 關(guān)鍵發(fā)現(xiàn)
a.模型性能整體較低:所有模型在VideoMathQA上的表現(xiàn)均遠低于理想水平,表明視頻數(shù)學推理的復雜性顯著超出現(xiàn)有模型能力。
b.多模態(tài)融合與時序推理難點突出:模型常因遺漏關(guān)鍵幀、符號或語音細節(jié)而推理失敗,顯示出對長時序多模態(tài)信息整合的不足。
c.模型規(guī)模與架構(gòu)影響顯著:總體上,模型規(guī)模越大性能越好,尤其是在CoT推理設(shè)置中表現(xiàn)更佳;但新穎架構(gòu)和訓練策略能使小模型超越舊大型模型,說明質(zhì)量與規(guī)模同等重要。
d.專有模型與開源模型差距縮小:最新開源模型在多項指標上已接近甚至超越部分專有模型,顯示開源生態(tài)快速進步。
e.字幕信息提升性能:提供字幕輔助輸入顯著提升模型理解和推理效果,體現(xiàn)多模態(tài)信息互補價值。
f.細粒度推理評估揭示缺陷:步驟級評估顯示模型推理過程多存在邏輯跳躍和錯誤,提示未來改進方向應(yīng)聚焦推理鏈條的完整性和準確性。
結(jié)論與展望
- 研究貢獻總結(jié)
VideoMathQA首次系統(tǒng)構(gòu)建了一個涵蓋多模態(tài)、多時序、跨領(lǐng)域的數(shù)學視頻推理基準,設(shè)計了三大核心推理任務(wù),配備細致的推理步驟注釋和多維度評估指標。通過廣泛模型評測,揭示了當前多模態(tài)大模型在視頻數(shù)學推理中的顯著不足和挑戰(zhàn)。
- 局限性分析
盡管數(shù)據(jù)集涵蓋廣泛數(shù)學領(lǐng)域與視頻類型,但樣本總量有限,且標注成本高昂限制了規(guī)模擴展。模型評估主要依賴現(xiàn)有公開及專有模型,尚未涵蓋所有可能的多模態(tài)融合與推理架構(gòu)。推理步驟注釋雖細致,但對復雜推理的自動評估仍存在困難。
- 未來展望
a.數(shù)據(jù)集擴展與多樣化:未來可擴展更多數(shù)學領(lǐng)域與教學資源,豐富問題類型,提升數(shù)據(jù)規(guī)模和多樣性。
b.模型架構(gòu)創(chuàng)新:推動設(shè)計更高效的多模態(tài)時序推理模型,強化長時依賴捕捉與跨模態(tài)信息融合。
c.推理解釋性與可驗證性:加強模型推理鏈的透明度和可解釋性,結(jié)合細粒度注釋推動自動化推理質(zhì)量評估。
d.跨學科應(yīng)用探索:將此類多模態(tài)數(shù)學推理技術(shù)推廣至教育輔助、智能輔導及科學研究等領(lǐng)域,促進人工智能與教育教學的深度融合。
綜上,VideoMathQA為視頻數(shù)學推理領(lǐng)域提供了首個系統(tǒng)化、多維度的評測平臺,推動了多模態(tài)理解與復雜推理技術(shù)的發(fā)展,未來有望成為推動智能數(shù)學教育和科學計算的重要基石。
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs
2025-06-05|NJU|??19
??http://arxiv.org/abs/2506.05328v1???
???https://huggingface.co/papers/2506.05328???
???https://av-reasoner.github.io??
研究背景與意義
- 研究背景:當前多模態(tài)大語言模型(MLLMs)在視頻理解領(lǐng)域取得了顯著進展,但在精細化任務(wù)如計數(shù)方面表現(xiàn)依然有限。計數(shù)任務(wù)要求模型具備精確的時空定位能力,能夠跨幀或場景識別并累積目標實例,這對模型的視覺、聽覺和語言對齊能力提出了嚴峻挑戰(zhàn)。
- 存在問題:現(xiàn)有計數(shù)基準測試多為短視頻,查詢類型封閉,缺乏線索注釋,且多聚焦單一模態(tài),限制了模型綜合推理能力的評估。
- 研究意義:提出了CG-AV-Counting,一個涵蓋497個長視頻、1027個多模態(tài)問題及5845條線索注釋的計數(shù)基準,支持黑盒(端到端)與白盒(推理過程)雙重評估,填補了長視頻多模態(tài)計數(shù)評測的空白,推動多模態(tài)計數(shù)能力的全面提升。
研究方法與創(chuàng)新
- 技術(shù)描述:基于Ola-Omni模型,提出AV-Reasoner,通過結(jié)合GRPO強化學習算法和課程學習策略,訓練模型逐步掌握音視頻理解、時空定位及計數(shù)能力。訓練涵蓋多數(shù)據(jù)集的問答(AVQA)、時空定位(AVTG、ARIG)和計數(shù)任務(wù),設(shè)計了多樣化的可驗證獎勵函數(shù)(格式正確性、IoU、相對MAE等)以引導模型生成結(jié)構(gòu)化且準確的輸出。
- 創(chuàng)新點:
a.引入細粒度線索注釋,支持白盒評估,提升計數(shù)任務(wù)的可解釋性。
b.設(shè)計分階段課程學習和階段回顧機制,緩解任務(wù)間遺忘,促進技能的穩(wěn)定遷移和累積。
c.利用強化學習優(yōu)化模型在多模態(tài)計數(shù)任務(wù)中的推理策略,而非僅依賴標注數(shù)據(jù),增強模型的泛化能力。
- 優(yōu)勢解釋:該方法突破了傳統(tǒng)依賴大量計數(shù)標注數(shù)據(jù)的限制,通過任務(wù)相關(guān)性的能力遷移和策略優(yōu)化,顯著提升了模型在復雜長視頻多模態(tài)計數(shù)任務(wù)中的表現(xiàn),且具備良好的跨任務(wù)適應(yīng)性和輸出格式控制能力。
- 與現(xiàn)有方法對比:相比以往短視頻、單模態(tài)或無線索注釋的基準,CG-AV-Counting提供更豐富的多模態(tài)、多目標計數(shù)場景,AV-Reasoner在多個音視頻理解和計數(shù)基準上均實現(xiàn)了領(lǐng)先性能,充分體現(xiàn)了強化學習與課程學習結(jié)合的優(yōu)勢。
實驗設(shè)計與結(jié)果分析
- 實驗設(shè)計:評測涵蓋黑盒長視頻端到端計數(shù)、參考區(qū)間計數(shù)及白盒推理計數(shù),使用準確率、偏差一計準確率、平均絕對誤差、均方根誤差及白盒計數(shù)評分(結(jié)合定位與計數(shù)準確性)等多維指標,全面衡量模型性能。
- 結(jié)果分析:
a.所有模型在計數(shù)任務(wù)上均遠低于人類水平,表明該任務(wù)的挑戰(zhàn)性。
b.關(guān)閉源模型普遍優(yōu)于開源模型,Gemini 2.5 Pro/Flash表現(xiàn)最佳,顯示多模態(tài)融合的潛力。
c.開源音視頻模型未必優(yōu)于視覺單模態(tài)模型,原因在于音視頻對齊不佳和缺乏針對性訓練。
c.AV-Reasoner通過GRPO訓練和課程學習顯著提升計數(shù)準確率和推理質(zhì)量,尤其在白盒評測中表現(xiàn)出更強的因果解釋能力。
e.采用顯式推理輸出的模型版本在部分任務(wù)表現(xiàn)更優(yōu),驗證了推理過程的透明性對性能的促進作用。
- 統(tǒng)計顯著性:提升幅度覆蓋多個基準和指標,且通過多輪訓練與樣本篩選機制保證結(jié)果的穩(wěn)定性和泛化性。
- 多場景表現(xiàn):模型在涵蓋體育、生活記錄、幽默、教程等十余類長視頻中均表現(xiàn)出較強的適應(yīng)能力,驗證了方法的廣泛適用性。
結(jié)論與展望
- 總結(jié)貢獻:本文提出了首個支持多模態(tài)長視頻計數(shù)的細粒度線索基準CG-AV-Counting,設(shè)計了結(jié)合強化學習與課程學習的AV-Reasoner模型,有效提升了MLLM在復雜計數(shù)任務(wù)中的性能和解釋能力,推動了多模態(tài)計數(shù)研究向更高精度和更強泛化邁進。
- 局限分析:當前模型在跨域泛化和音視頻對齊方面仍存在不足,計數(shù)任務(wù)中對精確時空定位和多模態(tài)融合的需求尚未完全滿足,推理輸出格式控制仍需進一步優(yōu)化。
- 未來展望:
a.加強音視頻同步與多模態(tài)特征融合技術(shù),提升模型對動態(tài)環(huán)境的感知能力。
b.探索更多樣化的訓練策略和獎勵設(shè)計,促進模型推理能力的進一步增強。
c.拓展基準數(shù)據(jù)集規(guī)模和多樣性,涵蓋更多實際應(yīng)用場景,推動模型實用化。
d.深入研究模型推理過程的可解釋性與可控性,提升模型在實際部署中的可靠性和透明度。
本文轉(zhuǎn)載自??AI研究前瞻??,作者:胡耀淇
