三金,又是中國隊!全球機器人視觸融合挑戰賽揭榜
今天,機器人和自動化領域的全球頂級會議ICRA 2025在亞特蘭大正式拉開帷幕。
不久前,機器人領域的頂級賽事——ManiSkill-ViTac 2025也公布了獲獎團隊名單。
5月23日,ManiSkill-ViTac 2025的成果將在ICRA 2025第六屆ViTac國際研討會中集中匯報。
據主辦方統計,本屆賽事吸引了來自清華、北大、港大、新加坡國立大學、穆罕默德·本·扎耶德人工智能大學等42支全球頂尖團隊同臺競技。
最終包攬三個賽道金牌的贏家,是來自國內的兩家具身初創公司。
其中,拿下「純觸覺操控」和「觸覺傳感器設計」兩個賽道金牌的是原力靈機Dexmal。
這家剛成立不久就獲得2億天使輪融資的黑馬企業,核心團隊出身于老牌AI企業曠視科技,并且具有超過10年的AI原生產品規模落地經驗。
拿下「視觸融合操控」賽道的冠軍它石智航,幾乎與原力靈機同時宣布了天使輪融資,憑借1.2億美元的融資額創造了中國具身智能行業最大天使輪新紀錄。
三大賽道,三塊金牌,不僅讓大家感受到了具身智能在細分領域有多「卷」,更是體現了中國在機器人操控領域的國際領先實力。
機器人界「奧賽」
視觸覺融合大挑戰
在人工智能的版圖中,具身智能與AI 1.0時代和如今炙手可熱的LLM,有著本質的區別。
AI 1.0聚焦于模式識別,大模型擅長處理文本等多元信息。
具身智能則直面物理世界,追求讓機器人像人類一樣感知、思考并與環境交互。
這種「身體與智能」的結合,不僅需要算法的突破,還要求硬件設計、場景適配和多模態感知的深度協同。
另外從衡量標準來說,不同于AI 1.0時代產學研在CVPR的華山論劍;也不同于大模型行業在OpenCompass,Eval等Benchmark上的百家爭鳴。
具身領域的基準相對稀缺分散,且挑戰重重。
它不僅需要模擬復雜的物理交互、開發高精度硬件,甚至在真實場景中驗證算法的魯棒性,這使得相關賽事的門檻極高,玩家數量也更少。
隨著具身技術日趨成熟,競爭越來越激烈,其細分領域的挑戰賽熱度也在升溫。
當前,公眾往往更關注機器人的運動性能,比如靈活的機械臂或靈巧的步伐,但在實際應用中,視覺觸覺等多模態感知的融合對機器人發展至關重要。
為了促進機器人獲得像人類一樣的操控技能,ManiSkill基準測試應運而生。
自2022年首屆于ICLR舉辦以來,ManiSkill挑戰賽已成為具身智能領域的「金字招牌」。并在2024年引入「視觸覺」融合專題(Vitac),以彌補傳統視覺主導方案的不足。
運動能力可以讓機器人「動起來」,比如近來比較火的擎天柱熱舞視頻,而多模態感知則賦予其「看懂世界,摸清環境」的智慧。
尤其是,在需要精細操作的場景中,視覺觸覺協同作用決定了機器人的使用價值。
然而,在許多現實場景中,它們的表現仍不如意。
比如,在抓取不規則物體、執行毫米級精度的操作,或處理柔性材料時,機器人常常因感知不足而失敗。
英偉達高級科學家Jim Fan在紅杉的閉門演講中,將其稱之為「物理圖靈測試」。演講過程中,他展示了一個機器人提供VIP早餐服務的翻車視頻,引全場爆笑。
一個再普通不過的生活場景,機器人為啥就搞得一團糟呢?
這是因為,當前機器人領域的研究主要依賴視覺感知,通過攝像頭捕捉環境信息,并進行決策。
但視覺主導的方案,在接觸密集場景中存在著明顯的局限性,比如遮擋、光線變化、物體透明度,都會干擾視覺數據。
與此同時,那些缺乏觸覺反饋的機器人,更是難以感知接觸力、表面紋理或物體剛性等關鍵信息。
這導致了,機器人在醫療手術、精密裝配、復雜物流分揀等場景中,難以達到人類水平的操作能力。
ManiSkill-ViTac視觸覺融合挑戰賽的誕生,恰恰填補了這一技術空白。
主頁地址:https://ai-workshops.github.io/maniskill-vitac-challenge-2025/
它由清華、UCSD、倫敦國王學院等頂尖機構聯合主辦,聚焦于視觸覺融合技術,以拓展機器人在復雜操作任務中的能力邊界。
與歷屆ManiSkill賽事不同,ManiSkill-ViTac提供了觸覺物理仿真平臺并搭建了現實世界的測試平臺,是全球范圍首個結合視覺與觸覺的公開賽事。
ManiSkill-ViTac 2025的意義遠超學術競賽,它為機器人行業提供了從實驗室到現實應用的橋梁。
它將推動觸覺 - 視覺融合算法的進步,加速改進觸覺傳感器設計,為豐富接觸的操作任務建立基準。
在42支全球參賽團隊中,中國團隊的表現尤為亮眼。
以原力靈機為代表,不僅在算法研發上取得了突破,還通過「算法+硬件+場景」的系統創新,推動技術快速落地。
中國隊奪三金
憑什么?
在純觸覺操作賽道(Track1)中,原力靈機Dexmal團隊直面機器人操控的終極難題:
如何在完全沒有視覺輔助的條件下,僅憑觸覺完成高精度的操作?
根據介紹,Track1要求機器人通過觸覺傳感器,完成將軸體插入毫米級孔洞的復雜任務。
這不僅需要其精準解析軸體輪廓的種種特征,還要依據接觸反饋構建起準確的空間坐標系。
傳統方案大多依賴RL,但受限于觸覺數據的低維度和高噪聲,成功率僅為14.81%,且因接觸力失衡,傳感器常因過度受力而損壞。
為此,Dexmal團隊提出了創新的「雙范式學習框架」,將專家知識與智能學習巧妙結合。
首先,他們利用專家示范數據,對策略網絡進行預訓練,讓機器人快速掌握空間探索的基本能力。
隨后,團隊引入模仿學習生成動態獎勵函數,為RL的每一步微觀操作提供精準、實時的反饋引導。
這種分層遞進學習的策略,就像為機器人裝上了雙「無形的眼睛」,讓其在無視覺輔助這一苛刻條件下,依然能夠精準定位孔洞位置。
這一方案的真實效果,令人震撼。
在仿真測試中,Dexmal混合算法將成功率提升了2-3倍,遠超單一強化學習的方案。
更重要的是,在真實機器人驗證環節,Dexmal方案憑借大幅領先的比分,充分彰顯了其在純觸覺賽道領域的強大競爭力。
而在觸覺傳感器設計賽道(Track3)中,原力靈機Dexmal團隊再次展現了技術前瞻性。
觸覺傳感器,作為機器人「觸覺」的核心硬件,長期面臨成本高、制造復雜、性能不穩定的難題,行業仍處于探索初期。
Dexmal團隊以經濟性與高效性為核心目標,從傳感器結構到數據處理進行了全鏈條優化。
首先,他們重新設計了傳感器的幾何形狀,使其能自適應非均勻應力分布,輕松應對不同任務需求。
其次,團隊優化了四面體網格,力求在計算精度與實時性之間達成平衡。
最后,他們優化了標記點的分布,兼顧空間分辨率與信號魯棒性。
為了驗證設計效果,團隊對傳感器的空間分辨率、計算效率和算法協同性進行了全面測試。
結果顯示,新設計不僅讓算法性能顯著提升,還有效降低了成本。
這種「高性價比」的方案,讓Dexmal團隊在比賽中一舉奪魁,或許將為觸覺傳感器的規模化應用打開了大門。
通往AGI
必須要翻越具身的高山
與語音、文本等模態不同的是,觸覺信息就是物理世界的「原生數據」。
它不僅對具身智能至關重要,更是實現AGI的關鍵一環。
觸覺,可以讓機器人能夠感知物理紋理、力反饋、材料特性等,提供視覺無法捕捉的信息。
它為機器人與現實世界的深度交互提供了可能。另一方面,視覺則可以為全局環境的理解提供支持。
兩者的融合,不僅可以提升機器人對環境的感知魯棒性,還為跨場景、跨任務的泛化能力奠定了基礎。
作為賽事主辦方代表,清華大學助理研究員陳睿博士表示:
多感知模態融合在機器人領域有非常大的應用價值。我們舉辦挑戰賽的初衷是希望為業界提供一個平臺,共同推進視觸覺融合技術的進步。
未來,我們還計劃擴展任務復雜性,比如納入語言模態,推進視覺-觸覺-語言多模態大模型發展。也希望能夠有越來越多的優秀團隊能夠參與進來。
相比如火如荼的LLM,機器人直接作用于物理世界,是AGI必須要翻越的高山,也是解決未來生產力難題的核心。
只有將觸覺視覺無縫融合,才能提升機器人精細操作的能力。
前段時間,老黃在接受采訪時表示,人形機器人將是一個價值50萬億美元的產業。當前,全球機器人市場正處于爆發前夜。
未來,它將為工業、醫療、物流等領域的智能化轉型,注入全新動能。
也就是說,這一領域技術突破和落地,將為全世界帶去的價值不可估量。
中國團隊在賽事中的卓越表現,彰顯了其在全球AI和機器人領域的引領地位。
奪得雙金的Dexmal團隊表示,團隊日前還參加了CVPR 2025協作智能Workshop核心賽事之一——RoboTwin,并在第一輪仿真平臺賽中斬獲并列第一。
目前,他們正全力備戰第二輪比賽,結果將于6月底公布。
這些連連戰績,無疑為中國在具身智能領域的全球影響力,再添濃墨重彩的一筆。
圖片
ManiSkill-ViTac 2025的正式落幕,不僅是一場技術的巔峰對決,更是中國具身智能崛起的里程碑。
原力靈機和它石智航的耀眼表現,展現了中國團隊在算法創新、硬件突破、場景落地的全棧實力。
他們用三枚金牌向世界證明:中國不僅是AI賽道上的追趕者,更是引領者。