百萬規模數據集打造人形機器人通用大模型,實現精細動作跨平臺、跨形態動作遷移丨北大人大聯合發布
北大和人大團隊在通用人形機器人動作生成領域取得重大突破!
首創性地提出了具備數據-模型協同放量(Scaling Law)特性的通用動作生成框架Being-M0。
通過大規模互聯網視頻,構建了業界首個百萬規模的動作生成數據集MotionLib。
又基于此數據集,研發了端到端的文本驅動動作生成模型,實現了具備規模效應的復雜、多樣的人類動作生成,做到了人體動作向多類型人形機器人的動作遷移。
文章將發表于ICML2025。
創新點
百萬級動作數據集MotionLib
- Being-M0團隊構建了業界首個突破百萬規模的動作生成數據集,并建立了從原始視頻到高質量動作數據的全自動化處理流程,大幅提升了數據獲取效率。
大規模動作生成模型
- 同團隊提出的動作生成大模型展現出顯著的規模效應,成功驗證了“大數據+大模型”在人體運動生成領域的技術可行性,為通用動作智能奠定基礎。
多平臺動作重定向
- Being-M0團隊創新融合優化與學習方法,實現了動作數據向宇樹H1、H1-2、G1等多款人形機器人的高效遷移,顯著提升了跨平臺運動適配能力。
MotionLib: 突破數據規模瓶頸
在人工智能領域,數據規模的突破往往能帶來模型性能質的飛躍。
為構建大規模動作數據集,Being-M0團隊從公開數據集和在線平臺系統性地收集了超過2000萬段人體動作視頻。面對海量的互聯網視頻數據,如何實現高質量動作數據的自動化提取成為了關鍵挑戰。
為此,Being-M0團隊開發了一套創新的數據處理流水線:
首先,基于預訓練模型進行2D人體關鍵點估計,并通過置信度閾值實現初步篩選;隨后,采用經過大規模3D數據集訓練的先進模型,生成高精度的3D關鍵點數據。
在動作標注方面,針對現有數據集普遍存在的描述粒度粗糙問題(通常僅用單句話概括整個動作),團隊創新性地提出了分層標注方案:
該方案利用Gemini-1.5-pro為每個視頻生成了結構化描述,不僅包含動作的整體語義,還詳細記錄了手臂、腿部等身體部位的運動特征。這種細粒度的標注體系為高精度動作生成提供了關鍵支持。
MotionLib的獨特優勢還體現在其多模態特性上:每個動作序列不僅包含標準RGB視頻,還提供了深度信息等輔助數據,并支持多人交互場景的分析。這些豐富的多模態信息顯著拓展了數據集的應用場景。
經過嚴格的質量篩選流程,Being-M0團隊最終構建了包含超過100萬條高質量動作序列的數據集,其規模達到現有最大公開數據集的15倍,為突破動作生成領域的規模瓶頸奠定了堅實基礎。
,時長00:36
大規模動作生成:從語言到動作
隨著MotionLib數據規模實現數量級突破,如何充分釋放大規模數據的性能紅利成為了關鍵問題。
通過系統性實驗,Being-M0團隊首次在動作生成領域驗證了模型規模與數據規模之間的協同放大效應(Scaling Law)。研究表明:1)在同等數據條件下,模型容量與生成質量呈顯著正相關,13B參數的LLaMA-2模型相較700M參數的GPT2,在動作多樣性和語義對齊精度等核心指標上均實現突破;2)大模型展現出更優的數據利用率,在數據規模擴展時保持穩定的性能增長曲線。
這些發現不僅驗證了“大數據+大模型”技術路線的普適性,更為構建通用動作生成模型提供了關鍵設計準則。
傳統方法在將大語言模型應用于動作生成時面臨根本性挑戰:主流向量量化(VQ)技術將高維動作數據壓縮為一維離散token,導致時序動態和關節協同等關鍵結構化信息嚴重損失。這種單維表征方式不僅受限于有限codebook容量,更難以刻畫人體運動的連續細微變化。
針對這一瓶頸,Being-M0團隊提出MotionBook——業界首個二維無查找量化框架。該技術突破性創新包括:
- 空間-時序解耦編碼將動作序列建模為單通道二維”動作圖像”,分別在時間軸和關節軸構建獨立編碼空間,完整保留運動的多維結構特征;
- 動態擴展詞表通過降維投影消除傳統codebook查找環節,使動作詞表容量提升兩個數量級;
- 坍塌免疫機制創新性的參數化離散策略從根本上避免了傳統VQ的codebook坍塌問題。
實驗表明,這種表示方法能更好地發揮大模型的潛力,特別是在生成精細動作方面具有明顯優勢,為構建下一代動作生成模型奠定了新的技術基礎。
,時長00:39
高效動作重定向:從人體到人形機器人
將生成的人體動作遷移到實體機器人是實現文本驅動人形機器人動作生成的最后一環。
實現文本到機器人動作的閉環需要解決跨形態動作遷移這一核心挑戰。
由于不同人形機器人在自由度配置、連桿尺寸等方面存在顯著差異,將人體動作重定向到機器人時,傳統基于運動學逆解或關節角度直接映射的方法往往導致動作失真甚至動力學不可行。
為解決這一問題,Being-M0團隊提出了”優化+學習”的兩階段解決方案:
在訓練數據構建階段,通過多目標優化方法生成滿足機器人運動學約束的動作序列——優化過程不僅考慮了關節限位等基本約束,還考慮了動作軌跡的平滑性和穩定性。這種基于多目標優化的方法雖然計算開銷較大,但能保證生成數據的高質量,為后續的學習階段打下良好基礎。
在動作映射階段,采用輕量級的MLP網絡學習從人體動作到人形機器人動作的映射關系。通過精心設計的網絡結構,該方法實現了對H1、H1-2、G1等多個機器人平臺的高效支持。
與直接優化相比,基于神經網絡的方法顯著提升了系統的實時性能,同時保持了動作遷移的準確性。
,時長00:16
BeingBeyond:打造通用具身智能,推動機器人走進千家萬戶
Being-M0由來自智在無界、北京大學、人民大學和智源研究院的研究團隊共同打造。
MotionLib是業界首個百萬規模動作生成數據集;Being-M0驗證了“大數據+大模型”在動作生成領域的技術可行性,為面向人形機器人的通用動作生成模型奠定了基礎。
研究團隊表示,BeingBeyond將持續迭代人形機器人的具身大模型、靈巧操作、全身運動控制等,在未來讓機器人涌現更強的通用能力和自主性。
項目地址:https://beingbeyond.github.io/Being-M0/論文鏈接:https://arxiv.org/abs/2410.03311