人機交互與場景合成:人機交互統(tǒng)一技能模型
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization
2025-03-25|Shanghai AI Lab, HKU, Independent Researcher, SEU, Feeling AI|CVPR 2025|??14
???http://arxiv.org/abs/2503.19901v1????
????https://huggingface.co/papers/2503.19901????
????https://liangpan99.github.io/TokenHSI???
研究背景與意義
TokenHSI旨在解決當前物理角色控制方法中普遍存在的局限性,即無法有效整合多種復雜的人體場景交互(HSI)技能?,F(xiàn)有方法通常專注于單一任務控制器的開發(fā),導致在面對需要多技能協(xié)同的任務時表現(xiàn)不佳。TokenHSI通過引入基于Transformer架構的統(tǒng)一策略網絡,成功地將多個基礎HSI技能整合到一個模型中,并能夠靈活適應新任務和環(huán)境。
- 研究背景:HSI合成對于計算機動畫和具身AI至關重要,但目前的方法大多局限于特定任務,難以處理多樣化的挑戰(zhàn)性任務。
- 研究意義:TokenHSI不僅實現(xiàn)了多技能的統(tǒng)一學習,還顯著提升了模型對新任務和環(huán)境的適應能力,為更復雜的HSI任務提供了可能。
研究方法與創(chuàng)新
TokenHSI的核心創(chuàng)新在于其獨特的架構設計和高效的技能遷移機制。具體而言:
- 架構設計:
TokenHSI通過分離的人形本體感知(proprioception)令牌和任務令牌結合的方式,構建了一個獨立的觀察空間。
使用掩碼機制在Transformer編碼器中結合本體感知令牌和任務令牌,使得模型能夠在多任務訓練中實現(xiàn)有效的知識共享。
- 技能遷移:
模型支持可變長度輸入,允許靈活適應新場景中的技能需求。
引入了專有的本體感知令牌化器(Tprop),有效促進了多任務訓練和策略適應。
在推理階段,通過組合本體感知令牌和對應的任務令牌,指導角色執(zhí)行特定任務。
- 優(yōu)勢對比:
相較于傳統(tǒng)方法,TokenHSI無需對預訓練策略進行全參數(shù)微調,從而大幅提高了適應效率。
通過零初始化適配層(adapter layers)和新增任務令牌化器(Tnew),模型能夠快速適應新任務。
實驗結果表明,TokenHSI在樣本效率和性能上顯著優(yōu)于近期的策略適應方法。
實驗設計與結果分析
TokenHSI在多種HSI任務上的表現(xiàn)進行了廣泛測試,包括技能組合、物體形狀變化、地形形狀變化和長期任務完成等。
- 實驗設計:
基礎技能學習階段:在多任務環(huán)境中訓練Transformer策略,涵蓋跟隨、坐下、攀爬和攜帶四種代表性技能。
策略適應階段:通過引入輕量級模塊(如Tnew、Tc和ξA),使學到的技能能夠靈活適應更具挑戰(zhàn)性的HSI任務。
- 結果分析:
技能組合任務中,TokenHSI在保持高成功率的同時,展現(xiàn)出更強的穩(wěn)定性。
物體形狀變化任務中,TokenHSI通過微調任務令牌化器(Tc),成功適應了從盒子到不規(guī)則物體(如椅子和桌子)的變化。
地形形狀變化任務中,模型通過引入高度圖令牌化器,增強了對復雜地形的適應能力。
長期任務完成任務中,TokenHSI展示了流暢的技能過渡和碰撞避免能力。
結論與展望
TokenHSI通過統(tǒng)一的Transformer策略網絡,成功實現(xiàn)了多技能整合和高效的新任務適應能力。
- 總結貢獻:
提出了TokenHSI,一種基于Transformer的物理角色控制器,能夠整合多樣化的HSI技能。
展示了靈活且高效的策略適應能力,避免了對預訓練策略的全參數(shù)微調。
引入了專有的本體感知令牌化器,有效促進了多任務訓練和策略適應。
- 分析局限:
當前方法仍需依賴獎勵函數(shù)的設計,涉及繁瑣的試錯過程。
長期任務完成目前仍為非自主模式,未來需探索更高效的解決方案。
- 方法展望:
探索利用人類數(shù)據(jù)或互聯(lián)網知識減少獎勵工程的成本。
進一步研究如何實現(xiàn)完全自主的長期任務完成能力。
本文轉載自???AI研究前瞻???,作者:胡耀淇
