ICLR 2025|南洋理工大學AvatarGO,探索4D人與物體交互生成新方法
近年來,隨著擴散模型和 Transformer 技術的快速發展,4D 人體 - 物體交互(HOI)的生成與驅動效果取得了顯著進展。然而,當前主流方法仍依賴 SMPL [1] 這一人體先驗模型來生成動作。盡管這些方法已取得令人矚目的成果,但由于 SMPL 在衣物表現上的局限性,以及缺乏大規模真實交互數據的支持,它們依然難以生成日常生活中的復雜交互場景。
相比之下,在 2D 生成模型中,由于大語言模型和海量文字 - 圖片數據的支持,這一問題得到了有效的解決。2D 生成模型如今能夠快速生成高度逼真的二維場景。而且,隨著這些技術被引入到 3D 和 4D 生成模型中,它們成功地將二維預訓練知識遷移到更高維度,推動了更精細的生成能力。然而,在處理 4D 人體 - 物體交互時,這些 3D/4D 生成的方法依然面臨兩個關鍵挑戰:(1)物體與人體的接觸發生在何處?又是如何產生的?(2)如何在人體與物體的動態運動過程中,保持它們之間交互的合理性?
為了解決這一問題,南洋理工大學 S-Lab 的研究者們提出了一種全新的方法:AvatarGO。該方法不僅能夠生成流暢的人體 - 物體組合內容,還在有效解決穿模問題方面展現了更強的魯棒性,為以人為核心的 4D 內容創作開辟了全新的前景。
想深入了解 AvatarGO 的技術細節?我們已經為你準備好了完整的論文、項目主頁和代碼倉庫!
- 論文地址:https://arxiv.org/abs/2410.07164
- Project Page:https://yukangcao.github.io/AvatarGO/
- GitHub:https://github.com/yukangcao/AvatarGO
引言
近年來,隨著人體 - 物體(HOI)交互數據集(如 CHAIRS [2], BEHAVE [3])的采集,以及擴散模型和 transformer 技術的迅速發展,基于文本輸入生成 4D 人體動作和物體交互的技術已經展現出了巨大的潛力。然而,目前的技術大多集中于基于 SMPL 的人體動作生成,但它們難以真實呈現日常生活中人物與物體交互的外觀。盡管 InterDreamer [4] 提出了零樣本生成方法,能夠生成與文本對齊的 4D HOI 動作序列,但其輸出仍然受到 SMPL 模型的局限,無法完全突破這一瓶頸。
在另一方面,隨著 3D 生成方法和大語言模型(LLM)的快速發展,基于文本的 3D 組合生成技術逐漸引起了廣泛關注。這些技術能夠深度理解復雜對象之間的關系,并生成包含多個主體的復雜 3D 場景。例如,GraphDreamer [5] 通過 LLM 構建圖結構,其中節點代表對象,邊表示它們之間的關系,實現了復雜場景的解耦;ComboVerse [6] 則提出空間感知評分蒸餾采樣技術(SSDS),強化了空間的關聯性。隨后,其他研究 [13, 14] 進一步探索了聯合優化布局以組合不同組件的潛力。但它們在生成 4D HOI 場景時,依然面臨著兩個核心挑戰:
- 觸區域定義不準確:雖然 LLM 擅長捕捉物體間的關系,但在與擴散模型結合時,如何準確定義物體間的接觸區域,特別是復雜的關節結構如人體,仍然是一個難題。盡管 InterFusion [13] 構建了 2D 人體 - 物體交互數據集,旨在從文本提示中提取人體姿勢,但它們仍在訓練集之外的情況下,無法準確識別人體與物體的最佳接觸部位。
- 4D 組合驅動的局限性:盡管 DreamGaussian4D [7] 和 TC4D [8] 利用視頻擴散模型對 3D 靜態場景進行動作驅動,但這些方法通常將整個場景視為一個統一主體進行優化,從而導致不自然的動畫效果。盡管像 Comp4D [9] 這類項目通過軌跡為每個 3D 對象單獨生成動畫,但物體之間的接觸建模仍然是一個巨大挑戰。
為了解決這些挑戰,AvatarGO 提出了兩項關鍵創新,以解決物體與人體應 “如何交互” 以及 “在哪里交互” 的問題:
- LLM 引導的接觸區域重定向(LLM-guided contact retargeting):該方法通過利用 Lang-SAM [10] 從文本中識別出大致的接觸部位,并將其作為優化過程的初始化,從而解決了擴散模型在估計接觸區域時的難題。
- 對應關系感知的動作優化(Correspondence-aware motion optimization):基于對靜態合成模型中穿模現象較少發生的觀察,AvatarGO 提出了對應關系感知的運動優化方法。該方法將物體的運動分為主動和從動部分,并利用 SMPL-X 作為中介,確保人體和物體在交互過程中保持一致的對應關系。這一創新顯著提高了在運動過程中對穿模問題的魯棒性。
AvatarGO: 4D 人體 - 物體生成框架
AvatarGO 以文本提示為輸入,生成具有物體交互的 4D 虛擬人物。其框架核心包括:(1)文本驅動的 3D 人體與物體組合(text-driven 3D human and object composition):該部分利用大型語言模型(LLM)從文本中重定向接觸區域,并結合空間感知的 SDS(空間感知評分蒸餾采樣)來合成 3D 模型。(2)對應關系感知的動作優化(Correspondence-aware motion optimization):該優化方法聯合優化人體和物體的動畫,能夠在動畫過程中有效維持空間對應關系,從而提升對穿模問題的魯棒性。
文本驅動的 3D 人體與物體組合
現在已有的方法已經可以很快捷高效的生成三維人物和物體
,但 AvatarGO 的研究人員發現,即使進行手動調整,如重新縮放和旋轉 3D 物體,仍然難以精確地綁定生成的 3D 人體和物體模型。為此,他們首先利用文本提示將人物
和物體
進行組合,通過優化其高斯屬性來實現這一目標。同時,他們還優化了物體
的三個可訓練全局參數,包括旋轉旋轉
、縮放因子
和平移矩陣
:
其中是組成物體
的高斯點云。
空間感知評分蒸餾采樣(spatial-aware score distillation sampling):沿襲 ComboVerse [6] 的方法,我們采用 SSDS 來促進人體和物體之間的 3D 組合生成。具體而言,SSDS 通過用一個常數因子??(其中??>1)縮放指定標記 < token?>的注意力圖,從而增強 SDS 與人體和物體之間的空間關系。
在這里,<token?>對應于編碼人體 - 物體交互項的標記,如 <‘holding’>,這些標記可以通過大型語言模型(LLMs)識別,也可以由用戶指定。
LLM 引導的接觸區域重定向(LLM-guided contact retargeting):雖然空間感知評分蒸餾采樣有助于理解空間關系,但在識別人與物體最合適的接觸區域時仍然面臨困難,而接觸區域卻又是人體 - 物體交互的關鍵組成部分。為了解決這個問題,AvatarGO 提出利用 Lang-SAM [10] 從文本提示中識別接觸區域。具體而言,從 3D 人體模型出發,AvatarGO 從正面視角渲染該模型生成圖像??。然后,將此圖像與文本輸入一起,輸入到 Lang-SAM 模型中,以推導出 2D 分割掩碼
:
其中,<body-part>表示描述人體部位的文本,例如 <‘hand’>。
隨后,他們通過逆向渲染將 2D 分割標簽反投影到 3D 高斯上。具體來說,對于分割圖上的每個像素??,他們將掩模值(0或 1)更新回到高斯點云上:
其中,表示第??個高斯點的權重,
是可以投影到像素 ??上的高斯點的集合。
分別表示不透明度、透射率和分割掩碼值。在權重更新后,他們通過將高斯點的權重與預定義的閾值??進行比較,來判斷一個高斯點是否對應于人體部位的分割區域。然后,AvatarGO 根據以下公式初始化平移參數
:
其中,,??是人體模型
中高斯點的數量。
對應關系感知的動作場
在生成了 3D 人體與物體的組合之后,同步驅動他們帶來了額外的挑戰,其主要是由于潛在的穿模問題。這個問題源于物體缺乏一個明確定義的運動場。為此,AvatarGO 通過使用 SMPL-X 的線性混合蒙皮函數(Linear-blend Skinning)為人體和物體模型建立了運動場,并提出了一種對應關系感知的運動優化方法,旨在優化物體模型的可訓練全局參數,即旋轉()和平移(
),以提高人體與物體之間穿模問題的魯棒性。首先,SMPL-X 的線性混合蒙皮函數(??????)可表達為:
其中,和
分別表示 SMPL-X 在標準空間和觀察空間下的頂點。
是蒙皮權重,
是仿射變形,可將第??個關節
從標準空間映射到觀察空間,
表示鄰近關節的數量。
人體驅動:當給定一個基于 SMPL-X 的人體運動序列之后,AvatarGO 會首先構建一個變形場,該變形場由兩部分組成:(1)利用 SMPL-X 線性混合蒙皮函數??????(?)的關節變形,以及(2)基于 HexPlane 特征學習的非剛性運動 [11]。該變形場可以將點從標準空間變形到觀察空間中的
:
其中,表示基于 HexPlane 的特征提取網絡, ??表示時間戳。
則通過離
最近的標準 SMPL-X 的頂點推導得到。
物體驅動:與人體驅動類似,AvatarGO 首先將物體定義為剛體,并類似的通過計算物體模型內的每個高斯點??與其最近的標準 SMPL-X 頂點的變形矩陣
。物體的變形場則可初步被定義為:
其中,,
是
中的高斯點總數。
盡管直接使用 SMPL-X 線性混合蒙皮進行物體動畫可能看起來是一個簡單的解決方案,但它可能導致人體與物體之間的穿模問題。這一問題主要來自于缺乏適當的約束來保持這兩個模型之間的對應關系。
對應關系感知運動優化:通過觀察,作者發現 AvatarGO 在處理不同場景下的靜態合成模型穿模問題時表現出較好的魯棒性。基于這一觀察,作者提出了一種對應關系感知的運動優化方法,以保持人體與物體之間的對應關系,從而一定程度上減少穿模問題的出現頻率。具體而言,AvatarGO 將上述運動場進行擴展,加入兩個額外的可訓練參數
和
:
其中是原有運動場
的輸出。
在通過 SDS 來優化這些參數之外,AvatarGO 提出了一種新穎的對應關系感知訓練目標,該目標利用 SMPL-X 作為中介,在人體和物體被驅動轉換到新姿勢時,保持它們之間的對應關系:
其中,和
分別基于
及其對應的 SMPL-X 模型得出。 除了應用 AvatarGO 提出的對應關系感知優化方法之外,作者還結合了空間感知 SDS 以及來自 HumanGaussian [12] 的紋理 - 結構聯合 SDS,以增強整體質量:
其中,和
是超參數,用于平衡結構損失和紋理損失的影響,而??表示深度信息。
整體上,優化人物和物體運動場的損失函數可表達為:
其中,分別表示用于平衡各自損失的權重。
實驗
與其他 3D 生成方法的比較:下方視頻對比了 AvatarGO 與 HumanGaussian [12]、GraphDreamer [5]、和 AvatarGO 的一個變種(僅通過 SSDS 優化人體和物體之間的關系)。結果表明,1)在沒有大語言模型(LLMs)輔助的情況下,HumanGaussian 難以確定人類與物體之間的空間關聯;2)盡管使用圖結構建立關系,GraphDreamer 仍然在處理有效接觸時存在困惑,導致結果不盡如人意;3)僅通過 SSDS 優化不足以將物體移動到正確的位置。相比之下,AvatarGO 始終能夠精確地實現人類與物體的交互,表現優于其他方法。
與其他 4D 生成方法的比較:下方視頻展示了 AvatarGO 與現有 4D 生成方法(包括 DreamGaussian4D [7],HumanGaussian [12],TC4D [8])的對比。結果表明,1)即使有了人體 - 物體交互圖像作為輸入,DreamGaussian4D(采用視頻擴散模型)在 4D 驅動時仍然面臨困難;2)HumanGaussian 直接通過 SMPL LBS 函數直接進行的動畫,往往會產生不流暢的效果,特別是對手臂的處理;3)TC4D 面臨與 DreamGaussian4D 類似的問題,同時,它將整個場景視為一個整體,缺乏對單個物體的局部和大規模運動的處理。相比之下,AvatarGO 能夠持續提供優越的結果,確保正確的關系并具有更好的穿模魯棒性。
總結
本文介紹了 AvatarGO,這是首次嘗試基于文本引導生成具有物體交互的 4D 虛擬形象。在 AvatarGO 中,作者提出了利用大語言模型來理解人類與物體之間最合適的接觸區域。同時,作者還提出了一種新穎的對應關系感知運動優化方法,利用 SMPL-X 作為中介,增強了模型在將 3D 人體和物體驅動到新姿勢時,抵抗穿模問題的能力。通過大量的評估實驗,結果表明 AvatarGO 在多個 3D 人體 - 物體對和不同姿勢下,成功實現了高保真度的 4D 動畫,并顯著超越了當前的最先進技術。
局限性:在為以人為中心的 4D 內容生成開辟新途徑的同時,作者同時也認識到 AvatarGO 存在一定的局限性:
1. AvatarGO 的流程基于 “物體是剛性體” 的假設,因此不適用于為非剛性內容(如旗幟)生成動畫;
2. AvatarGO 的方法假設物體與人體之間持續接觸,這使得像 “運籃球” 這樣的任務難以處理,因為在某些時刻人與物體不可避免地會斷開連接。