英偉達官方盤點2023年十大研究!「神經朗琪羅」秒變逼真大衛,用AI生成3D虛擬世界
2023年,是人工智能爆炸式增長的一年。
紅色代表人工智能,藍色代表機器學習
微軟、谷歌、Meta等科技巨頭紛紛回顧了這一年研究成果。英偉達雖以賣算力成為全球GPU霸主,但在AI研究方面也毫不遜色。
對此,Jim Fan本人總結了,英偉達2023年研究的十大看點。
主題的主要分布:3個有關具身AI(機器人,虛擬角色);2個有關3D生成模型;2個圖形處理;2個圖像生成;1個視頻生成的研究。
TOP 1:「神經朗琪羅」讓16世紀的大衛復活
來自英偉達和約翰霍普金斯大學的研究人員提出的新型AI模型,利用神經網絡重建3D物體。最新研究還被CVPR 2023錄用。
論文地址:https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf
特別是,Neuralangelo可以從手機視頻,無人機拍攝的視頻重建「高保真的大規模場景」。
Neuralangelo這項研究曾被TIME雜志評為「2023年200個最佳發明」之一。
以前的AI模型在重建3D場景時,往往難以準確捕捉到重復的紋理模式、均勻的顏色以及強烈的色彩變化。
為此,團隊提出了一個將多分辨率3D哈希網格的表征能力和神經表面渲染相結合的全新方法——Neuralangelo。
去年,英偉達研究人員曾創造了一種新工具3D MoMa,將照片變成3D物體易如反掌。
NeuralAngelo建立在這一概念的基礎上,允許導入更大、更詳細的空間和對象。而它特別之處在于,可以準確捕捉重復的紋理模式、同質的顏色和強烈的顏色變化。
通過采用「即時神經圖形基元」,也就是NVIDIA Instant NeRF技術的核心,Neuralangelo由此可以捕捉更細微的細節。
團隊的方法依賴于2個關鍵要素:
(1)用于計算高階導數作為平滑操作的數值梯度;
(2)在控制不同細節級別的哈希網格上進行由粗到細的優化。
即使沒有輔助深度,Neuralangelo也能有效地從多視圖圖像中恢復密集3D表面結構,其保真度顯著超過了以往的方法,使得能夠從RGB視頻捕捉中重建詳細的大規模場景。
比如,Neuralangelo「復刻」出3D版的著名雕像大衛,大理石的細節、紋理栩栩如生。
要知道,收藏在佛羅倫薩美術學院的大衛雕像,僅身高3.96米,加上基座都有5.5米。
它甚至可以重建一棟建筑物的內外部結構,屋頂瓦片、玻璃窗格、還有各種細節都一一再現。
TOP 2:對標DreamFusion,英偉達3D生成模型速度更快
Magic3D是一個可以從文字描述中生成3D模型的AI模型。
論文地址:https://arxiv.org/pdf/2211.10440.pdf
在輸入諸如「一只坐在睡蓮上的藍色毒鏢蛙」這樣的提示后,Magic3D在大約40分鐘內生成了一個3D網格模型,并配有彩色紋理。
Magic3D還可以對3D網格進行基于提示的實時編輯。想改變生成模型,只要改改文字提示,就能立即生成新的模型。
與谷歌DreamFusion方式類似,Magic3D同樣是將低分辨率生成的粗略模型優化為高分辨率的精細模型,由此產生的Magic3D方法,可以比DreamFusion更快地生成3D目標。
從上面Magic3D的架構示意圖可以看出,Magic3D以「由粗到細」的方式從輸入的文本提示中生成高分辨率的三維內容。
整個生成過程分為兩個階段。
第一階段,研究團隊使用eDiff-I作為低分辨率文本-圖像擴散先驗。通過優化Instant NGP獲得初始3D表示。
之后通過反復抽樣和渲染低分辨率圖像,不斷計算Score Distillation Sampling的損失來訓練Instant NGP。
優化后使用DMTet,從Instant NGP中提取一個粗略模型,并使用哈希網格和稀疏加速結構對其進行加速。
該擴散先驗用于計算場景的梯度,根據64×64的低分辨率圖像在渲染圖像上定義的損失進行建模。
第二階段,研究團隊使用高分辨率潛在擴散模型(LDM),不斷抽樣和渲染第一階段的粗略模型。
通過交互渲染器進行優化,反向生成512×512的高分辨率渲染圖像。
TOP 3:高逼真頭發模擬
盡管當前取得了巨大的技術進步,頭發和毛發模擬對動畫工作室來說仍然是一個挑戰。考慮重力、風、相互作用是一項計算密集型任務,無法實時準確完成。
英偉達研究人員實現了在GPU上計算頭發模擬的新方法——ADMM,論文已被SIGGRAPH 2023上展示。
論文地址:https://research.nvidia.com/publication/2023-08_interactive-hair-simulation-gpu-using-admm
總的來說,這項研究實現了使用AI來預測頭發在現實世界中的行為方式。
比起先前的方法,它的性能更加強大,甚至,可以根據頭發的復雜程度以交互幀率計算模擬,如下圖所示,
論文研究者Gilles Daviet解釋道,通過在各種場景中的測試,頭發模擬每幀耗時在0.18-8秒之間。
簡而言之,平均計算時間將根據各種因素而增加,比如頭發數量和長度,或者如何精確處理碰撞。
至于內存,根據場景的不同,模擬所需的內存從1GB到2×9.5 GB不等(在雙GPU設置下)。
這種更快的頭發模擬技術,可用于多種用途。
基于物理的編輯工具可用于調整現有的發型,同時保持彈性和自碰撞約束。
他創建的演示工具可以「統一縮放頭發的長度和/或弧度;沿切割平面修剪發棒;以及通過類似彈簧的力在選擇半徑內直接操作發絲」。
TOP 4:GPT-4加持,AI智能體完成復雜任務
英偉達、賓大、加州理工、德州奧斯汀等機構的專家提出一個開放式Agent——Eureka,它是一個開放式智能體,為超人類水平的機器人靈巧性設計了獎勵功能。
論文鏈接:https://arxiv.org/pdf/2310.12931.pdf
英偉達等機構的研究人員開發出的Eureka系統,可以讓GPT-4直接教機器人完成基本的動作。
比如,花樣轉筆。
具體來說,它是一個GPT-4加持的獎勵設計算法,充分利用了GPT-4優秀的零樣本生成、代碼生成和上下文學習的能力,產生的獎勵可以用于通過強化學習來讓機器人獲得復雜的具體技能。
在沒有任何特定于任務的提示或預定義的獎勵模板的情況下,Eureka生成的獎勵函數的質量,已經能夠超過人類專家設計的獎勵!
具體來說,Eureka通過在上下文中發展獎勵功能,實現了人類水平的獎勵設計,包含了3個關鍵組成部分。
- 模擬器環境代碼作為上下文,快速啟動初始「種子」獎勵函數。
- GPU上的大規模并行RL,可以快速評估大量候選獎勵。
- 獎勵反射可在上下文中產生有針對性的獎勵突變。
TOP 5:用LDM實現高分辨率視頻生成
這篇論文介紹了Latent Diffusion Models(LDM)在高分辨率視頻生成任務中的應用。
通過在低維潛空間中訓練擴散模型,LDM實現了高質量圖像合成,并避免了過多的計算需求。
論文地址:https://arxiv.org/pdf/2304.08818.pdf
研究人員將LDM應用于視頻生成,并進行了微調,實現了對512x1024分辨率駕駛視頻的優秀表現。
此外,研究人員還將現有的文本到圖像LDM模型轉換為高效、精確的文本到視頻模型,并展示了個性化文本到視頻生成的結果。
具體來說,這個模型生成的整體流程如下,先生成關鍵幀,然后也使用擴散模型進行插幀,將相鄰幀的latent作為插幀片段的兩端進行保留,中間待插入的幀latent用噪聲初始化。
然后經過解碼器,生成視頻,再用超分模塊。
在生成長視頻和插幀時,使用mask-condition的方法,就是用一個二值的mask,通過給定一定的context幀的latent,來預測被mask的幀latent,可以通過迭代的方法生成長視頻。
生成的視頻效果如下,分辨率為有1280x2048像素,由113幀組成,以24fps的速度渲染,產生4.7秒的長剪輯。
這項用于文本到視頻生成的視頻LDM基于穩定擴散,總共有4.1B個參數,包括除剪輯文本編碼器之外的所有組件。
在這些參數中,只有27億是通過視頻進行訓練的。
具體用例中,比如可以進行多模態駕駛情景預測。
作為另一個可能相關的應用程序,研究人員可以采用相同的起始幀并生成多個看似合理的推出。在下面的兩組視頻中,合成從相同的初始幀開始。
TOP 6:文本提示生成材質,并且將材質并無縫復制在任何表面上
項目介紹:https://blogs.nvidia.com/blog/siggraph-research-generative-ai-materials-3d-scenes/
英偉達研究人員憑借可幫助藝術家快速迭代3D場景的生成式AI模型演示,贏得了SIGGRAPH現場活動的最佳展示獎。
在演示中,英偉達研究人員在客廳場景下進行了展示。
研究人員使用OpenUSD來添加磚紋理墻,創建和修改沙發和抱枕的面料選擇,以及將抽象的動物設計融入了墻壁的特定區域。
在包括建筑、游戲開發和室內設計在內的創意產業中,這些功能可以幫助藝術家快速探索想法并嘗試不同的美學風格,以創建場景的多個版本。
而這個完全基于物理的材質生成功能將通過英偉達Picasso基礎模型平臺提供服務。
通過英偉達Picasso基礎模型平臺,企業開發人員、軟件創建者和服務提供商可以選擇訓練、微調、優化和推斷圖像、視頻、3D 和 360 HDRi 的基礎模型,以滿足他們的視覺設計需求。
TOP 7 :CALM——訓練可操縱虛擬角色在物理模擬中執行動作的方法
項目地址:https://research.nvidia.com/labs/par/calm/
CALM是一種為用戶控制的交互式虛擬角色生成多樣化且可定向行為的方法。
通過模仿學習,CALM 可以學習運動的表示形式,捕捉人體運動的復雜性和多樣性,并能夠直接控制角色運動。
該方法聯合學習控制策略和運動編碼器,該編碼器可以重建給定運動的關鍵特征,而不僅僅是復制它。
結果表明,CALM 學習語義運動表示,從而能夠控制生成的運動和風格調節,以進行更高級別的任務訓練。
CALM由3個部分組成:
在低級訓練期間,CALM學習編碼器和解碼器。編碼器從運動參考數據集中獲取運動、關節位置的時間序列,并將其映射到低維潛在表示。
此外,CALM 還聯合學習解碼器。解碼器是一個低級策略,它與模擬器交互并生成與參考數據集類似的運動。
第二個階段:方向性控制
為了控制運動方向,研究人員訓練高級任務驅動策略來選擇潛在變量。
這些潛在變量被提供給生成所請求的動作的低級策略。
在這里,學習到的運動表示可以實現某種形式的風格調節。為了實現這一點,運動編碼器用于獲取所請求運動的潛在表示。
然后,向高級策略提供與所選潛在變量和代表所請求風格的潛在變量之間的余弦距離成比例的額外獎勵,從而指導高級策略采用所需的行為風格。
第三階段:推理
最后,將先前訓練的模型(低級策略和方向控制器)組合起來組成復雜的動作,而無需額外的訓練。
為此,用戶生成一個包含標準規則和命令的有限狀態機 (FSM)。它決定了執行哪個動作,類似于用戶如何控制視頻游戲角色。
比如,開發人員可以構建一個 FSM,如 (a)「蹲下走向目標,直到距離 < 1m」,然后 (b)「踢」,最后 (c)「慶?!?。
TOP 8:通過比賽視頻讓虛擬角色學習網球技能
項目地址:https://research.nvidia.com/labs/toronto-ai/vid2player3d/
英偉達研究人員提出了一個系統,它可以從廣播視頻中收集的大規模網球比賽演示中學習各種物理模擬的網球技能。
他們的方法建立在分層模型的基礎上,結合了低級模仿策略和高級運動規劃策略,以在從廣播視頻中學習的運動嵌入中引導角色。
當大規模部署在包含大量現實世界網球比賽示例的大型視頻集上時,研究人員的方法可以學習復雜的網球擊球技巧,并將多個鏡頭真實地鏈接在一起形成擴展的比賽,僅使用簡單的獎勵,并且無需明確的擊球注釋類型。
為了解決從廣播視頻中提取的低質量運動,研究人員通過基于物理的模仿來校正估計的運動,并使用混合控制策略,通過高級策略預測的校正來覆蓋學習運動嵌入的錯誤方面。
系統可以合成兩個物理模擬角色,通過模擬球拍和球的動力學進行長時間的網球比賽。
系統包括四個階段。首先,研究人員估算2D和3D球員姿勢以及全局根部軌跡,以此創建運動數據集。
其次,訓練一個低層次的模仿策略,用于模仿運動數據,控制模擬角色的低層次行為,并生成一個物理修正的運動數據集。
接下來,研究人員對修正后的運動數據集進行條件變分自編碼器(VAE)的擬合,以學習一個低維的運動嵌入,從而產生類人的網球動作。
最后,訓練一個高層次的運動規劃策略,通過結合運動嵌入輸出的身體動作和對角色腕部運動的預測修正,生成目標運動姿態。
然后,通過低層次策略模仿這一目標動作,以控制物理模擬的角色執行所需任務。
TOP 9:高效、高質量的網格優化方法——FlexiCubes
項目地址:https://research.nvidia.com/labs/toronto-ai/flexicubes/
這項研究是基于梯度的網格優化。研究人員通過將 3D 表面網格表示為標量場的等值面來迭代優化 3D 表面網格,這是攝影測量、生成建模和逆向物理等應用中越來越常見的范例。
現有的實現采用經典的等值面提取算法。這些技術旨在從固定的已知字段中提取網格,并且在優化設置中,它們缺乏表示高質量特征保留網格的自由度,或者遭受數值不穩定的影響。
研究人員提出了FlexiCubes,這是一種等值面表征,專門用于優化幾何、視覺甚至物理目標方面的未知網格。
研究人員將額外精心選擇的參數引入到表征中,從而允許對提取的網格幾何形狀和連接性進行本地靈活調整。
在優化下游任務時,這些參數會通過自動微分與底層標量場一起更新。這種提取方案基于雙行進立方體,以改進拓撲屬性,并提出擴展以選擇性地生成四面體和分層自適應網格。
通過大量實驗,研究人員在綜合基準和實際應用中驗證了FlexiCube,表明它在網格質量和幾何保真度方面提供了顯著改進。
具體來說,FlexiCubes提供了兩個顯著的優勢,可以為各種應用實現簡單、高效和高質量的網格優化:
漸進式的優化:網格的微分是明確定義的,基于梯度的優化在實踐中有效收斂。
靈活性:網格頂點可以單獨進行局部調整,以適應表面特征并找到具有少量元素的高質量網格。
通過可微渲染進行攝影測量
可微分等值曲面技術DMTet是最近工作nvdiffrec的核心,它聯合優化了圖像的形狀、材質和光照。
通過在拓撲優化步驟中簡單地用 FlexiCube替換DMTet,保持管道的其余部分不變,我們觀察到在相等三角形數量下改進的幾何重建。
3D 網格生成
最近的 3D 生成模型 GET3D 將 3D 表示差異化地渲染為 2D 圖像,并利用生成對抗框架僅使用 2D 圖像監督來合成 3D 內容。
FlexiCubes可以在 3D 生成模型中充當即插即用的可微分網格提取模塊,并顯著提高網格質量。
使用四面體網格進行可微分物理模擬
FlexiCube可以微分地提取四面體網格。均勻曲面細分允許我們將其與可微分物理模擬框架 (gradSim) 和可微分渲染管道 (nvdiffrast) 結合起來,共同從多視圖視頻中恢復 3D 形狀和物理參數。
在這里,研究人員展示了初步結果:給定變形物體的視頻序列,他們可以恢復靜止姿勢的四面體網格,以及在模擬下再現運動的材料參數。
動畫對象的網格簡化
FlexiCubes 不是在參考姿勢中擬合單個網格,而是允許通過現成的蒙皮工具對網格進行不同的蒙皮和變形,并同時針對整個動畫序列進行優化。
對整個動畫的端到端優化有助于重新分配三角形密度,以避免網格拉伸。
添加網格正則化
FlexiCubes表征足夠靈活,可以通過自動微分直接評估依賴于提取的網格本身的目標和正則化器,并將其納入基于梯度的優化中。
研究人員對提取的網格應用可開發性術語,以促進面板的可制造性。
Top 10:使用專家降噪器集合進行文本到圖像的擴散
項目地址:https://research.nvidia.com/labs/dir/eDiff-I/
英偉達的研究人員提出了eDiff-I,這是一種用于合成給定文本的圖像的擴散模型。
受擴散模型的行為在不同采樣階段不同的經驗觀察的啟發,研究人員訓練一組專家去噪網絡,每個網絡專門針對特定的噪聲區間。
模型通過T5文本嵌入、CLIP圖像嵌入和CLIP文本嵌入為條件,可以生成與任何輸入文本提示相對應的逼真圖像。
除了文本到圖像的合成之外,我們還提供了兩個額外的功能 :
(1) 樣式傳輸,這使我們能夠使用參考樣式圖像控制生成樣本的樣式
(2) 「用文字繪畫」,用戶可以通過在畫布上繪制分割圖來生成圖像的應用程序,這對于制作所需的圖像非常方便。
模型的工作流程由三個擴散模型的級聯組成 :
一個可以合成 64x64 分辨率樣本的基本模型,以及兩個可以將圖像分別逐步上采樣到 256x256 和 1024x1024 分辨率的超分辨率堆棧。
模型采用輸入標題并首先計算 T5 XXL 嵌入和文本嵌入??梢赃x擇使用根據參考圖像計算的CLIP圖像編碼。這些圖像嵌入可以用作風格向量。
然后將這些嵌入輸入到級聯擴散模型中,該模型逐漸生成分辨率為 1024x1024的圖像。
在擴散模型中,圖像合成通過迭代去噪過程進行,該過程逐漸從隨機噪聲生成圖像。
如下圖所示,模型從完全隨機的噪聲開始,然后分多個步驟逐漸去噪,最終生成熊貓騎自行車的圖像。
在傳統的擴散模型訓練中,訓練單個模型來對整個噪聲分布進行去噪。在這個框架中,研究人員訓練了一組專家降噪器,專門用于在生成過程的不同間隔中進行降噪,從而提高合成能力。
eDiff-I和Stable Diffusion對比
風格轉化功能