GPT-4、Midjourney之外,譚平創業團隊要造一個3D基礎模型
前段時間,OpenAI 發布了文生圖模型 DALL?E 3,生成效果非常驚艷。比如,你可以讓它一次畫出幾十個物體,然后再要求它把這些物體全部放到一個沖浪者的背上:
可以看到,DALL?E 3 不僅畫出了足量的物體,就連沖浪者面對重壓時的神情都刻畫了出來。
但細心的網友也發現了一些問題:圖中的鉛筆等物體比例不太正常,模型似乎不太理解日常物品的大小比例關系。
類似的問題其實不僅存在于 DALL?E 3 等二維圖像生成模型。當生成維度提升到三維時,問題變得更加突出:生成的動物可能會有多張臉、多個頭或臉部凹陷而非凸起。這些在人類看起來屬于常識的東西,模型似乎沒有學到。
在香港科技大學電子與計算機工程系教授譚平看來,這些問題之所以存在,是因為現有的基礎模型并沒有充分地在 3D 維度上去理解真實世界。
「AI 最終需要解決真實世界的問題,那就必須要和物理世界發生聯系。而我們這個物理世界是 3D 的,所以自然而然,AI 必須理解 3D,從而理解物理世界。」 譚平指出。
作為在計算機視覺、計算機圖形學領域工作了 20 多年的資深學者,譚平一直認為,3D 是人類視覺認知世界的基礎,因此 3D 信息對于模型準確理解真實世界非常關鍵。它和之前被大量利用的文字信息互為補充,是一個亟待挖掘的「富礦」。如果能夠創建一個 3D 基礎模型,有效地挖掘這個「富礦」,AI 有望從語言走向物理,從字面走向現實,成為真正的、對真實世界有著深刻理解的「通用模型」。
譚平的 Google Scholar 主頁,其論文被引量達到了五位數。
基于這一理念,他所創立的 AI 科技公司 —— 光影煥像(Light Illusions)已經實現了一些基礎技術上的突破:包括更準確的 3D 重建和更優秀的文生 3D 效果。
這些成果不僅可以應用于游戲、影視制作等行業,還會對 XR、具身智能等領域產生重要影響。
不過,由于 3D 數據嚴重匱乏,這件事做起來并不容易。為了了解該公司背后的技術以及這些技術可能創造的社會價值,機器之心與譚平博士展開了深入對談。
3D 基礎模型:AI 走向現實的必由之路
為什么要構建一個 3D 基礎模型?在回答這個問題時,譚平選擇從大規模預訓練模型的本質開始講起。
他表示,預訓練模型本質上是在學習數據中的統計規律,希望從數據中發掘出各種對象之間的關聯性,也就是「知識」。人類上千年文明沉淀下來的文字就蘊含了豐富的知識,比如邏輯、文學、歷史、政治這些抽象的知識,所以能夠訓練出 GPT-4 這類優秀的大型語言模型。
但是,真實世界還有很多要素是難以被準確描述的,或因為司空見慣很少被描述,包括空間結構、幾何形狀、3D 運動、接觸變形等等。
「由于文字存在這些局限,大家買房都需要看戶型圖,甚至通過 VR 看房來了解房間的空間結構,而不是光看文字描述;而設計師也需要給用戶寄送 3D 樣品才能讓對方準確理解新產品的外觀。」譚平舉例說。
所以,譚平認為,要實現通用人工智能(AGI),我們需要兩種類型的基礎模型:一種是今天大家熟知的大語言模型(LLM),另一種則是視覺模型。兩種模型學到的是不同類型的知識,互為補充。
不過,當前的一些視覺模型(比如 Midjourney)多是利用 2D 圖像來訓練的,因為這類數據數量龐大,模型可以從中學到不同物體所具備的特征以及特征之間的關聯,具有很強的泛化性。但美中不足的是,這些數據終究只記錄了真實世界的一個側面,或者說投影,會嚴重影響模型的學習效率,出現前面提到的多頭、多臉等問題。而如果將模型對數據的理解上升到 3D 維度,很多問題就會迎刃而解。
「自然界里面其實也是這個樣子。所有的處于食物鏈頂端的物種,比如說靈長類和所有的猛禽、猛獸都是雙眼朝前的,因為只有雙眼朝前才有所謂的雙目視覺,才能更好地感知三維信息。」譚平類比說。
因此,他們希望構建一個 3D 基礎模型,來讓機器更深刻地理解真實世界,并以此為基礎改造世界。從技術上來講,這個模型要能夠幫助機器感知 3D 物體、3D 環境,理解形狀、距離、空間位置關系等要素。同時,它還要有預判能力,預判這個 3D 世界將如何隨時間演化,推演可能發生的事件。「比如,家庭服務機器人需要知道花瓶掉落地面可能會摔壞,自動駕駛汽車需要知道墻拐角后面可能會有車或人。」譚平舉例說。
「3D 基礎模型是一個非常宏大的目標,是讓 AI 從語言走向物理,從字面走向現實的必由之路。一旦實現這個目標,機器就可以構建一個真實世界的虛擬數字復刻,在這個數字復刻中模擬、仿真各種可能性,并通過機器人技術最終改造真實世界。」這是譚平帶領的光影煥像希望達到的最終愿景。
在技術路線上,譚平認為,3D 基礎模型也將采用和文本、圖像一致的生成式預訓練方式。因為生成模型采用自監督學習來訓練神經網絡,可以非常有效地處理海量訓練數據。不過,在此之前,他們必須解決一個問題:如何在 3D 數據極度匱乏的情況下訓練 3D 生成模型。
3D 數據:表達真實世界的稀缺「富礦」
預訓練模型的本質是從數據中提煉知識。從這個角度來看,我們可以從兩個維度來考察數據的價值:一個是數據中知識的豐富度,另一個是數據的規模。作為真實世界的一種高度精確的表達方式,3D 數據毫無疑問具有很高的知識豐富度,就像經濟價值極高的「富礦」。但從數據規模上來看,3D 數據是極度稀缺的,因為這類數據通常是由藝術家們手工制作的,或者用專業的設備掃描而來,不像文字、圖像那樣在互聯網上隨處可見。
為了讓我們直觀地了解 3D 數據的稀缺程度,譚平給出了一組數字:著名文生圖模型 Stable Diffusion 使用了一個包含 50 億個圖像 - 文本對的數據集(LAION-5B)進行訓練;但相比之下,當前最大的 3D 數據集 Objaverse-XL 數據量僅達千萬級,而且其中還包含很多質量參差不齊的數據,清洗后實際可用的數據完全沒有辦法和文字圖像進行類比。在這種情況下,如果只用 3D 原生數據去做訓練,模型很容易過擬合,泛化性能會受到影響,能處理的任務非常有限。
3D 生成模型泛化能力不足的例子。在這幾個例子中,模型分別被要求生成「騎著火箭的柯基」、「背著雙肩包的豬」和「彈吉他的松鼠」,結果模型漏掉了一些元素。
「3D 數據本來就在一個比 2D 數據更高維的空間,很可能需要更多的數據才能訓練好模型。所以目前的數據是極為不足的。這是一個全行業的挑戰,很難在短期內解決。」譚平介紹說。
為了應對這一問題,很多研究會選擇基于 2D 數據來訓練生成模型。比如一種常見的路線是先用 2D 生成模型生成一張 2D 圖像,再用這張生成的圖像去優化一個 3D 模型,然后重復這一過程,直到 3D 模型渲染的圖像和生成模型產生的 2D 圖像變得一致。這種方式的好處是訓練數據易得,生成模型泛化能力強;局限性在于,由于 2D 生成模型學到的 3D 先驗知識不夠全面(比如缺乏關于相機視點的信息和物體的姿態、幾何結構知識),生成的 3D 結果會出現多視角不一致等問題(如下圖中的幾何結構錯亂)。
因此,光影煥像的目標是在 3D 數據稀缺的客觀條件下,同時使生成模型的泛化能力、生成效果達到可落地水平。要突破這一目標,對 3D 數據的認知是破局關鍵之所在。
光影煥像技術路線:用好 3D 數據
2D 數據數量豐富,訓練出的生成模型泛化能力強;3D 數據知識豐富度高,訓練出的生成模型更懂 3D 世界。因此,光影煥像在打造 3D 模型時首創了基于多源數據的模型融合訓練策略,把 2D、3D 數據都充分利用了起來,重點提升了 3D 數據的利用效率。
我們以一個熊的生成任務為例。單純基于 2D 圖像訓練的模型經常會生成多視角不一致的圖像(如下圖)。
所謂的多視角不一致可以從兩個方面來理解:幾何不一致(如多個頭)和外觀不一致(如多張臉)。在一項相關研究中,光影煥像發現,大多數的多視角不一致問題源于幾何結構的錯位。即在將 2D 結果提升到 3D 世界時,由于 2D 生成模型僅學會了和視角無關的先驗知識(顏色、紋理等在不同視角下都相同的信息),導致多視角不一致性問題。因此他們把主要目標定為通過改進 2D 生成模型,使其能夠產生 3D 一致的幾何結構,同時保持模型的通用性。
為了實現這一目標,團隊提出了一種方法,即先用 2D 圖像訓練擴散模型,然后再用 3D 數據去對 2D 擴散模型進行對齊(align),使 2D 擴散模型具備視角感知能力,并生成規范坐標映射(CCM),從而在 2D 到 3D 的提升過程中與 3D 幾何結構對齊。利用這一方法,光影煥像僅使用相對少量的 3D 數據,就能獲得更強的結果,多視角不一致問題得到大大緩解。
而且,這樣訓練出的模型還保持了強大的泛化能力,支持更多樣的創意(與僅基于 3D 數據訓練的模型相比)。
不同模型文生 3D 效果。最右為光影煥像的模型生成效果。
當然,除了文生 3D 之外,利用 2D 圖像重建 3D 物體也是一個常見的方向。光影煥像的團隊近期研發了一款通過手機拍照實現高質量三維重建的軟件,這背后離不開更準確的相機姿態估計。
「我們團隊過去有多年的三維視覺的技術積累,對于相機姿態求解更有經驗,可以處理更復雜的數據。」譚平介紹說。
這些基礎技術突破為光影煥像未來打造強大的 3D 基礎模型打下了基礎。
譚平:3D 基礎模型剛剛起步
先解決技術問題才能加速拐點的到來
雖然是一家以技術起家的公司,但從譚平目前透露的信息來看,光影煥像并不崇尚「閉門造車」的做事方式,而是已經按照存量市場和增量市場的劃分,展開了商業化落地的探索。
在存量市場上,3D 視覺在游戲、影視制作、物體 / 場景三維重建等 ToB 領域有著廣闊的應用場景。這些領域需要消耗大量的 3D 資產,但資產的制作周期卻很長,成本也很高,嚴重拖累了產品的迭代更新速度,這是譚平觀察到的現象。
「不同于依賴專業人士制作 3D 資產,目前海外的一些公司(比如 Minecraft、Roblox 等游戲公司)采取開放策略,讓用戶自己快速制作 3D 內容,極大地挖掘了玩家的創意,提升了游戲的可玩性。但目前用戶創建的內容質量都比較粗糙。我們的 3D 基礎模型有機會實現更高質量的內容創建。」譚平介紹說。
從目前公布的技術進展中,我們也能看到光影煥像在這方面所做的努力。比如,他們的文生 3D 技術其實支持多種生成類型(模型、紋理、 空間布局)和多種三維數據表達(經典網格模型、NeRF 等)。這意味著,他們的模型更容易集成到現有的渲染引擎、接到不同的應用中去。相比而言,今天很多文生 3D 的模型都是基于 NeRF 表達來設計的,這樣可能就沒辦法直接應用于游戲等應用,而光影煥像的模型就更為靈活。
在以 XR、具身智能等前沿技術驅動的增量市場上,光影煥像同樣大有可為。
比如,在研發 3D 生成模型過程中,他們發現,生成模型可以增強機器的泛化能力,幫助機器處理從未遇到過的場景問題:給定一個未知物體的圖像,生成模型可以生成出這個物體適合被機械手抓取的點,然后結合三維坐標的深度信息形成穩定的抓取位置,控制機器人去抓取過去從未見過的物體,極大地提高了機器的通用抓取能力。
當然,這只是 3D 生成模型應用于機器人研究的一個例子。在更廣闊的具身智能領域,許多任務(如物體的姿態估計、操作序列生成)都需要在 3D 空間中來完成,也都可以受益于 3D 基礎模型的發展。「我們相信下一代消費級的計算終端終將到來,服務性機器人也終將會走到千家萬戶,3D 基礎模型所帶來的能力可以幫助這些智能設備理解真實物理世界,從而更好地完成各種任務。」譚平展望說。
不過,需要承認的一點是,現在的 3D 基礎模型尚不成熟,可能處于 ChatGPT1.0 的水平。但是,我們還是可以明顯看到技術的拐點。按照團隊當前的研發規劃,光影煥像有望在 2-3 年內達到生產級別的可用性。因此,譚平認為,現在的重心應該是解決底層的技術問題,所有的短期商業化策略都應該是為技術的迭代和公司實現自我造血服務的,真正的商業化爆發時間點將在技術成熟之后。
為此,他組建了一支精悍的技術團隊。團隊成員大都來自于互聯網大廠,包括阿里、字節、美團等。他們在三維視覺領域都有多年的研發經驗,也取得了很好的成績,例如 2019 年 KITTI Depth Completion Benchmark 第一名、2020 年 Multi-view Stereo Benchmark 第一名、2022 年 KITTI/NYU Depth Estimation Benchmark 第一名等。他們研發出的一些底層技術也被外界廣泛應用,比如在 2022 年 CVPR 的 Image Matching Challenge 中,前 6 名有一半的團隊采用了他們提出的用于圖像匹配的網絡 QTA。
對于公司所選的這個方向,身為創始人的譚平有著堅定的信念。20 多年前,他被射影幾何的優雅、簡潔以及 3D 視覺理論的嚴謹、深邃所吸引,走進了這個領域。后來在企業工作的經歷讓他認識到,雖然 3D 很難,但是應用很豐富,不論是自動駕駛、機器人還是 AR/VR,各種應用都需要讓機器理解真實物理世界,都離不開 3D 視覺。這堅定了他深耕 3D 這個方向的信心。
「我非常篤定,在退休之前,我做的工作肯定只會是三維視覺,肯定都是跟自動駕駛、機器人、AR/VR 眼鏡相關的東西,除了這個我可能什么都不想碰。」譚平曾對學生說。
目前,譚平帶領的這支創業團隊已經得到了不少投資人的青睞。種子輪領投方清智資本合伙人張煜表示:
生成式 AI 是 AI 發展的新的里程牌。其中,3D 生成是 AIGC 發展的重要方向,也是行業難點。光影煥像團隊具有世界頂尖的理論水平和扎實的實踐功底,從基礎模型層面上解決了包括生成模型的幾何不一致和隨機物體的自適應抓取等行業關鍵問題,使得 AI 向實用化邁出關鍵的一步,同時也大大推進了具身智能的商業落地,創造了基礎理論的突破和巨大的產業價值。譚博士帶領下的創業團隊是一支有朝氣、敢于突破創新、敢啃硬骨頭的年輕團隊,團隊短時間內接連在理論研究、算法框架、工程實踐、商業落地等各個方面獲得了突破。作為專注于投資早期 AI 項目的創投基金,我們對團隊未來發展充滿信心,希望團隊為社會發展和科技進步創造更大的貢獻。