康奈爾計算學院院長Kavita Bala:「元宇宙」算什么?上帝之眼或將通過 AI 誕生
本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。
這幾年我的研究主要關注視覺外觀和理解,從微米分辨率到世界級。在我開始演講之前,我先給大家展示一個很有趣的例子,這部電影里主角和世界互動的視覺界面很有意思。
大家能夠看到,當這個人在現實世界中行走時,他的視覺界面上出現了一系列文字。主角是一個汽車迷,所以視覺界面向他展示了這輛車的豐富信息:
僅僅需要一張照片,視覺界面就能告訴你這輛車的全部信息。我們需要計算機視覺和視覺理解領域的研究來推動這種技術的實現。
主角繼續走,當走近這些模特時,你會發現她們并不是真人,盡管她們看起來十分逼真。想要達到這樣的技術,我們就需要研究逼真外觀(Realistic Appearance)。
然后主角走到一個購物櫥窗面前,他看到了櫥窗里的所有商品。這次他的視覺界面向他展示了里面商品的所有信息,甚至會模擬一個佩戴該商品的效果,不需要真正觸碰,主角就可以體驗到商品。
想要達到我給大家展示的這段視頻的效果,我們需要一種叫做“逆圖形(inverse graphics)”的技術,才能把商品的所有屬性數字化,從而與之互動。
我展示這些例子是為了向大家展示我們正在開發的各種技術,大家想必已經聽過很多關于增強現實/混合現實的內容,我剛才提到的都是現在推動增強現實發展的技術。今天我將重點講解其中的視覺技術。
一個模型看起來非常真實,以至于你無法區分其到底是真的還是假的,這就是計算機圖形學領域中的逼真外觀;這個領域還有另一個方向,就是拍下一個物體的照片,我們如何去理解這張照片上物體的所有屬性;接著我們可以在此基礎上繼續發展,從而理解這個世界的屬性。
這就是我今天要講的三大內容:
- 基于物理的視覺外觀模型(Physics-Based Visual Appearance Models)
- 逆圖形(Inverse Graphics)
- 世界尺度的視覺發現(World-Scale Visual Discovery)
1 基于物理的視覺外觀模型
讓我們先從基于物理的圖形講起。
首先我想介紹一個著名的測試:康奈爾盒子(Cornell box)測試,其旨在通過將渲染場景與同一場景的實際照片進行比較來確定渲染軟件的準確性。我給大家展示的兩張圖,一張是人為渲染的,另一張是真的——其實左邊是真實的場景,右邊是虛擬的圖片。
多年來人們致力于創造出這個測試檢測不出來真假的圖片。不過真實的世界并不像康奈爾盒子里面的圖片那么簡單,真實的世界里有許多種材料,比如這張圖里展示的織物、皮膚、樹葉、食物,等等。人們不斷地與這個世界互動,判斷自己所看到的是否真實。當我們想要模擬出下方左圖這個模特的逼真視覺效果時,如何表現這些復雜的材料便是一個很大的挑戰,這也是我研究了多年的問題。
所以我要講講如何正確地捕捉織物和布料的外觀。首先讓我們先提出一個問題,看看這兩幅圖,作為人類,你馬上就能認出來左邊是天鵝絨,而右邊是一種閃閃發光的絲綢一樣的材料,為什么你能立刻辨認出呢?是什么讓天鵝絨看起來像天鵝絨,是什么讓絲綢看起來不同于天鵝絨,而是看起來像絲綢?
答案是:結構。
兩種布料不僅僅是表面不同,其本質是因為它們結構不同,視覺效果才不同。如果我們掌握了這個結構,我們就抓住了它們視覺的本質。
所以我們在最初的項目中所做的是:觀察這些材料的微型CT掃描。
在天鵝絨的微型CT掃描中,我們能看到天鵝絨是一種毛茸茸的材料。
而絲綢的結構則截然不同,絲綢是非常緊密地交織在一起的,經紗和緯紗形成了特定的圖案,正是因為絲綢的結構如此緊密,才為絲綢帶來了那種閃亮的效果。
講到這里,我們會發現,只要把握住了材料的微型結構,基本就把握住了材料的外觀模型,即便材料很復雜,仍然萬變不離其宗。
一旦我們掌握了結構,就能掌握顯示出光學特性的信息,比如顏色等。這些信息足夠讓我們掌握一個完整的模型,讓我們能夠還原出這種材料的逼真視覺效果。
如圖,通過掌握兩種面料的結構特性,我們成功還原出了天鵝絨和絲綢兩種材料的視覺效果。
我們就實際推廣這些模型進行了大量研究,思考這種模型可以得到什么現實應用?,F在我們認為這種工具讓工業設計師、紡織品設計師等進行數字原型制作時更加得心應手,賦予設計師們模擬真實機織織物外觀的能力。
在工業織機中,線軸上使用真實的紗線,加入編織圖案后,工業織機將生產出如下方右圖所示的織物,而我們想要創建的現代視覺圖靈測試本質上是一個完全數字化的管線,使用 CT 掃描和照片等組合可以達到與工業織機相同的效果。
這種虛擬卻逼真的視覺效果可以讓設計師在不需要實際制造織物的情況下就做出重要的決定。
我們實際上創建了低維模型和更直觀的表示材料結構的22個參數,設計師如果能使用上這種工具,將會獲得更大的力量。
而這22個參數則會引向我將要說的第二個話題,逆圖形。
2 逆圖形
我們遇到的第二個問題則是,有了這些模型以后,如何去適應這些模型呢?這也是計算機圖形研究的一個重要話題。
我們首先從光與物體表面的關系說起。
當光遇到金屬的表面,光會被反射出去。而其它材料,比如皮膚、食物、織物等,當光遇到它們的表面,光會進入表面并與物體產生一定互動,我們稱之為次表面散射(Subsurface scattering)。
如上圖所示,判斷壽司是否可口的方式是判斷其外表的光澤與新鮮度。因此想要模擬某種物體的視覺效果,就需要了解光射到這種物體表面發生了什么。
圖注:端到端的管線
在理想情況下,我們有某種已經學習到的表征,在拍下照片后,我們能夠辨認出照片上的物體都具有什么材料屬性,具有什么材料參數,也能得知三項有關不同散射的參數:光在介質中傳播了多遠,散開了多少,散射時物質的反照率是多少等等。
而我們現在擁有很不錯的基于物理的渲染器,可以模擬光射到物體表面的整個物理過程,我認為我們已經有創建這種管道的能力了。
如果把基于物理的渲染器和習得表征結合起來,得到這個端到端的管道,再將輸出圖像和輸入圖像進行匹配并使得損失最小化,如此一來我們就能得到材料屬性(即上圖最中間的material π)。
要有效地做到這一點,我們需要將學習和物理有效結合起來,把世界上的物理渲染過程顛倒過來,努力得到逆參數。
但是,對于形狀和材料的恢復是很困難的,以上流程要求渲染引擎R是可微分的,最近的很多研究都在研究這個問題。
想要就能像電影里的場景一樣復原一個商品的視覺效果,我們需要有一個可微分的渲染管線,即是說我們需要能夠微分關于想要恢復的屬性的損失。以下是一個恢復材料和幾何形狀的例子,我們可以用鏈式法在表面邊緣上進行簡單取樣,從而獲取我們需要的信息。
然后我們就能得出如下圖的一個復原物體視覺效果的流程。首先我們可以用手機對想要復原的物體拍攝一系列圖片,然后對圖片進行初始化,并對材料和形狀進行優化,再通過可微分渲染進行再次優化,最終該物體就可以呈現逼真的模擬效果,可以運用在增強現實/虛擬現實等應用中。
在視覺模擬當中,次表面散射是一個非常重要的現象,下圖是一張多位藝術家的作品,叫做Cubes(方塊)。這些其實是用98種食物做成的邊長為2.5cm的方塊。98種食物的每一種表面都不盡相同,十分復雜,這激起了我們的探索興趣。
由于食物的表面非常復雜,所以在復原材料的屬性時必須要考慮到次表面散射,這方面的具體內容將會在我們稍后發布的論文中呈現,我們已經開發了一種全微分渲染管道。我們利用這種管道恢復的是以次表面散射為核心的材料屬性。最后我們復原了這兩種水果不同的材料和形狀,成功呈現了奇異果和火龍果方塊的視覺效果。
圖注:復原奇異果和火龍果方塊的流程
在以上研究中,我們運用了學習和物理相結合的方式,并總結出了以下3點重要性。
- 理解視覺現象;
- 在復原物體的視覺效果前,先對其呈現的視覺效果進行預判;
- 用戶控制。
3 世界尺度的視覺發現
還記得電影里主角走在街上,他看著櫥窗里的商品,然后視覺界面就告訴他他所看到物體的一切信息的場景嗎?
這就是細粒度對象識別(Fine-grained object recognition),是計算機視覺中的一個很大的研究領域,細粒度對象識別在在產品識別方面、房地產業等許多行業都得到了應用。
圖注:細粒度對象識別提供的精準信息
譬如這張圖上,細粒度對象識別可以說出這個人提著一個x,這個x不是指一個手提包(這個大部分人都可以說得出),這里x指的是一個特定品牌的手提包,這種精度的知識是大部分普通人都說不出的。
本質上說,我們可以通過視覺識別提供專家級別的信息,甚至不止一個領域的專家級別信息,我認為這方面的研究非常激動人心。
這張圖上是一個篝火爐,也許有些人還不能僅僅通過視覺就判定這個物體的用途,而細粒度對象識別不僅可以告訴我們這是一個篝火爐,而且還能提供這個藝術品的名稱、何處可以購買以及設計藝術家的信息。
圖注:宜家APP
我們在宜家的增強現實APP中推出了這個使用方法。我們將視覺識別和虛擬渲染在增強現實的APP中綜合到了一起,從此我們過去關于視覺界面的設想開始逐步變成了現實。
圖注:Meta的購物AI GrokNet的界面
上圖的研究實際上是Meta的購物AI「GrokNet」的一部分。GrokNet的口號是讓每一張圖像都可以引領人們購物(shoppable),而我和我的研究小組的目標則是,讓每一張圖像都能被理解(understandable)。
我以上所說的都是一些較為基礎的研究,而我們現在所做的是以前所未有的規模去收集視覺信息,包括照片、視頻甚至于衛星圖像。這些年我們的衛星數量大幅度增長,現在大約有1500個衛星,這些衛星每天上傳100 tb的數據,如果我們能做到理解衛星圖像,那么我們就可以理解整個世界的發展方向,并且得知世界里在發生什么事情,這是一個非常激動人心的研究方向。
圖注:我們能夠做到從世界尺度去理解圖片嗎?
如果我們能夠做到從世界層面去理解圖片,屆時我們就能回答圖片上的這些問題:我們應該如何生活?我們穿什么?吃什么?我們的行為是如何隨時間變化的?隨著時間的推移,地球又是如何變化的?
于是我們開始與人類學家和社會學家共同研究這個問題,他們對于這些問題非常著迷,只是缺少一個有力的工具去進行研究。與我們合作的其中一位人類學家對于“世界各地的服裝是如何變化的”這個問題非常感興趣,而我們發現這個問題其實與許多方面都有著聯系。
為什么地球上不同地域的人穿著不一樣?我們認為有以下幾個原因:
- 天氣是一個很重要的原因,我們在夏天和加州的人穿著不一樣,因為此處的天氣比加州要涼快;
- 參加派對或者參加體育賽事,各類活動或場合也需要人們穿著特定的服裝;
- 文化差異會使得世界各地衣著不同;
- 潮流趨勢也是一個影響的因素。
所以我們開始研究這個問題,并開始分析一組大約800萬張來自世界各地的人們的圖片。我們發明了一個簡單的識別算法,用來識別人們穿了什么衣服,其中包括12個屬性。
而我們從這個研究里發現了什么呢?
從我們的分析中可以看出一定的規律,比如右上角的人們穿著有一種偏綠的趨勢,而左下角的人們傾向于穿紅色衣服。
通過對大數據的分析,我們發現有一些數據符合我們的預設,如天氣確實影響人們的穿著,人們在冬天選擇穿厚衣服,在夏天穿著涼爽,這符合邏輯;可是在某些方面卻出現了一些奇怪的數據現象,如下圖所示,在芝加哥的數年內,有幾個時間點是人們選擇穿著綠色的高峰。
這幾個時間點都是每年的三月份,經過調查,原來這幾個時間點是芝加哥的圣帕特里克節:
這是當地一個很重要的節日,在這天芝加哥的人們會選擇穿著綠色。如果不是當地人,很可能不知道有這個文化活動。
圖注:世界各地重視的文化活動,人們會為這些活動穿著不同顏色的衣物
通過識別大數據中人們的衣著變化,我們就能夠了解當地的文化/政治活動,從而去了解世界各地不同的地域文化。以上,就是我們從世界的角度去理解圖片信息的意義。
原視頻鏈接:https://www.youtube.com/watch?v=kaQSc4iFaxc