作者 | 徐杰承
51CTO讀者成長計劃社群招募,咨詢小助手(微信號:CTOjishuzhan)
生成式AI不再滿足于文本和圖像,將戰場擴展到三維了!
眾所周知,GPT-4作為目前全世界最先進的多模態大模型,其在對話、文生圖領域的能力可以說幾乎無人能出其右。而如今,GPT-4母公司OpenAI決定再次對其所擁有的疆域進行擴張。
就在上周,OpenAI悄悄發布了最新的文字生成3D模型Shap·E,并一改此前的“保守態度”在Github上對該模型進行了開源(項目地址:https://github.com/openai/shap-e,截止發稿前Stars已經5.5K)。就連OpenAI總裁Greg Brockman也親自發推為Shap·E打了一波廣告。
1、Shap·E能做什么?
根據Github和相關論文介紹,Shap·E是OpenAI最新提出的一款三維資產的條件生成模型,當在大數據集中訓練成對的文本數據及3D模型后,Shap·E能夠在極短時間內反饋復雜多樣的3D資產。簡而言之,當用戶輸入一段簡單的文字描述后,Shap·E在幾秒鐘內便能為用戶生成對應的3D建模。
與其他單一輸出表示的3D生成模型不同,Shap·E采用了3D模型領域創新的隱式神經表示(INR),支持神經輻射場(NeRF)和紋理網格(DMTet)兩種方法。這意味著Shap·E可以直接生成可渲染的隱式函數的參數,從而更快、更準確地生成3D建模。
對于Shap·E的突然問世,部分用戶及業內人士猜測,OpenAI很有可能正在為GPT-4到GPT-4.5的升級進行準備,經歷下一個大階段升級后的ChatGPT將很有可能會新增生成3D建模的能力。
2、Shap·E的技術創新
與此前業內所發布的其他的文生3D模型相比,Shap·E擁有更快的收斂速度,且所生成的3D建模擁有更高的質量。這主要是由于研發團隊在模型訓練過程中采用了神經輻射場(NeRF)技術并利用潛在向量序列代替了點云模式。
作為一種基于神經網絡的3D重建技術,NeRF能夠將場景建模成一個連續的5D輻射場隱式存儲在神經網絡之中,只需輸入多角度2D圖像,便能通過訓練得到完整的輻射場模型并根據模型渲染出任意視角下建模的清晰圖像。相當于從2D圖像中組建出模型的3D畫面,從而實現對物體的精確定位。
除此之外,NeFR的另一個優勢在與其能夠在低功耗的設備上進行渲染。高質量的NeRF甚至能夠在手機或網絡瀏覽器上完成對復雜形狀光線追蹤、高幀率、高分辨率逼真場景的渲染。除此之外NeFR還能夠處理透明和反射材料,使得虛擬建模更加逼真。
然而,雖然相比于傳統的基于集合的建模方法,NeRF在處理光線、反射等問題方面擁有更強的性能,但該技術也擁有兩個較為明顯的缺點——算力消耗大與圖像生成速度慢。
為解決該問題,研發團隊將Shap·E的訓練分為了兩個階段,首先對編碼器訓練,使編碼器能將3D資產映射到隱式函數參數中;其次在編碼器的輸出上訓練條件擴散模型。與此前不同的是,Shap·E使用潛在向量序列代替了點云模式,可同時生成NeRF和DMTet并允許它們以多種方式呈現。
這也使得利用新方法訓練的Shap·E模型與其他文生3D模型相比擁有更高的推理能力、3D模型生成質量以及模型生成效率。與此同時,也使模型的算力消耗保持在了一個相對較低的水平。
3、缺陷與局限性
當然,即便Shap·E的綜合能力相比于現階段同類型模型算得上優秀,但畢竟對目前的科技基礎而言,我們在文生3D建模領域的技術積累還是要弱于對話以及文生圖領域。
雖然Shap·E可以理解很多具有簡單屬性的單個對象的提示,但其在構建概念方面的能力依然比較有限。在實驗中,研究人員發現該模型很難將多個屬性綁定到不同對象,并且在用戶要求生成多個3D建模時,Shap·E有時無法生成正確數量的對象。
除此之外,雖然Shap·E通常能夠根據描述生成可是別的3D建模,但生成樣本通常看起來略顯粗糙或者缺少精致的細節,并且編碼器本身有時就會丟失一些細節紋理。
為了獲得更好的效果,研發人員正在計劃嘗試將Shap·E與基于優化的3D生成技術相結合。例如將Shep·E生成的NeRF或網格用于初始化基于優化的方法;或者將基于圖像的物鏡用于指導建模形狀的取樣過程。然而目前以上方式仍處于研發和測試過程。
有業內相關的算法工程師建議,這個項目的門檻較高,吃瓜群眾還是別浪費時間跑了,而且效果目前也沒有達到圖片生成那種驚艷的效果,不能直接用來做一些素材的生產。
4、文生3D的未來
在ChatGPT引領人們進入AI2.0時代后,在極短的時間內,人們對AI的渴望便已經從簡單的文本、圖像擴展到了視頻甚至三維領域。事實上,如今也已有不少科技企業正在朝向文生3D的領域邁進。
去年年底,NVIDIA研究院便發布了Magic3D文本生成3D模型,可以用于創建較高質量的三位網格模型,并支持圖像生成和基于提示的圖像編輯。谷歌也在數月前開放了自己的神經網絡Imagen,其可以在不經過人工數據標注的情況下實現從文本描述生成三維模型,并能處理較為復雜的文本輸入。
而就在近日,一款名為ChatAvatar的專注于人物面部文生3D模型的產品也已開啟公測,并快速獲得了70余萬瀏覽與關注。截止目前,不少用戶已經利用該產品創建出了逼真度極高的個人專屬3D形象。
就目前而言,在以游戲、影視、建筑設計為代表的行業中,3D內容的生產與消費市場其實已經非常龐大,但在過去大量的內容生產受限于較高的技術要求,使得只有少部分具備專業技能的從業者能夠參與其中,但隨著文生3D模型及產品的逐漸成熟,這種情況將很有可能會被顛覆。
除此之外,盡管現階段文生3D模型或衍生產品在建模細節和精度方面仍有所欠缺,但已有部分業內人士開始嘗試將文生圖工具如Midjourney與之結合,以改善所生成模型的細節質量。一旦將來文生3D建模的技術更加成熟,大量行業的產出和進化速度都將實現飛躍。
5、更廣闊的想象空間
文生3D的研究是一個非常重要的方向,作為如今AI領域走在最前沿的探路者,OpenAI發布Shap·E可以說也在一定程度上證實了這個理論。
在文生3D領域,文本作為一種更通用且更簡單的媒介,可以很好的表達和傳播3D內容,使用戶能夠通過文本實現對大量三維內容的創作、修改及傳播,為用戶提供更加方便且友好的三維內容交互及共享機制。
高質量的文生3D模型在未來也將擁有非常廣泛的應用場景,如游戲、動畫、建筑、教育、醫療、娛樂等;包括VR/AR、3D打印等業務場景,文生3D工具都能夠為其提供不容小覷的效率提升。
文生3D工具可以讓沒有復雜建模軟件基礎及設計能力的用戶通過簡單的文本描述生成自己所需的高質量的3D模型。而對于專業的建模師來說,此類模型或衍生工具的問世也將能夠大幅提升其工作效率。
當然,這里可能有人會說“AI又將摧毀了一個行業”。但觀察其他領域我們其實不難發現,像ChatGPT之于作家、Copilot之于程序員、Midjourney之于設計師,善用工具的人從來不會被時代淘汰,并且他們始終都能夠走在大部分人的身前。
參考鏈接:
https://analyticsindiamag.com/openai-releases-shap-e-nerf-enabled-generative-model/
https://arxiv.org/pdf/2305.02463.pdf
https://www.163.com/dy/article/I474EGMT055240KW.html