成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!

發(fā)布于 2024-11-18 10:10
瀏覽
0收藏

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2410.16770
項(xiàng)目鏈接:: https://ai.stanford.edu/?yzzhang/projects/scene-language/
代碼鏈接:https://github.com/zzyunzhi/scene-language


斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

亮點(diǎn)直擊

  • 提出了一種場(chǎng)景表示方法,即場(chǎng)景語(yǔ)言,通過程序、詞匯和 embeddings 來(lái)捕捉視覺場(chǎng)景的結(jié)構(gòu)、語(yǔ)義和身份。
  • 提出了一種無(wú)需訓(xùn)練的方法,利用預(yù)訓(xùn)練語(yǔ)言模型從文本和/或圖像中推理表示。
  • 提出一個(gè)通用渲染模塊,將場(chǎng)景語(yǔ)言渲染成圖像。
  • 在文本和圖像條件下的場(chǎng)景生成和編輯任務(wù)上獲得了實(shí)證結(jié)果。

總結(jié)速覽

解決的問題

  • 現(xiàn)有的場(chǎng)景圖表示方法在生成復(fù)雜場(chǎng)景時(shí)存在保真度不足的問題,缺乏精確的控制和編輯能力。

提出的方案

  1. 場(chǎng)景語(yǔ)言:引入了一種新的場(chǎng)景表示方法,通過程序、自然語(yǔ)言詞匯和 embeddings 來(lái)描述視覺場(chǎng)景的結(jié)構(gòu)、語(yǔ)義和身份。
  2. 無(wú)需訓(xùn)練的推理技術(shù):利用預(yù)訓(xùn)練語(yǔ)言模型,從文本和/或圖像中推理場(chǎng)景表示。

應(yīng)用的技術(shù)

  • 預(yù)訓(xùn)練語(yǔ)言模型:用于從文本和圖像中推理場(chǎng)景表示。
  • 圖形渲染器:結(jié)合傳統(tǒng)、神經(jīng)網(wǎng)絡(luò)或混合渲染技術(shù),將場(chǎng)景語(yǔ)言轉(zhuǎn)化為圖像。

達(dá)到的效果

  • 實(shí)現(xiàn)了高質(zhì)量3D和4D場(chǎng)景的自動(dòng)化生成系統(tǒng)。
  • 在場(chǎng)景生成和編輯任務(wù)中,場(chǎng)景語(yǔ)言表現(xiàn)出更高的保真度和精確的控制能力。
  • 提供了一個(gè)通用渲染模塊,能夠有效地將場(chǎng)景語(yǔ)言渲染成圖像。

場(chǎng)景語(yǔ)言

旨在設(shè)計(jì)一種視覺場(chǎng)景表示方法,以編碼場(chǎng)景的結(jié)構(gòu)、語(yǔ)義和視覺內(nèi)容。為此,提出了場(chǎng)景語(yǔ)言(Scene Language),它通過三個(gè)組件來(lái)表示場(chǎng)景:一個(gè)程序,用于通過指定場(chǎng)景組件(我們稱之為實(shí)體)的存在和關(guān)系來(lái)編碼場(chǎng)景結(jié)構(gòu);自然語(yǔ)言中的詞匯,用于表示場(chǎng)景中每個(gè)實(shí)體的語(yǔ)義群組;以及神經(jīng) embeddings ,用于通過允許一個(gè)富有表現(xiàn)力的輸入?yún)?shù)空間來(lái)體現(xiàn)實(shí)體的低層次視覺細(xì)節(jié)和身份。在接下來(lái)的內(nèi)容中,將首先給出這種表示方法的正式定義,然后介紹作為其實(shí)現(xiàn)的領(lǐng)域特定語(yǔ)言(DSL)。

定義

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

場(chǎng)景語(yǔ)言作為編程語(yǔ)言

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

渲染

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

對(duì)于基礎(chǔ)的3D表示,我們使用3D高斯散射,其中圖像通過將一組3D高斯投影到圖像平面上進(jìn)行渲染;其他可微的3D表示,如神經(jīng)場(chǎng),也同樣適用。我們的實(shí)現(xiàn)基于GALA3D,并使用MVDream和深度條件的ControlNet進(jìn)行指導(dǎo)。


我們將上述渲染器稱為高斯渲染器。其他可能的渲染器包括基于原始圖形的渲染器,例如使用立方體、球體和圓柱體等圖形原語(yǔ)的Mitsuba;基于資產(chǎn)的游戲引擎,例如Minecraft;以及布局條件的文本到圖像(T2I)擴(kuò)散模型的前饋推理,例如MIGC,通過控制Stable Diffusion的注意力層實(shí)現(xiàn)二維邊界框條件。下表3展示了總結(jié)。

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

通過預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行推理

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

語(yǔ)言模型在使用常見編程語(yǔ)言(如Python)進(jìn)行代碼生成方面表現(xiàn)出色。在我們的實(shí)現(xiàn)中,提示語(yǔ)言模型生成Python腳本。我們使用輸入條件提示語(yǔ)言模型,即文本或圖像中的場(chǎng)景描述;從上表2中的DSL轉(zhuǎn)換而來(lái)的輔助函數(shù)的Python腳本;以及使用輔助函數(shù)的示例腳本。我們?cè)谒袑?shí)驗(yàn)中使用Claude 3.5 Sonnet作為我們的方法和依賴于LM的基線。

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

應(yīng)用領(lǐng)域

將前文中的方法應(yīng)用于文本條件的3D場(chǎng)景生成和編輯、圖像條件的場(chǎng)景生成以及4D場(chǎng)景生成任務(wù)。

文本條件場(chǎng)景生成

基線。 為了評(píng)估所提出的表示方法,將我們的推理流程與使用其他中間表示(例如場(chǎng)景圖)的3D場(chǎng)景生成方法進(jìn)行比較。特別地,將其與GraphDreamer作為示例方法進(jìn)行比較,該方法通過語(yǔ)言模型提示從輸入文本生成場(chǎng)景圖,然后在SDS引導(dǎo)下生成基于圖的場(chǎng)景。進(jìn)一步通過將我們的結(jié)構(gòu)表示與基于SDS的渲染器的骨干方法MVDream進(jìn)行比較,來(lái)研究結(jié)構(gòu)表示在此任務(wù)中的作用,后者是一種直接的場(chǎng)景生成方法。


結(jié)果。 使用基于SDS的渲染器渲染的文本條件場(chǎng)景生成結(jié)果如下圖4所示。與直接3D場(chǎng)景生成方法MVDream相比,我們的方法具有組合性,并且在涉及多個(gè)對(duì)象的場(chǎng)景中更緊密地遵循輸入提示。與場(chǎng)景圖表示相比,其中實(shí)體關(guān)系被限制為兩個(gè)對(duì)象之間,并且受到自然語(yǔ)言描述粗糙程度的限制,例如“排列成一排”,基于程序的表示提供了更靈活和精確的關(guān)系規(guī)范,例如下圖4中特定的可樂罐排列。這帶來(lái)了實(shí)用的好處,即將涉及復(fù)雜實(shí)體關(guān)系的場(chǎng)景生成的負(fù)擔(dān)從T2I模型(用于我們的方法和GraphDreamer的SDS指導(dǎo))轉(zhuǎn)移到語(yǔ)言模型上,從而實(shí)現(xiàn)準(zhǔn)確和詳細(xì)的生成結(jié)果。

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

為了定量比較我們的方法與基線方法,我們進(jìn)行了用戶研究。在研究中,用戶被要求從我們的方法和兩個(gè)基線方法隨機(jī)生成的三個(gè)動(dòng)畫場(chǎng)景中選擇一個(gè)與文本提示最為一致的場(chǎng)景。我們還報(bào)告了合成場(chǎng)景中對(duì)象數(shù)量是否正確。如下表4所示,我們的方法在提示對(duì)齊方面比基線方法更具優(yōu)勢(shì),并且在計(jì)數(shù)準(zhǔn)確性上有明顯的優(yōu)勢(shì)。

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

文本指導(dǎo)的場(chǎng)景編輯

從我們提出的表示方法生成的場(chǎng)景可以通過使用語(yǔ)言模型(LM)和自然語(yǔ)言編輯指令對(duì)其先前生成的腳本進(jìn)行編輯。結(jié)果如下圖5所示。我們的表示方法為場(chǎng)景編輯提供了一個(gè)可解釋且直觀的界面,因?yàn)楹瘮?shù)具有與詞語(yǔ)相關(guān)的明確語(yǔ)義意義,并且函數(shù)重用顯著提高了程序的可讀性。此外,由于程序的結(jié)構(gòu)反映了場(chǎng)景的結(jié)構(gòu),編輯程序參數(shù)會(huì)導(dǎo)致場(chǎng)景發(fā)生變化,同時(shí)保留原有結(jié)構(gòu),例如下圖5中的樓梯的環(huán)形排列。涉及多個(gè)基本體的理想編輯效果,例如在這個(gè)例子中所有樓梯,可以通過在程序空間中進(jìn)行微小的更改來(lái)有效實(shí)現(xiàn)。最后,程序結(jié)構(gòu)本身,例如Jenga積木集示例中的函數(shù)頭,可以進(jìn)行調(diào)整以實(shí)現(xiàn)僅影響場(chǎng)景相關(guān)部分的局部編輯。

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

我們的表示方法的組合性直接有利于局部場(chǎng)景編輯。相比之下,前文的MVDream不適用于此任務(wù),因?yàn)檎麄€(gè)場(chǎng)景是用單一的3D表示進(jìn)行參數(shù)化的。精確編碼場(chǎng)景組件的幾何關(guān)系進(jìn)一步增強(qiáng)了生成場(chǎng)景的可控性。相比之下,GraphDreamer使用粗略的語(yǔ)言描述來(lái)表示場(chǎng)景組件的二元關(guān)系,因此不適用于涉及精確幾何控制的編輯任務(wù),如上圖5中的第一個(gè)例子所示。

圖像調(diào)節(jié)場(chǎng)景生成

該表示方法可以用于圖像解析和生成與解析后圖像結(jié)構(gòu)和內(nèi)容一致的3D場(chǎng)景。我們通過與下圖6中展示的GraphDreamer進(jìn)行比較來(lái)評(píng)估我們的表示方法。我們的表示方法明確編碼了從輸入圖像中解析出的語(yǔ)義組件、高層次的場(chǎng)景結(jié)構(gòu)(例如可樂罐的重復(fù))以及視覺細(xì)節(jié)(如具有特定形狀和顏色的玻璃瓶)。我們的方法保留了輸入圖像的結(jié)構(gòu)和視覺內(nèi)容。相比之下,GraphDreamer僅從輸入圖像中重建語(yǔ)義信息;由于中間場(chǎng)景圖表示中的信息丟失,它忽略了實(shí)體的姿態(tài)和身份。

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

文本調(diào)節(jié) 4D 場(chǎng)景生成

應(yīng)用前文中的推理方法來(lái)生成4D場(chǎng)景。在此任務(wù)中,4D場(chǎng)景表示與公式(1)中的定義相同,只是程序中增加了一個(gè)4D實(shí)體函數(shù)。


允許使用靈活的原始實(shí)體集合對(duì)于使我們的表示適用于生成不同規(guī)模的4D場(chǎng)景至關(guān)重要,包括具有活動(dòng)部件的物體(例如圖7中的風(fēng)力渦輪機(jī))和具有移動(dòng)物體的場(chǎng)景(例如旋轉(zhuǎn)木馬)。具體而言,原始實(shí)體的粒度根據(jù)所表示的特定場(chǎng)景進(jìn)行調(diào)整,而不是從固定集合中選擇(或像場(chǎng)景圖那樣以對(duì)象為中心)。


此外,基于程序的表示所封裝的層次化場(chǎng)景結(jié)構(gòu)使得可以緊湊地表示4D場(chǎng)景,作為生成輸出的正則化。多個(gè)實(shí)體,例如圖7中旋轉(zhuǎn)木馬場(chǎng)景中來(lái)自函數(shù)horse的輸出,可以組合成一個(gè)函數(shù)horses,從而共享相同的時(shí)間變換。為實(shí)體分組編寫可組合函數(shù)有效地降低了時(shí)間運(yùn)動(dòng)空間的維度,并提高了運(yùn)動(dòng)的保真度。

不同的圖形渲染器

相同的程序可以用前文中描述的不同渲染器進(jìn)行渲染,展示了所提出表示方法的多功能性。結(jié)果如下圖9所示,實(shí)驗(yàn)設(shè)置與前文相同。

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

歧視性信息的可視化

如下圖8所示,使用所提出的場(chǎng)景語(yǔ)言可以直接獲得多種區(qū)分性信息:下圖8b中的語(yǔ)義圖,因?yàn)閱卧~表示每個(gè)實(shí)體的語(yǔ)義;圖8c中的實(shí)例分割,因?yàn)樵摫硎臼怯煽煞蛛x的實(shí)例組成的;下圖8d中的重復(fù)實(shí)例的對(duì)應(yīng)關(guān)系,因?yàn)槌绦蛑付藞?chǎng)景中存在的重復(fù);以及下圖7中顯示的4D場(chǎng)景的密集時(shí)間對(duì)應(yīng)關(guān)系。

斯坦福&UC伯克利開源突破性視覺場(chǎng)景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

結(jié)論

本文引入了一種視覺場(chǎng)景表示方法,稱為場(chǎng)景語(yǔ)言,它編碼了視覺場(chǎng)景的三個(gè)關(guān)鍵方面:通過程序指定的場(chǎng)景結(jié)構(gòu),如層次結(jié)構(gòu)和重復(fù);通過單詞簡(jiǎn)潔概括的個(gè)體組件語(yǔ)義;以及通過神經(jīng) embeddings精確捕捉的每個(gè)組件的身份。將這種表示形式化為使用DSL定義的編程語(yǔ)言。展示了場(chǎng)景語(yǔ)言可以通過預(yù)訓(xùn)練的語(yǔ)言模型從文本和圖像輸入中高效推理。一旦程序執(zhí)行,生成的場(chǎng)景可以通過多種圖形渲染器渲染為圖像。與現(xiàn)有方法相比,場(chǎng)景語(yǔ)言能夠生成具有顯著更高保真度的3D和4D場(chǎng)景,保留復(fù)雜的場(chǎng)景結(jié)構(gòu),并實(shí)現(xiàn)輕松和精確的編輯。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/_vWYDjxs2hnUO6-H4F8OWQ??

標(biāo)簽
已于2024-11-18 11:45:00修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产成人精品一区 | 激情欧美一区二区三区中文字幕 | 麻豆changesxxx国产 | 五月婷婷婷 | 久久精品久久久 | 天天曰天天干 | 中文字幕亚洲一区二区va在线 | 狠狠色综合欧美激情 | 国产精品久久久久无码av | 日本在线免费观看 | 麻豆一区二区三区精品视频 | 国产中文字幕网 | 亚洲黄色网址视频 | 久久精品在线免费视频 | 亚洲第一色av | 亚洲成av片人久久久 | 91日韩在线 | 日本精品一区二区三区视频 | 国产一区二区欧美 | 亚洲欧美国产精品一区二区 | 亚洲欧美激情四射 | 亚洲精品久久久久中文字幕欢迎你 | 爱爱视频在线观看 | 久久久福利 | av在线天堂 | 国产一级一级毛片 | 99久久99久久精品国产片果冰 | 成人激情视频在线 | 盗摄精品av一区二区三区 | 亚洲高清在线 | 国产伦精品一区二区三区高清 | 欧美日韩久久精品 | 亚洲一区二区三区视频在线 | 亚洲精品国产成人 | 久久一 | 在线成人免费观看 | 人人干人人舔 | 观看av| 日韩精品免费看 | 欧美黄色一级毛片 | а_天堂中文最新版地址 |