成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一行文本,生成3D動態場景:Meta這個「一步到位」模型有點厲害

人工智能 新聞
不再需要任何 3D 或 4D 數據,來自 Meta 的研究者首次提出了可以從文本描述中生成三維動態場景的方法 MAV3D (Make-A-Video3D)。

僅輸入一行文本,就能生成 3D 動態場景?

沒錯,已經有研究者做到了。可以看出來,目前的生成效果還處于初級階段,只能生成一些簡單的對象。不過這種「一步到位」的方法仍然引起了大量研究者的關注:

圖片

在最近的一篇論文中,來自 Meta 的研究者首次提出了可以從文本描述中生成三維動態場景的方法 MAV3D (Make-A-Video3D)。

圖片

  • 論文鏈接:https://arxiv.org/abs/2301.11280
  • 項目鏈接:https://make-a-video3d.github.io/

具體而言,該方法運用 4D 動態神經輻射場(NeRF),通過查詢基于文本到視頻(T2V)擴散的模型,優化場景外觀、密度和運動的一致性。任意機位或角度都可以觀看到提供的文本生成的動態視頻輸出,并可以合成到任何 3D 環境中。

MAV3D 不需要任何 3D 或 4D 數據,T2V 模型只對文本圖像對和未標記的視頻進行訓練。

圖片

讓我們看一下 MAV3D 從文本生成 4D 動態場景的效果:

圖片

圖片

此外,它也能從圖像直接到 4D,效果如下:

圖片

圖片

研究者通過全面的定量和定性實驗證明了該方法的有效性,先前建立的內部 baseline 也得到了改進。據悉,這是第一個根據文本描述生成 3D 動態場景的方法。

方法

該研究的目標在于開發一項能從自然語言描述中生成動態 3D 場景表征的方法。這極具挑戰性,因為既沒有文本或 3D 對,也沒有用于訓練的動態 3D 場景數據。因此,研究者選擇依靠預訓練的文本到視頻(T2V)的擴散模型作為場景先驗,該模型已經學會了通過對大規模圖像、文本和視頻數據的訓練來建模場景的真實外觀和運動。

從更高層次來看,在給定一個文本 prompt p 的情況下,研究可以擬合一個 4D 表征,它模擬了在時空任意點上與 prompt 匹配的場景外觀。沒有配對訓練數據,研究無法直接監督圖片的輸出;然而,給定一系列的相機姿勢?圖片 ?就可以從圖片渲染出圖像序列圖片圖片并將它們堆疊成一個視頻 V。然后,將文本 prompt p 和視頻 V 傳遞給凍結和預訓練的 T2V 擴散模型,由該模型對視頻的真實性和 prompt alignment 進行評分,并使用 SDS(得分蒸餾采樣)來計算場景參數 θ 的更新方向。

上面的 pipeline 可以算作 DreamFusion 的擴展,為場景模型添加了一個時間維度,并使用 T2V 模型而不是文本到圖像(T2I)模型進行監督。然而,要想實現高質量的文本到 4D 的生成還需要更多的創新:

  • 第一,需要使用新的、允許靈活場景運動建模的 4D 表征;
  • 第二,需要使用多級靜態到動態優化方案來提高視頻質量和提高模型收斂性,該方案利用幾個 motion regularizer 來生成真實的運動;
  • 第三,需要使用超分辨率微調(SRFT)提高模型的分辨率。

具體說明見下圖:

圖片

實驗

在實驗中,研究者評估了 MAV3D 從文本描述生成動態場景的能力。首先,研究者評估了該方法在 Text-To-4D 任務上的有效性。據悉,MAV3D 是首個該任務的解決方案,因此研究開發了三種替代方法作為基線。其次,研究者評估了 T2V 和 Text-To-3D 子任務模型的簡化版本,并將其與文獻中現有的基線進行比較。第三,全面的消融研究證明了方法設計的合理性。第四,實驗描述了將動態 NeRF 轉換為動態網格的過程,最終將模型擴展到 Image-to-4D 任務。

指標

研究使用 CLIP R-Precision 來評估生成的視頻,它可以測量文本和生成場景之間的一致性。報告的指標是從呈現的幀中檢索輸入 prompt 的準確性。研究者使用 CLIP 的 ViT-B/32 變體,并在不同的視圖和時間步長中提取幀,并且還通過詢問人工評分人員在兩個生成的視頻中的偏好來使用四個定性指標,分別是:(i) 視頻質量;(ii) 忠實于文本 prompt;(iii) 活動量;(四) 運動的現實性。研究者評估了在文本 prompt 分割中使用的所有基線和消融。

圖 1 和圖 2 為示例。要想了解更詳細的可視化效果,請參見 make-a-video3d.github.io。

圖片

結果

表 1 顯示了與基線的比較(R - 精度和人類偏好)。人工測評以在特定環境下與該模型相比,贊成基線多數票的百分比形式呈現。

圖片

表 2 展示了消融實驗的結果:

圖片

實時渲染

使用傳統圖形引擎的虛擬現實和游戲等應用程序需要標準的格式,如紋理網格。HexPlane 模型可以輕易轉換為如下的動畫網格。首先,使用 marching cube 算法從每個時刻 t 生成的不透明度場中提取一個簡單網格,然后進行網格抽取(為了提高效率)并且去除小噪聲連接組件。XATLAS 算法用于將網格頂點映射到紋理圖集,紋理初始化使用以每個頂點為中心的小球體中平均的 HexPlane 顏色。最后,為了更好地匹配一些由 HexPlane 使用可微網格渲染的示例幀,紋理會被進一步優化。這將產生一個紋理網格集合,可以在任何現成的 3D 引擎中回放。

圖像到 4D

圖 6 和圖 10 展示了該方法能夠從給定的輸入圖像產生深度和運動,從而生成 4D 資產。

圖片

圖片


圖片

圖片


圖片

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2009-11-17 10:13:03

linux系統時間操作系統

2013-12-09 09:20:40

開源云平臺

2009-02-17 18:41:19

2025-05-12 09:31:44

2012-12-17 15:31:00

Windows PhoWindows PhoWindows Pho

2020-09-24 10:26:43

運維開發技術

2009-12-18 11:29:08

2010-05-07 11:04:15

2012-06-19 09:40:51

2020-02-12 18:45:39

負載均衡網站處理壓力

2023-05-15 10:41:13

CSS深色模式

2009-02-18 18:06:57

虛擬化虛擬機Vmware

2019-02-13 12:05:57

編程容器開發

2017-11-17 08:27:47

谷歌自然語言框架

2011-02-25 09:33:01

2010-09-18 16:38:27

電腦體檢網絡安全360安全中心

2011-10-19 15:09:26

一體機評測

2019-08-13 17:10:18

鍵盤機械鍵帽

2018-09-06 14:39:19

網絡營銷
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩天堂av | 亚洲精品欧美一区二区三区 | 又黄又爽的网站 | 亚洲一一在线 | 国产探花 | 伊人网站视频 | 久久久久九九九九 | 天天天堂| www.久久艹| 日韩在线国产精品 | 亚洲午夜电影 | 亚洲欧美日韩久久久 | 国内精品久久久久久影视8 最新黄色在线观看 | 国产精品久久九九 | 国产欧美在线观看 | 国产高清视频一区二区 | 久久精品视频一区二区 | 午夜精品久久久久99蜜 | 中文字幕第90页 | 精品96久久久久久中文字幕无 | 日韩av在线一区 | 国产丝袜一区二区三区免费视频 | 日韩电影一区 | 国产激情偷乱视频一区二区三区 | 中文字幕在线三区 | 亚洲 中文 欧美 日韩 在线观看 | 日韩欧美精品 | 中文字幕一区二区三区日韩精品 | 亚洲精品美女 | 午夜视频在线免费观看 | 九九热精品在线 | 91九色视频 | 国产电影一区二区在线观看 | 久久9999久久 | 国产农村妇女毛片精品久久麻豆 | 久久久www成人免费无遮挡大片 | 国产精品久久99 | 97日韩精品 | 欧美一级黄色片 | caoporn国产精品免费公开 | 五月天婷婷久久 |