成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

單張照片生成360°3D場景,支持靈活視角漫游|人大&北師大&字節

人工智能 新聞
本文介紹了FlexWorld,這是一個從單張圖像生成靈活視角3D場景的框架。

從單張圖像生成靈活視角3D場景的技術來了,在考古保護、自主導航等直接獲取3D數據成本高昂或不可行的領域具有重要應用價值。

這一任務本質上是高度不適定的:單一的2D圖像無法提供足夠的信息來消除完整3D結構的歧義,尤其是在極端視角(如180°旋轉)下,先前被遮擋或缺失的內容可能會引入顯著的不確定性。

生成模型,特別是擴散模型,為解決這一問題提供了一種潛在的技術路徑。盡管現有方法通常依賴預訓練的生成模型作為新視角合成的先驗,但它們仍面臨顯著挑戰。

例如,基于圖像的擴散方法容易累積內容誤差,基于視頻的擴散方法則難以處理可能生成的動態內容構建靜態3D場景的影響。最近的研究嘗試通過在視頻擴散模型中引入點云先驗來提升一致性,雖然取得了一定進展,但在可擴展性方面仍存在局限,尤其是在大視角變化下的表現有待提升。

針對上述問題,人大高瓴李崇軒、文繼榮團隊、北師大王一凱團隊與字節跳動的研究員提出了一種新方法FlexWorld,用于從單張圖像生成靈活視角的3D場景。

與現有方法不同,FlexWorld通過合成和整合新的3D內容,逐步構建并擴展一個持久的3D表示。

圖片

該方法包含兩個核心組件:

(1) 一個強大的視頻到視頻(video-to-video, V2V)擴散模型,用于從粗糙場景渲染的不完整圖像生成完整的視角圖像;(2) 一個幾何感知的3D場景擴展過程,用于提取新的3D內容并將其整合到全局結構中。研究團隊在精確深度估計的訓練數據上對先進的視頻基礎模型進行了微調,使其能夠在大幅度相機變化下生成高質量內容。

基于V2V模型,場景擴展過程通過相機軌跡規劃、場景整合和細化步驟,逐步從單張圖像構建出支持靈活視角觀察(包括360°旋轉和縮放等)的3D場景生成。

通過大量實驗,研究團隊驗證了FlexWorld在高質量視頻和靈活視角3D場景合成方面的性能。FlexWorld在生成大幅度相機變化控制下的視頻中展現了出色的視覺質量,同時在生成靈活視角3D場景時保持了較高的空間一致性。為促進學術交流和技術推廣,團隊已開源相關代碼倉庫與訓練權重,供研究社區進一步探索和應用。

性能展示

支持大幅轉角的視頻到視頻生成

在多種不同來源的輸入圖像和相機軌跡下,FlexWorld 中微調的視頻模型可以生成較高質量且3D一致的視頻內容。受益于較好的一致性,這些視頻可以直接用于3D重建,為后續生成靈活視角的場景提供了較好的視覺內容。

圖片

靈活視角的場景生成

根據單張圖片輸入,FlexWorld可以生成靈活視角下的3D場景,這些生成的場景可以在360度旋轉,前進和后退等視角進行探索。這些場景通過多段視頻逐漸構筑生成,旨在擴展出更大的可探索區域,而非僅關注前方區域。

圖片

核心方法

下圖展示了FlexWorld的整體框架。

圖片

逐步構建場景

FlexWorld采用多段視頻逐步構建出一個具有更大可探索區域的場景。在場景內容不足的區域,FlexWorld渲染出該區域的殘缺場景視頻,并通過一個經過微調的視頻到視頻模型,獲得補完的場景視頻。在場景融合階段,視頻中的關鍵幀將會被填充置入場景的不足區域,其他幀則會作為場景表示(即3D Gaussian splatting)的參考圖像優化整體場景表征。

支持大轉角的視頻到視頻模型

FlexWorld中包含一個經過微調的視頻模型,該模型以視頻作為條件,可以從殘缺的輸入視頻中捕捉到相機運行軌跡,輸出符合輸入軌跡的完好視頻,保持良好的3D一致性。該視頻模型選用CogVideoX-5B-I2V作為基座模型,并構造了一系列深度良好的殘缺視頻-良好視頻訓練對。不同于依賴深度估計模型獲得的訓練對,FlexWorld構建的訓練對來自于同一場景密集重建提供的深度,這種訓練對使模型始終明確應該修復的區域,從而能夠在推理時支持更大轉角的相機運動。

基于視頻內容的場景融合

FlexWorld一方面通過高斯優化將多段視頻內容融合進持久化的3D表征中,另一方面通過密集立體模型和深度融合策略,將多段視頻的關鍵幀直接作為初始三維高斯加入表征作為初始化,以充分利用深度估計模型提供的先驗和視頻內部的一致性。

總結

本文介紹了FlexWorld,這是一個從單張圖像生成靈活視角3D場景的框架。它結合了一個微調的視頻到視頻擴散模型,用于高質量的新視角合成,以及一個漸進的靈活視角3D場景生成過程。通過利用先進的預訓練視頻基礎模型和精確的訓練數據,FlexWorld能夠處理大幅度的相機姿態變化,從而實現一致的、支持360°旋轉和前進后退觀察的3D場景生成。大量實驗表明,與現有方法相比,FlexWorld在視角靈活性和視覺質量性能方面表現優異。我們相信FlexWorld具有廣闊的前景,并在虛擬現實內容創作和3D旅游領域具有重要潛力。

本文由中國人民大學高瓴人工智能學院李崇軒、文繼榮教授團隊、北京師范大學人工智能學院王一凱副教授和字節跳動共同完成。共同一作陳路晰和周子晗分別是中國人民大學高瓴人工智能學院的博士生與碩士生,導師為李崇軒副教授。王一凱副教授、李崇軒副教授為共同通訊作者。

論文鏈接:https://arxiv.org/abs/2503.13265項目地址:https://ml-gsai.github.io/FlexWorld/代碼倉庫:https://github.com/ML-GSAI/FlexWorld

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-01-27 09:32:23

2009-08-06 09:56:36

IT培訓北師大

2025-01-07 13:19:48

模型AI訓練

2011-06-27 15:57:21

Qt 3D OpenGL

2013-09-13 10:13:33

2023-08-28 00:41:36

研究優化

2023-07-14 09:41:01

3DAI

2024-09-30 09:35:55

圖像生成AI

2023-01-13 09:28:46

2009-03-20 08:18:18

北師大網上求職

2024-07-31 15:30:05

2021-08-13 15:07:02

模型人工智能深度學習

2009-12-10 10:21:23

2024-10-08 09:25:00

3D模型生成

2023-03-03 21:42:18

鴻蒙

2024-12-10 15:17:11

2011-10-06 13:30:45

宏碁投影儀

2022-03-02 13:44:10

3D模型數據

2025-01-14 09:24:46

2020-11-29 18:58:44

AI 數據人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品资源在线 | 国产在线观看网站 | 日韩精品 | 色综合视频 | 免费播放一级片 | 国产日韩欧美在线 | 国产一区二区三区在线视频 | 亚洲午夜精品视频 | 999精彩视频 | 麻豆视频在线免费观看 | 在线精品一区二区三区 | 欧美a区| 精品国产一区二区三区久久 | 中文字字幕一区二区三区四区五区 | 亚洲一区二区三区久久 | 羞羞网站免费观看 | 99精品久久久久久中文字幕 | 国产精品免费一区二区三区四区 | 亚洲不卡av在线 | 久久久久久国产精品 | 激情a | 中文字幕亚洲视频 | 久久久99国产精品免费 | 色综合视频 | 国产精品一区二区久久精品爱微奶 | 美女张开腿露出尿口 | 99精品国产一区二区青青牛奶 | 日韩免费高清视频 | 国产精品日日做人人爱 | 日韩精品久久一区 | 一区二区三区电影在线观看 | 亚洲激精日韩激精欧美精品 | 91精品国产91久久久久久 | 国产精品成人一区二区 | 精品一区二区电影 | 天天躁日日躁aaaa视频 | 亚洲久久| a级毛片毛片免费观看久潮喷 | 久久久精 | 日韩一级免费看 | 99精品视频免费在线观看 |