成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

「單張圖像重建3D網格」告別卡頓,從30分鐘提速到45秒!浙大、加州大學等聯合發布One-2-3-45:在線Demo可試玩

人工智能 新聞
擴散模型不再慢,無縫支持基于文本生成3D網格任務!

基于單幅圖像進行三維重建是一項具有重要應用價值的任務,但實現起來也非常困難,需要模型對對自然世界具有廣泛的先驗知識。

之前有工作通過在2D擴散模型的引導下優化神經輻射場來解決這個問題,但仍存在優化時間過長、3D結果不一致以及幾何形狀不佳等問題。

最近,來自加州大學圣迭戈分校、加州大學洛杉磯分校、康奈爾大學、浙江大學、印度理工學院馬德拉斯分校以及Adobe的研究人員聯合提出一個新模型One-2-3-45,以任意物體的單張圖像作為輸入,只需45秒即可在一次前饋過程中生成一個完整的360度的3D紋理網格。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2306.16928.pdf

項目主頁:https://one-2-3-45.github.io/

在線Demo:https://huggingface.co/spaces/One-2-3-45/One-2-3-45

圖片圖片

One-2-3-45主要包括三個組件:

1. 多視角合成:使用視圖條件的二維擴散模型Zero123,以兩階段的方式生成多視圖圖像,輸入包括單幅圖像和相對相機變換,參數為相對球面坐標;

2. 姿態估計:根據Zero123生成的4個鄰近視圖估計輸入圖像的仰角,再將指定的相對位置與輸入視圖的估計位置相結合,獲得多視圖圖像的位置;

3. 三維重建:將多視圖姿態圖像輸入基于SDF的通用神經曲面重建模塊,進行360°網格重建

由于無需使用開銷較大的優化操作,該方法在重建3D形狀時相比其他方法耗時顯著縮短。

此外,該方法還可以生成更好的幾何形狀,產生3D一致性更好的結果,并更忠實于輸入圖像。

在實驗部分,研究人員對該方法在合成數據和全新圖像上都進行了實驗,證明了該方法在網格質量和運行時間上的優勢。

該方法也可以通過集成與現成的文本到圖像的擴散模型,無縫地支持文本到3D的任務。

One-2-3-45

Zero123:以視圖為條件的2D擴散模型

通過在互聯網規模的數據上進行訓練,二維擴散模型可以學習到通用的視覺概念,并且控制條件也從文本擴展到其他模態,例如可視邊緣、用戶涂鴉、深度和法線圖等。

Zero123模型采用類似的思路,將條件設為視點(viewpoint)來控制圖像生成,具體來說,給定一個物體的RGB圖像和一個相對的相機變換,Zero123可以控制擴散模型在變換后的相機視角下合成一個新的圖像。

Zero123根據大規模三維數據集來合成一對圖像及其相對相機變換對穩定擴散進行了微調。

在創建微調數據集的過程中,Zero123假設物體以坐標系的原點為中心,并使用球形攝像機,即攝像機放置在球面上并始終看著原點,相機位置參數包括極角、方位角和半徑,兩個點的差值即為相對攝像機變換參數。

目標是學習一個模型f,使得f在輸入「初始視角,相機變換參數」時與輸入「變換后視角」時感知相似。

實驗結果發現,這種微調方式可以使Stable Diffusion模型用于學習控制攝像機視點的通用機制,對微調數據集之外的物體進行推斷。

NeRF優化能否將多視圖預測提升至三維?

給定一個物體的單張圖像,可以利用Zero123生成多視圖圖像,但能否使用傳統的基于NeRF或基于SDF的方法從這些預測中重建高質量的三維網格呢?

給定單幅圖像后,研究人員首先使用Zero123從球面均勻采樣相機姿態,生成32幅多視角圖像,然后將預測結果輸入基于NeRF的方法(TensoRF)和基于SDF的方法(NeuS),分別優化密度場和SDF場。

圖片圖片

不過這兩種方法都沒有取得令人滿意的結果,生成結果中包含大量的失真和浮點,主要是由于Zero123預測不一致導致的。

圖片圖片

2階段源視圖選擇和真實預測混合訓練

SparseNeuS論文中只演示了正面視圖重構,但研究人員通過在訓練過程中以特定方式選擇源視圖并添加深度監督,將其擴展到在一次前饋傳遞中重構360度網格。

凍結Zero123模型的參數后,在三維物體數據集上訓練。

按照Zero123對訓練形狀進行歸一化處理,并使用球形相機模型;對于每個形狀,首先渲染來自球面上均勻分布的n個攝像機姿態的n幅真實RGB和深度圖像;對于每個視圖,使用Zero123預測附近的四個視圖。

在訓練過程中,將所有4×n的預測結果和真實姿態輸入到重建模塊中,并隨機選擇n個真實RGB圖像中的一個視圖作為目標視圖,然后使用真實RGB值和深度值進行有監督訓練,從而可以讓模型學會處理來自Zero123的不一致預測,并重建一致的360°網格。

相機位置估計

研究人員提出了一個仰角估計模塊來推斷輸入圖像的仰角。

首先使用Zero123預測輸入圖像的四個鄰近視圖,然后以從粗到細的方式列舉所有可能的仰角。

對于每個仰角候選角,計算四幅圖像對應的相機姿態,并計算這組相機姿態的重投影誤差,以衡量圖像與相機姿態之間的一致性。

重投影誤差最小的仰角被用于通過組合輸入視圖的姿態和相對姿態來生成所有4×n源視圖的相機姿態。

實驗結果

圖片圖片

從定性實驗結果來看,在對比現有zero-shot圖像三維重建方法時,包括Point-E、Shap-E等在數百萬三維數據上訓練得到的模型,以及基于Stable Diffusion先驗的優化方法,可以看到One-2-3-45模型在處理合成圖像和真實圖像時都非常有效。

圖片圖片

研究人員還在Objaverse和GoogleScannedObjects(GSO)數據集上對這些方法進行了定量比較。

對于每個數據集,隨機選擇20個形狀,并為每個形狀渲染一張圖像進行評估。

為了使預測結果與真實網格對齊,線性搜索縮放因子和旋轉角度,對采樣點云應用迭代最鄰近點(ICP),并選擇離群值最多的點云。

遵循RealFusion測量了F-score(閾值為0.05)和CLIP相似度,以及在A100 GPU上的運行時間。

圖片圖片

從實驗結果中可以看到,該方法在F-Score方面優于所有基線方法;在CLIP相似度方面,除了Shap-E之外,超越了所有方法。

還可以發現,CLIP相似度對顏色分布非常敏感,而對局部幾何變化(如凳子的腿數、杯子的把手數)的區分度較低。

在運行時間方面,與基于優化的方法相比,該方法具有明顯優勢,其性能與Point-E和Shap-E等三維原生擴散模型相當,即三維重建模塊只需要大約5秒鐘就可以重建一個三維網格,剩余時間主要用于Zero123預測,在A100 GPU上每幅圖像大約需要1秒鐘。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-07-14 09:41:01

3DAI

2021-12-27 15:25:24

神經網絡AI算法

2025-03-18 00:00:00

云原生系統訂單

2025-01-02 12:22:09

2025-01-07 13:19:48

模型AI訓練

2025-03-31 08:52:00

AI模型研究

2022-09-30 15:46:26

Babel編譯器插件

2016-08-03 16:01:47

GitLinux開源

2025-01-26 10:19:21

2024-02-20 13:44:00

AI數據

2025-05-14 09:23:55

2013-02-01 09:01:53

2009-07-16 08:45:19

雅虎谷歌

2024-03-04 13:20:00

數據模型

2024-01-08 13:34:00

模型訓練

2015-11-23 17:34:33

秒借

2020-08-26 10:37:21

阿里3D

2025-01-10 14:00:00

3D模型生成

2021-03-18 15:29:10

人工智能機器學習技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩一区二区在线视频 | 精品免费国产一区二区三区 | 亚洲+变态+欧美+另类+精品 | 欧美在线a | 亚洲国产精品久久久久秋霞不卡 | 免费观看黄a一级视频 | 91在线区| 久久成人综合 | 欧美专区在线观看 | 在线播放国产一区二区三区 | 亚洲a视频| 三区四区在线观看 | 日韩欧美天堂 | 久久亚洲国产精品 | 日韩欧美一级精品久久 | 蜜桃五月天 | 亚洲欧美综合 | 9999国产精品欧美久久久久久 | 亚洲天堂中文字幕 | 色网站视频 | 五月激情综合 | 羞羞视频在线免费 | 国产日韩一区二区三免费 | 久久99久久99精品免视看婷婷 | 欧美又大粗又爽又黄大片视频 | 中文字幕av在线播放 | 欧美日韩精品一区 | www.99re| 美女视频一区二区三区 | 国产精品免费视频一区 | 国产一区欧美 | 亚洲乱码一区二区三区在线观看 | 精品国产乱码一区二区三区a | 国产精品久久在线观看 | 久草网站 | 精品欧美一区二区三区久久久 | 日韩不卡三区 | 久草热在线 | 国产精品久久亚洲 | 亚洲一区二区av | 亚洲精品乱码久久久久久久久 |