英特爾研究院發布全新 AI 擴散模型,可根據文本提示生成 360 度全景圖
6 月 21 日消息,英特爾研究院今日宣布與 Blockade Labs 合作發布 LDM3D(Latent Diffusion Model for 3D)模型,這一全新的擴散模型使用生成式 AI 創建 3D 視覺內容。
據介紹,LDM3D 是業界領先的利用擴散過程(diffusion process)生成深度圖(depth map)的模型,進而生成逼真的、沉浸式的 360 度全景圖。LDM3D 有望革新內容創作、元宇宙應用和數字體驗,改變包括娛樂、游戲、建筑和設計在內的許多行業。
英特爾表示,LDM3D 是在 LAION-400M 數據集包含一萬個樣本的子集上訓練而成的。LAION-400M 是一個大型圖文數據集,包含超過 4 億個圖文對。對訓練語料庫進行標注時,研究團隊使用了之前由英特爾研究院開發的稠密深度估計模型 DPT-Large,為圖像中的每個像素提供了高度準確的相對深度。LAION-400M 數據集是基于研究用途創建而成的,以便廣大研究人員和其它興趣社群能在更大規模上測試模型訓練。
LDM3D 模型在一臺英特爾 AI 超級計算機上完成了訓練,該超級計算機由英特爾至強處理器和英特爾 Habana Gaudi AI 加速器驅動。最終的模型和流程整合了 RGB 圖像和深度圖,生成 360 度全景圖,實現了沉浸式體驗。