成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICML25 | 讓耳朵「看見」方向!僅依靠360°全景視頻,就能生成3D空間音頻

人工智能 新聞
OmniAudio:它能夠直接從360°視頻生成空間音頻,為虛擬現實和沉浸式娛樂帶來了全新的可能性。

空間音頻,作為一種能夠模擬真實聽覺環境的技術,正逐漸成為提升沉浸式體驗的關鍵。

然而,現有的技術大多基于固定的視角視頻,缺乏對360°全景視頻中空間信息的充分利用。

在這樣的背景下,一項在空間音頻生成領域具有里程碑意義的研究應運而生——OmniAudio:它能夠直接從360°視頻生成空間音頻,為虛擬現實和沉浸式娛樂帶來了全新的可能性。

相關代碼和數據集已開源:

https://github.com/liuhuadai/OmniAudio

為何需要從360°視頻生成空間音頻?

傳統的視頻到音頻生成技術主要關注于生成非空間音頻,比如手機外放或者耳機里的聲音,這些音頻缺乏方向信息,無法滿足沉浸式體驗對3D聲音定位的需求。

所以看VR電影或者玩動作游戲的時候,總會覺得少了些代入感。

隨著360°攝像頭的普及和虛擬現實技術的發展,如何利用全景視頻生成與之匹配的空間音頻,就成為了一個亟待解決的問題。

為應對這些挑戰,OmniAudio的研究團隊提出了360V2SA(360-degree Video to Spatial Audio)任務,旨在直接從360°視頻生成FOA(First-order Ambisonics)音頻。

FOA是一種標準的3D空間音頻格式,使用四個通道來表示聲音,包含聲音的方向信息,可實現真實的3D音頻再現。

與傳統的立體聲相比,FOA音頻在頭部旋轉時也能夠保持聲音定位的準確性。

圖片

Sphere360:第一個大規模360V2SA數據集

數據是機器學習模型的基石,然而,現有的配對360°視頻和空間音頻數據極為稀缺。

為此,OmniAudio團隊設計了一個高效的半自動化pipeline,用于構建Sphere360數據集:

首先,通過關鍵字在YouTube上爬取包含FOA音頻和360°視頻的候選素材,應用技術過濾器剔除不符合條件的視頻,并采用頻道為單位進行聚合式爬取。

然后,人工審核補充剩余視頻。

在清洗環節,針對視頻靜態、音頻靜音、過多語音內容以及視音頻不匹配等問題設計了具體檢測算法,確保高質量對齊。

圖片

Sphere360數據集是一個包含超過103,000個真實世界視頻片段的數據寶庫,涵蓋288種音頻事件,總時長達到288小時。收集到的視頻既包含 360° 視覺內容,又支持FOA音頻,并具有高質量和高可用性。

與其他現有數據集相比,Sphere360在規模和適用性上均存在顯著優勢。

圖片

OmniAudio:創新技術實現空間音頻生成

OmniAudio的訓練方法可分為兩個階段:自監督的coarse-to-fine流匹配預訓練,以及基于雙分支視頻表示的有監督微調。

圖片

簡單地說,在預訓練階段,先用普通立體聲音頻轉換為“偽FOA”格式訓練模型,同時通過自監督的掩碼預測方法,讓模型學會音頻的基本結構和時間規律;再使用真實FOA精細訓練,提高掩碼概率,讓模型能夠更好地理解聲音的空間信息。

相比起直接訓練,這種“先普通音頻,再空間音頻”的兩步法顯著改善了模型對空間特征的泛化能力與生成質量。

在完成自預訓練后,OmniAudio團隊將模型與雙分支視頻編碼器結合,同時提取視頻的全局特征和局部視角,進行有監督微調,以達成模型可根據360° 視頻生成高保真、方向準確的空間音頻的效果。

詳細方法可見文末項目鏈接。

成果與展望

OmniAudio團隊在Sphere360-Bench,以及來自YT-360的外部分布測試集YT360-Test上進行有監督微調與評估。

主要結果顯示,OmniAudio在兩套測試集上均顯著優于所有基線。

圖片

但OmniAudio也有一定的局限性:例如,面對包含大量發聲物體的復雜場景時,模型在事件類型識別上仍存在挑戰。

OmniAudio的研究團隊表示,未來的工作將探索更好地理解多目標360° 視頻的技術,并通過持續收集和擴充數據集,進一步推進該領域的發展。

項目主頁: https://omniaudio-360v2sa.github.io/

開源倉庫:https://github.com/liuhuadai/OmniAudio

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-07-31 15:30:05

2025-02-08 09:23:08

2018-02-02 12:30:26

3D打印耳朵衛缺陷

2024-07-04 09:26:16

2022-12-15 21:59:56

AIVR場景

2025-01-07 13:19:48

模型AI訓練

2016-09-21 14:24:37

3D全景瀏覽器瀏覽器

2024-12-10 15:17:11

2023-02-20 09:58:35

模型3D

2024-03-20 15:51:00

AI數據

2025-03-18 10:32:47

2024-07-16 12:02:11

2021-08-13 15:07:02

模型人工智能深度學習

2023-12-12 10:09:33

3D框架模型

2011-08-15 14:16:12

2016-09-13 17:51:23

Html5CSSWeb

2020-11-29 18:58:44

AI 數據人工智能

2016-04-07 09:46:50

H5VR3d

2025-01-08 09:15:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一本一道久久a久久精品蜜桃 | 欧美全黄 | 美国a级毛片免费视频 | 国产精品一区二区三区久久久 | 高清久久久| 欧美福利专区 | 久久久精品一区二区三区 | 欧美日产国产成人免费图片 | 欧美黄色一区 | 在线观看亚洲专区 | 国产良家自拍 | 久久成人一区 | 久久成人精品一区二区三区 | 中文字幕在线观看第一页 | aaa级片 | 欧美国产精品一区二区三区 | 亚洲精品1 | 国产精品一区久久久 | 日韩中文字幕网 | 一级片网站视频 | 国产在线视频一区 | 精品欧美一区二区三区精品久久 | 九九视频在线观看 | 久久久av一区 | 精品国产成人 | 欧美炮房 | 99久久精品免费看国产四区 | 国产精品久久久久久久久久久免费看 | 天天拍天天插 | 成人一区二区三区在线观看 | 国产91丝袜在线播放 | 国产精品精品久久久 | 久久久久久中文字幕 | 久久精品小短片 | 久久久久久久久久久久91 | 激情a| 一区二区三区亚洲视频 | 国产激情视频网址 | 69av片| 国产精品毛片一区二区在线看 | 精品视频一二区 |