淺析VR視頻傳輸方案
Labs 導讀
VR視頻屬于一種弱交互、輕交互業務,這類視頻一般經過預先編排、規劃后,用戶在VR終端以任意自由度視點觀看。用戶與視頻的交互主要發生在用戶轉頭改變當前視點上。VR視頻在分辨率、幀率、色深等多維度指標上相較于傳統視頻要求更高。
Part 01、 VR視頻業務流程
VR視頻從引入、發布到在VR終端設備播放經歷了哪些流程呢?如下圖所示,流程中一般涉及內容提供方(Content Provider,CP)、運營管理方、運營商業務平臺、承載網絡和終端廠商等多家機構。
Part 02、 VR視頻指標
VR視頻傳輸除了和上述業務流程相關外,也和用戶體驗質量(Quality of Experience,QoE)密切相關。一般地,用戶主要關注視頻畫面質量、初緩時長、卡頓情況等,具體指標參數如下表所示。
Part 03、VR視頻傳輸方案
終端每個角度可見的像素數量(Pixels Per Degree,PPD)用來表示VR視頻像素的密度。視場內像素密度越高,清晰度越高、觀看體驗越好。人的單眼水平視場角約為160°,垂直視場角約為150°,以PPD為20進行換算,要求視頻內容的全視角分辨率達到8K(7680×4320)。若考慮幀率、色深和立體感等其他維度的指標,視頻流數據量更大,碼率要求更高。因此,VR視頻傳輸技術重點解決上述問題。
3.1 高質量全視角傳輸方案
高質量全視角傳輸方案對全視角的VR視頻源內容進行投影、切片、編碼后,平面媒體格式的內容由運營商網絡以同等質量傳輸至終端,終端對全視角的內容進行全部或部分切片解碼、渲染,如下圖所示。
圖片
方案優勢:用戶在進行視角(File of View,fov)切換時,終端完成包括碼流解析、視頻解碼和畫面渲染等處理,用戶能即時 (Just-in-time) 看到同等質量的內容。
方案不足:1)受限于人眼水平、垂直視場角和現有終端支持視角(可支持的視角為90°~110°),一般能看到的360°球面信號約為整個全景的19%,以同等質量傳輸全視角內容造成網絡資源浪費。2)全視角內容要求終端側具備與內容同等分辨率的解碼能力。3)等距柱狀投影借鑒地圖經緯線投影的思想,將球面展開為平面矩形,依靠增大面積變形保持角度不變(空間球體畫面在赤道部分投影展開后失真小,而越向兩極,畫面失真越大),改方式投影引入過多無效冗余像素,文件壓縮效率較低。
3.2 基于投影優化的全視角傳輸方案
基于投影優化的全視角傳輸方案使用多面體投影(Platonic Solid Projection,PSP),選擇部分經緯線作為邊界將空間球體面分割成多個部分,再將各部分的局部球面投影到某個多面體(包括四面體、六面體、金字塔、立方體等)的不同面上。多面體投影將球面的不同區域投影到多面體不同面積大小的面,由于每個區域單獨投影,相較于等距柱狀投影極大程度降低了畫面失真?;谕队皟灮娜暯莻鬏敿夹g,雖然減少網絡傳輸的數據量,但仍會傳輸大量未呈現給用戶的內容。
3.3 分片傳輸方案
分片傳輸方案對用戶fov區域使用高質量畫面保障視場內畫質,對非FoV區域使用低質量畫面,使得用戶在切換視角時能看到畫面,保障用戶切換體驗。如下圖所示,分片傳輸方案將高質量的全視角畫面劃分成多個分片,分別對每個高質量分片進行編碼。通過降質處理高質量分片獲取對應的低質量分片。終端根據用戶當前視角姿態向內容側請求對應FoV內高質量分片和非FoV區域的低質量分片,再對獲取的分片進行解碼、拼接成完整畫面。為減少傳輸數據量,非FoV區域的低質量分片也可選擇不全部傳輸,僅傳輸部分角度(比FoV大)區域內的低質量分片。
圖片
方案優勢:1)只分片傳輸fov和部分非fov的方式降低網絡傳輸需求,在終端側復用部分重疊區域視頻分片,能進一步減少內容側向終端側推送數據量。2)非fov區域低質量分片和fov區域高質量分片組合傳輸極大提升了視角切換體驗。
方案不足:1)分片傳輸方案需要在終端對分片進行實時拼接,終端側引入更多計算,對終端計算能力要求更高。2)拼接算法效率或有效性不足,會帶來畫面拼接錯位、高低質量分片拼接明顯等問題。
3.4 基于全視角的分片傳輸方案
基于全視角的分片傳輸方案在內容側提供了低質量的全視角視頻流和高質量的分片視頻流。終端側根據當前的視角信息,向內容側獲取低質量的全視角視頻流以及視角區域范圍內的高質量分片視頻流并進行融合呈現。基于視頻分片的自適應視頻傳輸(Tile Wise Streaming,TWS)方案典型代表,TWS傳輸方案被動態圖像專家組織(Moving Picture Experts Group,MPEG)的全景視頻格式(Omnidirectional Media Format,OMAF)工作組所采納,并被寫入了最新的標準ISO/IEC 23090-2。如下圖所示,TWS方案在內容側準備了具備基本質量要求的全視角視頻流和高質量的Tile(分塊,即按照矩形劃分的分片)視頻流,內容側依據終端視角信息推送全視角視頻流和視角范圍內的多份Tile視頻流,再由終端進行解碼、拼接和呈現等。
圖片
方案優勢:1)全視角低質量畫面不受網絡傳輸和終端解碼能力制約,全視角低質量畫面是確定的,無需終端按需獲取再進行實時拼接,降低了終端的拼接計算壓力。2)在網絡較差場景下,視頻能以基本質量播放,保障了播放流暢度。3)更適用于大屏電視等性能相對較低的終端。
Part 04、 總結
分片傳輸技術方案在fov切換時體驗更佳,目前在該方案上出現大量fov預測相關研究?;诙嘧杂啥鹊囊曈X慣性測距、眼部追蹤等技術,借助AI模型預測用戶視角規律,并將預測內容文件緩存至移動邊緣網絡,借助邊緣緩存和計算能力,提前完成流行內容緩存、近場渲染、GPU云渲染,讓用戶獲得更流暢VR體驗。