如何評測端到端音視頻質量?
作者 | 袁小霞、黃挺,單位:中國移動智慧家庭質量測試部
Labs 導讀
隨著視頻通話、直播的廣泛應用,音視頻產品種類和形式越來越多。為了對多終端的軟硬件音視頻能力進行評測,整合業界的音視頻測試標準,提出多場景端到端音視頻質量評測方案,可以覆蓋多種端到端音視頻質量評測場景。
Part 01 音視頻質量評測體系
在音視頻的業務場景中,不僅包含實時的視頻通信、視頻直播、視頻點播,還包含云存儲和云游戲等。通過自動化音視頻測試平臺,評測類型由主觀評價和客觀評價組成,結合專家打分、專家儀表和軟件工具,分別提出音頻和視頻的業務指標,集合PESQ、POLQA等音視算法和PEVQ、NIQE等視頻算法,構成一整套音視頻質量評測體系。
Part 02 多場景測試組網
根據多場景測試需要,整合思博倫網絡損傷儀器Attero和音視頻質量測試設備Chromatic Umetrix,搭建有參考源測試環境、無參考源測試環境和SDK hook有參考源測試環境。其中有參考源和無參考源測試環境適用于競品對標的橫向測試中,發送端采集音視頻片源,測試設備錄制接收端播放音視頻并分析的場景;SDK hook有參考源測試環境適用音視頻底層能力的眾向對比測試中,通過hook方式,調用音視頻底層接口將測試指定片源注入到發送端編碼,接收端解碼音視頻后直接通過音視頻質量設備進行分析。組網如圖1所示。
圖1 多場景端到端音視頻質量評測組網
Part 03 多場景多維度網絡方案
根據測試統計結果及參考真實用戶的網絡使用場景設計了如下多場景多維度的網絡測試方案:
- 無限制網絡:網絡帶寬無限制、0%丟包率、0ms抖動;
- 低帶寬限制網絡:1Mbps帶寬限制、0%丟包率、0ms抖動;
- 常規帶寬限制網絡:2Mbps帶寬限制、0%丟包率、0ms抖動;
- 輕度擁塞網絡:3Mbps帶寬限制、5%丟包率、50ms抖動;
- 中度擁塞網絡:2Mbps帶寬限制、20%丟包率、100ms抖動;
- 高度擁塞網絡:1Mbps帶寬限制、35%丟包率、100ms抖動;
Part 04 Gerrit音視頻質量評價模型及應用
4.1 音視頻質量評價指標
- MOS(GED):GED (Gross Error Detection)提供基于幀的針對音視頻業務質量的 MOS評分。GED從用戶感知角度對流媒體點播、音視頻通話等音視頻業務的音視頻流暢度進行分析。同時提供其他實用的KPI指標,對影響音視頻質量的因素進行量化,用來評估音視頻流暢度性能、音頻音視頻同步(需要結合音頻評估算法)等;
- MOS(NR):基于機器學習的AI無參考音視頻圖像質量分析。無需預設音視頻源,模擬人眼對音視頻圖像質量進行MOS打分(1分=差 - 5分=好),同時無參考檢測音視頻TI (Temporal Information)時間復雜度、SI (Spatial Information)空間復雜度、緩沖,卡頓等狀況,結合各種如(不同壓縮比及分辨率下)音視頻圖像質量MOS分,給出一個用戶感知體驗(QoE)分值;
- 幀率:音視頻幀率(Frame rate)是用于測量顯示幀數的量度,一幀代表一副靜止的圖像,測量單位為每秒顯示幀數(Frames per Second,簡:FPS);
- 凍幀率:即音視頻凍屏百分比,通過測試過程中識別出的音視頻畫面凍結時長/測試音視頻總時長得出;
- 破損率:即音視頻破損百分比,通過測試過程中識別出的音視頻畫面破損幀數量/測試音視頻總幀數得出;
- 音畫同步:指音頻與視頻畫面的時間戳一致性,測量單位為毫秒(ms)。
4.2 音視頻質量評分方法
根據上述關鍵指標,依據音視頻流暢度、清晰度指標對實際音視頻體驗影響權重,得出最貼近用戶真實體驗的得分評價算法:
- 單個場景得分(總分10分)=音視頻流暢度得分(總分5分)+音視頻清晰度得分(總分5分) = MOS(GED)x 20%+幀率x 10%+凍幀率 x 10%+音畫同步 x 10%+MOS(NR)x 30%+破損率 x 20%
- 綜合得分(總分10分)=無限制網絡場景得分(總分4分) + 帶寬限制網絡場景得分(總分3分)+擁塞網絡場景得分(總分3分)=無限制網絡場景得分 x 40% + 低帶寬限制網絡場景得分 x 15% +常規帶寬限制網絡場景得分 x 15% + 輕度擁塞限制網絡場景得分 x 10% + 中度擁塞限制網絡場景得分 x 10% + 重度擁塞限制網絡場景得分 x 10%
評價算法分析:
- 單個指標評分范圍為[0,10],8-10分為優秀,6-8分為良好,4-6分為一般,2-4分為差,2分以下為很差;
- 單個場景得分中音視頻流暢度指標和音視頻清晰度指標得分評分范圍為[0,5],4-5分為優秀,3-4分為良好,2-3分為一般,1-2分為差,1分以下為很差;
- 綜合得分評分范圍為[0,10],8-10分為優秀,6-8分為良好,4-6分為一般,2-4分為差,2分以下為很差;
4.3 音視頻質量評價模型應用
以上評價模型應用于自研產品縱向測試和行業頭部產品對標測試數據對比中,以下是部分測試數據統計。
自研產品在優化期間進行縱向對比測試和行業頭部產品對標測試。在6種網絡場景下,自研產品綜合得分提升7.5分,整體質量有明顯提升。與行業頭部產品對標測試中,公司自研產品在各網絡場景得分排名,從2020年的第5名上升至2021年的第2名。
Part 05 結束語
在高質量發展的大背景下,關注服務質量、用戶體驗是音視頻產品測試發展動力之一。為了解決多場景端到端的音視頻測試技術薄弱,評價體系單一的問題,提出多場景、多維度、高可靠的音視頻質量評價體系。借助完善的評價體系,可以精準的評估出待測產品的音視頻質量,最終得分也更貼近于真實的用戶體驗,推動音視頻能力技術的快速提升。