抖音集團都在用的畫質評估工具,確定不試試嗎?
導讀
本文從抖音集團內部畫質評估體系的建設歷程著筆,主要分享了畫質評測對于業務的重要性、主要應用場景和內部產品的一些典型實踐案例。通過分享業務視角遇到的一些問題和我們的解決思路,希望能拋磚引玉,為遇到類似困擾的伙伴們提供有價值的參考。
畫質評估體系建設歷程
為何評測畫質如此重要?
我們通過線上業務大量實驗發現,圖片畫質優劣對點擊率、 停留時長等消費類指標有正相關影響,間接影響用戶收益指標。因此,建設一套行之有效的畫質評估體系,保障用戶的畫質體驗是非常有必要性的。
直觀來講,畫質提升能夠為帶來更好的觀感體驗,但QoE綜合體驗也需要考慮其他方面如用戶設備、網絡狀況、觀看環境等多方面因素,不計成本地提升畫質是否能持續為用戶帶來QoE的收益需要在業務場景中通過嚴謹的實驗方案來驗證效果的。
在低質圖像打壓和基于畫質的推薦優化等多項業務中的數據分析積累沉淀,我們獲取畫質評分與用戶主觀體驗之間的明確關系,數據統計顯示用戶對不同畫質內容的敏感程度有著不同趨勢,在中檔畫質分區間持續提升畫質,用戶的QoE體驗也會顯著提升,但當畫質低于或者高于某個閾值時,用戶對于畫質將變得不再敏感,提升/降低畫質對用戶的影響均會降低。
期望中的畫質甜點關系,中段區間的畫質提升會持續帶來QoE收益
實際業務場景中,分析畫質與用戶平均觀看時長的關系,中高畫質可以帶來持續的看播收益
下圖具體描述了兩類典型應用場景下,畫質評估體系在業務實踐中發揮的主要價值:
我們為何自研畫質評估體系?
圖像服務的最終用戶是人類,圖像質量評價致力于成為可衡量圖像的人眼感知質量需求的客觀計算方法。
行業現狀
- 主觀質量評估:最準確,但費時費力費錢,難以批量應用。例如專家評測、眾包測試等。
- 客觀評估算法:省時省力可大規模應用,但無論全參/無參考算法與主觀評測均存在一定GAP,在UGC場景,差距會更加明顯。
業界常用的有參畫質評估算法,主要包括PSNR、SSIM、VMAF等3種:
痛點
- 難以量化畫質增強效果:行業通用指標( PSNR、SSIM、VMAF等)均為有參考畫質指標, 主要適用于壓縮失真的畫質評估,難以量化評估畫質增強效果。
- 不適合 UGC 場景的評分:行業通用指標適用場景存在一定局限性,其訓練數據集主要為PGC內容,在UGC場景的泛化效果較差。
- 評估維度有限:UGC場景下,圖片內容復雜且畫質影響因素多樣,需要更多維度評估指標用于畫質分析和指導優化。
我們如何建設畫質評估體系?
根據點播、直播和圖片等不同形態業務需求,視頻架構多媒體實驗室自研的VQScore 畫質體系提供配套最優的全鏈路畫質打分能力,提供異步或實時畫質打分數據,為后續轉碼、增強、推薦策略和大盤監控提供能力支持。
具體畫質分析打分能力分為兩個部分:
- 內容分析理解:主要包含ROI檢測、CG內容檢測、人臉檢測、內容分類等基礎分類和檢測的能力,為后續畫質打分和增強轉碼提供細分的維度拆解能力和關鍵內容識別能力,實現精細準確的端到端自適應增強轉碼組合能力
- 畫質打分能力:主要包含通用清晰度打分算法、美學指標、高階色彩指標、人像畫質等評估指標,噪聲、塊效應、過曝、臟鏡頭、模糊和偽高清等細分歸因指標,以及超分質量、銳化質量和增強組合評估等前處理畫質提升能力評估指標,通用+歸因+增強多個維度組合,為不同的業務場景的畫質優化需求提供集監控、分析、策略推薦等全方位畫質打分能力
通用的畫質清晰度評估算法基于多樣化多業務場景主觀標注樣本、開源數據集和多樣化失真合成數據集,驅動的輕量transformer-based深度學習的方案,在UGC視頻/圖像場景提供更穩定準確的客觀清晰度預測能力。
在多種業務場景下,根據點播、直播和圖片不同形態業務需求,支持最高4K分辨率內不同投稿內容的源畫質分析,結合業務屬性維度提供深入細化的畫質維度分析,為自適應轉碼提供編碼優化對比和不同時間尺度的畫質監控,為AB實驗和版本迭代等業務流程提供有效的QoE維度數據,同時也可以為多分辨率/碼率檔位播放下發提供畫質與QoS網絡、設備等因素組合組合的自適應播放分發優化能力。
抖音畫質評估體系有哪些優勢?
適用范圍廣泛
- 高質量且規模龐大的訓練數據集,覆蓋PGC和UGC內容,適用范圍廣泛(特別針對UGC場景)。
- 算法模型歷經億級DAU產品持續打磨優化,泛化能力強。
評估維度多元
包含主觀清晰度、大眾美學質量等2類綜合指標和噪聲、亮度等十余類細分指標,支持更多維度、更細粒度地分析畫質問題,便于業務有針對性地進行優化和調整策略。
多業務線上驗證收益顯著
歷經抖音、頭條、番茄小說等數十個大體量業務線上驗證,評估效果可靠,能有效支持業務進行畫質體驗提升,進而帶來用戶消費指標提升,收益顯著。
算法能力業內領先
畫質評估體系涉及的算法模型已申請多項專利。eg. 一種檢測偽高清視頻的方法,一種基于多任務孿生神經網絡的高階視頻色彩質量評價模型,一種三明治視頻自適應播放方法等。
在ICME 2021的「壓縮UGC視頻質量評估」比賽中,火山引擎-多媒體實驗室憑借自研的VQScore算法斬獲無參考視頻質量評價(NR-VQA)MOS賽道第一名。(詳細介紹)
該比賽主要針對 UGC 源視頻畫質和 H.264/AVC 壓縮失真對視頻主觀畫質的影響的研究
畫質評估主要應用在哪些場景?
以瘦身計劃和體重秤之間的關系做個簡單類比,畫質評估體系作為一套相對客觀且行之有效的評測工具,在幫助產品了解業務畫質現狀、了解行業和市場現狀、監測線上畫質變化和支持提升用戶體驗等方面都有非常廣泛的應用。
1. 了解業務畫質現狀
業務團隊可以借助veImageX提供的畫質評估工具,通過離線測評和在線評估等手段高效完成業務產品的畫質摸底;同時,畫質評估體系包含豐富的評測維度(例如噪聲強度、色彩質量、塊效應檢測、過曝光檢測等),數十項細分評測指標可高效幫助業務團隊完成低質圖像歸因分析,快速鎖定問題所在。
2. 了解行業/市場現狀
借助畫質評估工具,可以幫助業務團隊對市場主流產品或同類業務進行畫質評測,以便制定合理的畫質提升目標;同時,綜合用戶主觀評測和客觀指標的對應關系,高效幫助業務團隊確定適合自身業務的畫質評估標準。
3. 監測線上畫質變化
對于一款關注用戶畫質體驗的產品來說,線上畫質監測工具必不可少。而veImageX提供端到端的畫質指標監測工具,可幫助業務團隊長期高效監測線上畫質變化;通過前后數據對比分析,幫助業務有效驗證畫質優化舉措的效果;同時,線上低質問題告警也可幫助業務團隊及時發現問題,保障線上用戶瀏覽體驗。
4. 支持提升用戶體驗
借助畫質評估體系提供的評測結果,業務團隊可以通過對低質圖片進行搜索/推薦降權等方式打壓低質內容,或借助畫質增強能力提升畫質,有效提升用戶的瀏覽體驗,進而帶來點擊率、人均閱讀/消費時長、用戶留存等業務指標正向提升。
典型案例實踐分享
目前,由火山引擎veImageX提供的畫質評估工具已服務于抖音、頭條、西瓜、番茄小說、懂球帝等數十條業務線,在保障用戶的畫質體驗方面發揮著重要作用。接下來,我們選取了幾個典型案例為大家簡要分享我們的實踐經驗。
某短視頻/社區平臺
需求背景
某短視頻/社區平臺是主要用戶分布在多個國家和地區,發布內容覆蓋多個細分垂類。業務團隊收到部分用戶反饋關注到不同國家和內容垂類間的畫質存在一定差異,影響了用戶的瀏覽體驗,從而設立專項進行問題解決。
實踐方案
業務團隊首先使用畫質評估工具對全地區的圖片畫質進行了離線摸底分析,發現部分國家間、某些重點垂類間的圖片畫質有較大差異,故使用自適應增強模型,針對性進行畫質提升的同時盡可能節省碼率。
整體收益
優化后,該平臺各地區間、重點垂類間的畫質基本拉齊且均達到【良好】及以上水平,圖片大小顯著降低,人均停留時長、人均互動、人均閱讀時長、人均session次數等消費指標均顯著正向。
番茄小說
1. 需求背景
相比于網文,漫畫的書封更加精美,信息量也更多,因此在產品形態上,番茄小說頻道采用了大屏的展現形式。然而,在漫畫功能上線后,業務團隊發現,有部分漫畫的原始書封比較模糊,嚴重影響用戶瀏覽體驗。如下圖所示:
為了提升這部分圖片的畫質,業務團隊想到了通過畫質評估篩查低質圖片,使用畫質增強能力搭建自動化處理流程,針對性處理低質圖片,得到高清圖,以提升整體觀感。
2. 實踐方案
業務團隊使用veImageX畫質評估工具,針對出版物(如小說封面、插圖、電子書書封、有聲播放器封面等) 和漫畫(漫畫封面、橫圖等) 等場景進行離線畫質測評,對不同分辨率圖片進行畫質摸底。根據對低質原因的分析和增強算法對主觀畫質提升的收益大小綜合評估,明確差異化的處理方案。最終業務團隊選擇搭建自動化處理流程,根據評估結果對不同畫質等級的圖片進行如自適應增強、超分等優化處理,針對性提升用戶的畫質瀏覽體驗。
低質圖片優化前后對比如下:
3. 整體收益
番茄小說團隊借助veImageX畫質評估和畫質增強能力,有的放矢的提升畫質,有效提升了用戶畫質體驗和點擊率、人均閱讀/消費時長、留存等用戶消費指標。
今日頭條
需求背景
頭條小視頻頻道主要以雙列展示為主,而雙列流頻道展現形式又以封面圖為主。綜合線上實驗結果和實踐經驗發現,封面圖的畫質質量不僅會影響用戶瀏覽體驗,也會影響點擊轉化率和用戶留存等業務指標,如何有效識別封面模糊的內容并進行打壓調控成為一項較為棘手的工作。
實踐方案
借助畫質評估工具,業務團隊對封面圖進行畫質打分,高效識別出低質封面(blockiness≥ X且vqscore< Y)并實行打壓調控策略;同時將vqscore納入推薦模型的參考指標,給優質內容提供更多優先曝光機會。
整體收益
業務團隊通過對低質封面圖進行打壓調控,人工評估封面優質率提升約3倍,封面低質率降低了約36.7% ,模糊封面圖占比降低了約51.4% ,人均閱讀數、 停留時長 、點擊轉化率等業務指標也得到顯著提升。(數據來自業務AB實驗)
幸福里VR
需求背景
幸福里房產VR能力在建設初期,因素材供給來源多樣且渠道紛雜,質量良莠不齊,頻繁收到線上用戶反饋;圖像質量把控主要依靠人工審核、定期抽檢和線上反饋,不僅耗費人力且評估主觀,對全景圖缺乏有區分度的數據指標量化衡量圖像質量和行業領先水平的差距,導致業務團隊難以高效定位畫質問題并針對性的改善和評估優化效果。
實踐方案
通過對線上樣本數據進行離線畫質摸底并綜合算法專家建議,業務團隊最終選定清晰度 ( VQScore )、噪聲(Noise)、亮度(Brightness)、過曝光(Overexporsure) 等四項指標作為全景圖量化評估指標。評估發現精裝 、 簡裝 、毛坯等三種裝修類型存在顯著畫質差異,關鍵差異與環境光線、燈光照明等因素有較高關聯,業務團隊針對性進行迭代優化并監測畫質指標變化,顯著提升了VR看房效果。
整體收益
業務團隊通過畫質評估工具,定位具體的畫質問題,針對性進行迭代優化以縮小和行業領先水平的差距;同時借助veImgaeX 提供的VR畫質增強能力,顯著提升全景圖畫質,階段性實現用戶0客訴,彌補了前端采集設備質量參差等問題。
寫在最后
本文簡要介紹了抖音集團內部對畫質評估體系的業務思考、建設歷程、應用場景和部分實踐經驗。由于篇幅所限,本文對探索歷程、具體實現等細節內容有所省略,但仍希望能給業內同仁們一點啟發或者參考借鑒。