北大&火山引擎奪冠!CLIC視頻壓縮挑戰賽結果公布,中國團隊表現亮眼
隨著以深度學習為代表的新一代人工智能技術不斷取得突破,學術界與工業界逐漸意識到人工智能技術在圖像、視頻壓縮領域的巨大應用潛力。
基于深度學習的圖像視頻壓縮技術被視為超越傳統壓縮技術能力極限、取得突破性進展的明日之星。
近日,第六屆深度學習圖像壓縮挑戰賽(以下將簡稱“CLIC大賽”)比賽結果公布,由火山引擎多媒體實驗室與北大組成的聯合參賽平臺b-2在高碼率視頻壓縮和低碼率視頻壓縮兩個賽道均奪得主客觀指標冠軍。基于深度學習技術,b-2平臺提出了一項“傳統-智能混合解決方案”。
傳統—智能混合解決方案
b-2 平臺在充分理解傳統壓縮技術與深度學習壓縮技術的各自原理的基礎上,發揮兩種技術路線的各自優勢,取長補短,將二者有機融合成為一個整體,形成了獨具特色的傳統——智能混合解決方案。
傳統編碼模塊在業界已有傳統編碼框架基礎上,加入了非對稱四叉樹劃分等創新技術。智能編碼模塊則引入了基于深度學習的環路濾波等技術。
△非對稱四叉樹劃分結構;(a)H1型水平UQT,(b)H2型水平UQT,(c)V1型垂直UQT,(d)V2型垂直UQT。
編碼單元劃分是混合視頻編碼框架的基礎,決定著編碼單元的基本形狀和尺寸。靈活的劃分方法能更有效地表達視頻豐富的紋理和運動,對編碼性能的提升起著至關重要的作用。
團隊提出了非對稱四叉樹 (UQT) 劃分結構,旨在提高視頻的編碼效率。與現有的四叉樹(Quad Tree, QT),二叉樹(Binary Tree, BT),三叉樹(Ternary Tree, TT)劃分結構相比,UQT通過一次劃分生成的子編碼單元能觸及更深的劃分深度,能更有效地捕捉視頻豐富的細節特性。
此外,UQT生成的子塊形狀是無法通過 QT 、BT、TT組合實現的,一定程度上彌補了現有劃分的不足,豐富了劃分的表達。
△環路濾波網絡結構示意圖,包括網絡的輸入,濾波與輸出模塊
傳統視頻編碼中采用環路濾波器去除編碼失真,縮小原始圖像與重建之間的失真,例如經典的去塊濾波、樣本自適應偏移和自適應環路濾波等。
參賽平臺提出了一種基于殘差卷積網絡的增強型環路濾波技術,有機地將環路濾波技術與深度學習技術結合在一起,在網絡結構中與模型訓練中充分利用傳統視頻編碼的先驗信息,提升環路濾波效率。
網絡輸入方面,除重建像素外,團隊將編碼過程中的預測信息、劃分信息、邊界強度以及量化參數等作為增強信息供深度網絡學習,豐富先驗知識,使得網絡能更好地感知壓縮失真。
在分層參考的編碼結構中,待編碼幀將參考已重建的高質量幀。團隊提出對不同時域層次幀所使用的濾波器采用迭代訓練的方式,獲取最接近真實編碼的訓練數據,實現更高性能的濾波。
此外,每個條帶及最大編碼單位均可以在多個濾波模型中自適應地選擇率失真性能最優的網絡模型,并將選擇信息傳輸到解碼端。
△CLIC視頻壓縮賽道基于MOS的排行榜
CLIC大賽由電氣與電子工程師協會IEEE主辦,從誕生開始就獲得了學術界與工業界的廣泛關注。
2023年CLIC大賽暫停一屆,本屆大賽依托于數據壓縮領域的頂級會議 Data Compression Conference (DCC)再次舉辦。本屆DCC中,火山引擎多媒體實驗室有8篇論文入選。此外,這也是該團隊自2022年CLIC大賽高碼率視頻壓縮和低碼率視頻壓縮兩個賽道奪冠后,再次蟬聯。
火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業創新獎及最佳論文獎。