五分鐘技術趣談 | 語義通信技術助力平安鄉村建設
Part 01
語義通信技術
平安鄉村業務的快速普及以及攝像頭的高清化,為用戶的生活帶來“安全感”,但同時也面臨接入終端海量接入、碼率持續增長、場景日益復雜等方面的挑戰。傳統框架內用計算復雜度換壓縮率的編碼優化路徑,碼率下降幅度漸緩,呈現瓶頸趨勢;同時,通信信道容量已趨近極限,難以滿足快速增長的海量視頻數據在傳輸、存儲、分析等方面的需求。人腦可達到超高的圖像視頻壓縮性能,其機理為視覺皮層具有邊緣檢測、形狀識別、運動識別等功能,下顳葉能識別復雜物體和面孔,即提取結構化的語義信息。傳統的圖像視頻通信以像素為表征單元,不能契合自然圖像所蘊含的對稱性、重復性、相關性等結構特性,表征效率難以大幅提升。向人腦視覺感知、認知機理學習,以人工智能學科為基礎,探索視頻語義表征模型,可在一定程度上提升表征效率。語義通信借鑒人腦超高圖像視頻壓縮性能機理,突破現有理論框架,將人腦視覺感知、認知機理融入通信過程,實現高效語義表征和極低碼率下視頻的清晰度和流暢度。
研究基于語義的多媒體通信技術,在網絡受限場景下,實現高質量、低帶寬、低存儲多媒體語義通信,并推進相關技術成果在平安鄉村的驗證及應用,技術指標及應用規模達到國內外領先水平。不同于傳統視頻壓縮以像素為單元,語義通信提取圖像語義信息實現高效壓縮,在編碼端資源有限的情況下,實現高效準確的語義表征,并在接收端精確圖像。
- 語義通信編解碼技術
語義通信編解碼技術建立基于場景任務的共享先驗知識庫,將編碼端目標語義提取與解碼端目標生成聯動起來,編碼端根據先驗知識檢測視頻幀中的目標,進行語義提取并轉化為二值素描圖編碼傳輸,解碼端根據知識庫和素描圖進行目標生成,并與背景圖像融合,重建視頻。通過聯合視頻語義編碼的緊湊特征表征及高效特征檢索,實現海量視頻的快速檢索,用于安防等業務場景中。
圖片
其中對于海量視頻特征檢索對性能要求高,為了保證視頻檢索快速準確,語義通信提出視頻編碼與緊湊特征表征的聯合優化方案,獲得更緊湊的特征描述子。基于強化學習構建樹形索引結構,在保證精度的同時提升檢索效率。
圖片
圖片
- 視頻語義通信QoE度量關鍵技術
當前QoE通過研究視頻分辨率、卡頓時間、幀率和比特率等視頻客觀因子對用戶主觀體驗的影響,優化多媒體內容的QoE體驗。然而這些QoE影響因子研究聚焦于視頻客觀特征,無法有效反映語義信息對用戶體驗的影響。提出基于語義因子的QoE評價方法,建立面向語義通信的評價-反饋機制。
對于語義通信系統一般場景的QoE評價,采用平均關鍵點距離,關鍵點缺失率和平均歐式距離作為影響因子,結合傳統QoS起播時間、緩沖比率、平均媒體碼率,以及視頻分辨率、幀率和比特率等客觀因素。
計算語義通信視頻QoE評價之后,需要以此指標反饋調節并優化整個語義通信系統。基于語義通信特點和流程,設計語義QoE的指標與反饋調節機制。在主觀QoE預測中增加語義因子,使得預測模型模型的預測值接近真實用戶評價,同時在客觀QoE指標計算中基于像素、部位以及時序排列三個層級設計指標。通過云端與客戶端的QoE計算結果進行反饋調節,在系統產生關鍵點偏移、幀數下降、輪廓扭曲、時序不穩定時,說明此時視頻重建質量低,啟用輪廓約束、調整傳輸碼率、增加關鍵點數量,編解碼模型調整優化系統,以滿足用戶需求。
圖片
Part 02
結尾
相比主流H.265編碼,在主觀質量相當的情況下,基于語義通信的視頻傳輸平均碼率降低80%以上,在多用戶場景下,相比主流H.265編解碼傳輸,基于語義通信的計算和存儲開銷降低50%以上。為了推進多媒體語義通信技術在平安鄉村的應用實踐,在江蘇省南通市富民村示范應用平臺,完成數字鄉村示范應用平臺搭建,驗證多媒體語義通信在平安鄉村四大場景應用以及語義通信QoE反饋評價效果。通過場景檢測,利用靜態場景一致性強的語義特點,預計可為平安鄉村場景節約云存儲、帶寬60%以上,約7.5億元/年。
圖片