AIoTel下視頻編碼技術(shù)

作者：移動(dòng)Labs 2022-10-24 10:09:54

視頻作為一種基礎(chǔ)的通信交互媒介，也隨之迎來更廣闊、豐富、多變的的應(yīng)用舞臺(tái)，本期我們就先從這個(gè)舞臺(tái)的支柱——視頻講起，探知AIoTel下的視頻特征及編碼技術(shù)。在進(jìn)入正題之前，首先讓我們了解一下，什么是AIoTel？

作者 | 黃敏峰，單位：中國(guó)移動(dòng)智慧家庭運(yùn)營(yíng)中心

Labs 導(dǎo)讀

萬物互聯(lián)時(shí)代，AIoTel技術(shù)打通了人與物之間的交互壁壘，構(gòu)筑出人與人、人與物、物與物廣泛連接的通信系統(tǒng)，極大拓展了通信邊界。視頻作為一種基礎(chǔ)的通信交互媒介，也隨之迎來更廣闊、豐富、多變的的應(yīng)用舞臺(tái)，本期我們就先從這個(gè)舞臺(tái)的支柱——視頻講起，探知AIoTel下的視頻特征及編碼技術(shù)。在進(jìn)入正題之前，首先讓我們了解一下，什么是AIoTel？

1 AIoTel及媒體特征

AIoTel是一個(gè)組合詞，它由AI+IoT+Telephony拼接而成，表達(dá)由智能設(shè)備、物聯(lián)網(wǎng)、多媒體通信等技術(shù)構(gòu)建的新型多媒體交互體系，也稱作物聯(lián)多媒體。在這個(gè)體系中，人不再占據(jù)交互主導(dǎo)地位，而出現(xiàn)了物與物、物與人的互動(dòng)方式。

AIoTel通信

相較傳統(tǒng)多媒體通信技術(shù)有以下三個(gè)突出特點(diǎn)：

1.1 場(chǎng)景多樣化

物聯(lián)多媒體通信服務(wù)廣泛存在于各種地方、各類設(shè)備和軟件中，涵蓋安防、汽車、家居、醫(yī)療、辦公和工業(yè)等眾多應(yīng)用領(lǐng)域，對(duì)視頻的能力要求各不相同。安防視頻靜態(tài)背景和動(dòng)態(tài)對(duì)象相結(jié)合，汽車自動(dòng)駕駛、辦公會(huì)議通常對(duì)媒體的實(shí)時(shí)性有較高要求。醫(yī)療、家居娛樂對(duì)高清、超高清的需求較為顯著。

1.2 終端多態(tài)化

物聯(lián)網(wǎng)多媒體通信服務(wù)向消費(fèi)者傳遞信息的場(chǎng)景和媒介的界限也在被不斷突破和延展，終端的形態(tài)更加豐富。智能電視、智能冰箱、智能音箱、早教機(jī)、智能手環(huán)等大、中、小、微屏形態(tài)各異。

1.3 網(wǎng)絡(luò)復(fù)雜化

承載物聯(lián)多媒體通信服務(wù)的網(wǎng)絡(luò)可能是廣域網(wǎng)（如Internet）、局域網(wǎng)、無限局域網(wǎng)（如wifi）、個(gè)域網(wǎng)（如藍(lán)牙，紅外，NFC等）不一而足，網(wǎng)絡(luò)帶寬、網(wǎng)絡(luò)穩(wěn)定性等網(wǎng)絡(luò)環(huán)境差異巨大。

終端多樣化和網(wǎng)絡(luò)復(fù)雜化，決定了物聯(lián)多媒體視頻編解碼應(yīng)具備智適應(yīng)能力，即編碼器能更據(jù)屏幕尺寸、網(wǎng)絡(luò)環(huán)境自動(dòng)調(diào)節(jié)分辨率、碼率以及抗丟包能力。

場(chǎng)景多樣化，如何更據(jù)場(chǎng)景特點(diǎn)來決定編碼目標(biāo)，包括極致壓縮、實(shí)時(shí)編碼、高清低碼等，形成物聯(lián)多媒體場(chǎng)景化編碼能力。

接下來我們會(huì)更加詳細(xì)地介紹智適應(yīng)和場(chǎng)景化這兩個(gè)主要特征。

2 智適應(yīng)

在AIoTel的視頻應(yīng)用中，需要根據(jù)終端、網(wǎng)絡(luò)、內(nèi)容、應(yīng)用等不同特征智適應(yīng)調(diào)整，提出了四個(gè)方面的編碼要求：自適應(yīng)屏幕、自適應(yīng)帶寬、自適應(yīng)參數(shù)、自適應(yīng)內(nèi)容。

自適應(yīng)屏幕

自適應(yīng)屏幕的目的是視頻媒體能夠自動(dòng)適配大、中、小不同尺寸屏幕，目前有多種方案，一種是是可分級(jí)編碼（SVC），把視頻信號(hào)分層多個(gè)層級(jí)。在編碼端對(duì)原始視頻信號(hào)經(jīng)下采樣、重構(gòu)、上采樣等過程，形成一個(gè)基本層和多個(gè)增強(qiáng)層，基本層碼流可以單獨(dú)解碼，還原最低質(zhì)量碼流，增強(qiáng)層中包含高質(zhì)量視頻重構(gòu)所需的額外信息。另一種視頻超分（SR），接收端把低分辨率的視頻幀，利用插值、深度學(xué)習(xí)等方式，經(jīng)過視頻降噪、銳化、去模糊、去抖動(dòng)等增強(qiáng)處理，擴(kuò)充像素點(diǎn)，使視頻達(dá)到較高分辨率，提升低分辨率在高分辨率上的視頻質(zhì)量。

自適應(yīng)帶寬

自適應(yīng)帶寬是根據(jù)不同網(wǎng)絡(luò)中帶寬的承載能力，動(dòng)態(tài)調(diào)整編碼參數(shù)，控制傳輸碼率，實(shí)現(xiàn)編碼能力與網(wǎng)絡(luò)能力的匹配。要實(shí)現(xiàn)良好的應(yīng)用效果，需要綜合多種手段來聯(lián)合控制。通用的方法是結(jié)合編碼輸出帶寬和當(dāng)前網(wǎng)絡(luò)的狀態(tài)，動(dòng)態(tài)調(diào)整幀率、分辨率、碼率等參數(shù)。這些參數(shù)的調(diào)整都會(huì)對(duì)視頻質(zhì)量產(chǎn)生影響，對(duì)幀率的調(diào)整，會(huì)影響視頻的流暢程度；對(duì)碼率的調(diào)整，會(huì)影響存儲(chǔ)、帶寬和清晰度；對(duì)分辨率的調(diào)整，直接決定視頻的清晰度。因此，需要綜合衡量不同參數(shù)的影響，以達(dá)到較好質(zhì)量。

自適應(yīng)參數(shù)

自適應(yīng)參數(shù)是指在傳統(tǒng)編碼框架中，利用AI技術(shù)對(duì)部分模塊進(jìn)行部分前處理和后處理，確定部分編碼特征和參數(shù)，減小編碼過程的遍歷和運(yùn)算，降低復(fù)雜度，提升視頻質(zhì)量。比如在計(jì)算占比較大的CTU劃分階段，通過基于隨機(jī)森林的CTU劃分算法，直接預(yù)測(cè)最優(yōu)的CTU劃分方式，而無需遍歷整個(gè)參數(shù)，從而顯著降低計(jì)算復(fù)雜度；在碼率控制階段，采用強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)更為精確的碼率失真模型，提升碼率控制的精度及壓縮性能。

自適應(yīng)內(nèi)容

針對(duì)應(yīng)用群體的特征，對(duì)用戶(老人/兒童)、不同顯示要素，為編碼到應(yīng)用各個(gè)層面，提供不同的能力。一方面，不同區(qū)域或者對(duì)象的視覺重要性不同，關(guān)注程度不同，各種失真也具有不同的敏感和容忍程度，據(jù)此可以分配不同的編碼資源，有選擇地控制質(zhì)量，提升視頻壓縮率。另一方面，可以通過識(shí)別和跟蹤視頻中人物或物體，及時(shí)準(zhǔn)確地識(shí)別和捕捉所關(guān)注的事件，自動(dòng)地進(jìn)行標(biāo)記和提醒，用于日常生活輔助、家居看護(hù)等方面。

3 場(chǎng)景化

質(zhì)量、時(shí)延、壓縮率、復(fù)雜度、流暢度等是視頻的幾個(gè)維度，不同的場(chǎng)景下的應(yīng)用目的不同，所需求的維度特征也不相同不同。接下來我們從RTC和家庭安防兩個(gè)典型的場(chǎng)景，了解不同業(yè)務(wù)下的視頻要求。

3.1 家庭安防

安防行業(yè)的視頻場(chǎng)景有諸多特點(diǎn)：

比如攝像頭一般都固定在某個(gè)位置，所錄制的視頻畫面背景較為穩(wěn)定；
攝像頭一般位置高、角度廣，因此視頻畫面包含的內(nèi)容比較豐富，但是畫面變化較為平緩；
安裝在室外的攝像頭，光線、雨雪、霧霾等天氣因素會(huì)影響到視頻質(zhì)量；
安防行業(yè)一般都是監(jiān)控人、車的行為，因此人臉、車牌能否清晰可見也是評(píng)價(jià)的關(guān)鍵因素。

因此，安防行業(yè)的視頻能力會(huì)側(cè)重以下幾個(gè)方面：

高壓縮率

由于大部分監(jiān)控場(chǎng)景下，視頻背景幾乎不會(huì)變化，這就為高壓縮率提供了可能；同時(shí)，直播會(huì)發(fā)生在多種網(wǎng)絡(luò)環(huán)境下，如果較高碼率遇到不佳的網(wǎng)絡(luò)狀況時(shí)，就會(huì)出現(xiàn)丟包、花屏或者時(shí)延增加的問題；另外，視頻片段存放在云服務(wù)器上，碼率大小與云存儲(chǔ)的成本也是直接相關(guān)的，所以各個(gè)方面都會(huì)要求盡可能的提高視頻的壓縮率。在視頻編碼時(shí)，大多可以采用可變碼率的方式，盡可能降低每一幀的壓縮率。

低時(shí)延

網(wǎng)絡(luò)時(shí)延是指一個(gè)圖像數(shù)據(jù)從前端的攝像頭采集，到傳輸客戶端，用戶通過顯示器觀看到圖像的時(shí)間差。例如人在攝像機(jī)前揮動(dòng)手臂，圖像采集后通過編碼，然后通過網(wǎng)絡(luò)傳輸?shù)胶蠖私獯a顯示出圖像，這一過程雖然很短暫，但仍然可以感覺到顯示圖像略有滯后，這就是我們通常所說的網(wǎng)絡(luò)視頻監(jiān)控時(shí)時(shí)延。

一般基于內(nèi)部網(wǎng)絡(luò)系統(tǒng)的監(jiān)控系統(tǒng)，要求時(shí)延小于500ms；基于公網(wǎng)傳輸?shù)谋O(jiān)控系統(tǒng)，時(shí)延小于2秒。

低幀率

由于大部分場(chǎng)景下，畫面變化比較小，背景幾乎不動(dòng)，為了降低網(wǎng)絡(luò)帶寬的占用和存儲(chǔ)成本，安防行業(yè)一般使用每秒15幀的幀率，在實(shí)踐中也是能滿足要求的，這也是降低碼率提高壓縮率最直接的手段。

高分辨率

安防行業(yè)的視頻，經(jīng)常需要獲取“誰”發(fā)生了“什么事情”這樣的信息，所以畫面中的人臉、車牌等關(guān)鍵信息需要清晰可辨。

因此，在視頻編碼時(shí)，可以考慮前后景動(dòng)態(tài)編碼技術(shù)，將圖像中涉及的車輛、人臉等目標(biāo)信息進(jìn)行動(dòng)態(tài)識(shí)別，精確分離前景和后景，根據(jù)場(chǎng)景智能決定編碼策略，對(duì)重要目標(biāo)給予高碼率，以實(shí)現(xiàn)“可辨別”的目標(biāo)，對(duì)背景或者不重要的目標(biāo)給予低碼率，以實(shí)現(xiàn)“高壓縮率”的目標(biāo)，從而實(shí)現(xiàn)最優(yōu)的編碼。

3.2 RTC

在RTC視頻場(chǎng)景下，用戶的主要注意力會(huì)在屏幕上，與用戶體驗(yàn)相關(guān)的相對(duì)比較重要，如實(shí)時(shí)性、流暢度等。最終的視頻呈現(xiàn)體驗(yàn)不僅受到視頻本身處理能力的制約，與網(wǎng)絡(luò)傳輸也密切相關(guān)。

實(shí)時(shí)性

RTC場(chǎng)景中通常會(huì)有多個(gè)參與者，他們隨時(shí)互相交換信息，比如一次1v1通話、一場(chǎng)會(huì)議，一場(chǎng)直播等，具有強(qiáng)烈的互動(dòng)性，信息的生產(chǎn)端盡快同步內(nèi)容到各個(gè)接收端，接收端接到信息、迅速反饋，才能有良好的體驗(yàn)。實(shí)時(shí)性在這里就顯得極為重要，對(duì)端到端的實(shí)時(shí)性要求一般是不高于400ms。

然而，視頻、語音等要經(jīng)過采樣->編碼->傳輸->接收->解碼->顯示等一系列過程，各個(gè)環(huán)節(jié)處理都需要耗費(fèi)時(shí)間，其中視頻編碼耗時(shí)比重超過70%。提升視頻編碼的速率，也就成為RTC下對(duì)視頻一個(gè)重要要求。

高流暢

視頻流暢還可以用另一個(gè)比較容易理解的詞——“絲滑”。

視頻本質(zhì)上是一張張圖片的連續(xù)播放，它利用了人眼的視覺殘留效應(yīng)，給人產(chǎn)生了畫面連續(xù)運(yùn)動(dòng)的感覺。一段時(shí)間內(nèi)播放的圖片數(shù)越多，畫面流暢度就越好，一般幀率在24fps達(dá)到，人就不會(huì)有停頓的感覺。RTC中常用25fps、30fps兩種幀率，幀率再向上提升，流暢度提升有限，并且還會(huì)使帶寬增加。

影響流暢度的另一個(gè)因素是網(wǎng)絡(luò)因素，RTC的視頻媒體在網(wǎng)絡(luò)傳輸時(shí)，為了降低傳輸時(shí)延，基本都采用了基于UDP的RTP協(xié)議。而網(wǎng)絡(luò)側(cè)的阻塞、抖動(dòng)、丟包等均會(huì)會(huì)影響接收側(cè)的視頻解碼，接收的屏幕會(huì)出現(xiàn)丟卡頓、馬賽克、綠塊等明顯的現(xiàn)象。

因此，在視頻編碼時(shí)，要求編碼器具有動(dòng)態(tài)碼率的調(diào)節(jié)能力，減小網(wǎng)絡(luò)的影響，并且能夠與各種QoS、QoE等策略結(jié)合，提升視頻的質(zhì)量。

高波動(dòng)

不同于攝像頭中的位置和視角固定，畫面內(nèi)容連續(xù)性較大。RTC場(chǎng)景里的畫面內(nèi)容豐富，并且前后幀之間場(chǎng)景差異可以很明顯。圖像空間和時(shí)間之間的相關(guān)性減小，如果想繼續(xù)保持圖像質(zhì)量，則需要更多編碼字節(jié)。從而導(dǎo)致了每一幀的編碼字節(jié)長(zhǎng)度變動(dòng)較大，整天畫面呈現(xiàn)高波動(dòng)狀態(tài)。并且，一些視頻編碼器在場(chǎng)景切換時(shí)，會(huì)重新插入I幀，來增強(qiáng)后續(xù)畫面的質(zhì)量，這也進(jìn)一步加劇了碼率波動(dòng)。RTC場(chǎng)景編碼本身的碼率和網(wǎng)絡(luò)的抖動(dòng)，最終呈現(xiàn)了高波動(dòng)。

以上我們介紹了AIoTel場(chǎng)景下的視頻技術(shù)，重點(diǎn)介紹了智適應(yīng)和場(chǎng)景化兩項(xiàng)關(guān)鍵特征，并且結(jié)合部分業(yè)務(wù)介紹了對(duì)編碼的要求。下期我們將從視頻編解碼器的角度來了解AIoTel編解碼技術(shù)。

責(zé)任編輯：未麗燕來源：移動(dòng)Labs