Meta開發(fā)新虛擬背景處理AI,讓元宇宙中人像不再虛糊
自新冠疫情開始以來,大部分人都已經(jīng)習(xí)慣了在和朋友、同事和家人遠(yuǎn)程視頻通話。視頻聊天的時(shí)候都使用過虛擬背景。 用戶在視頻時(shí)變換背景,能賦予其在虛擬影像中掌控身邊環(huán)境的權(quán)利,減少因環(huán)境帶來的分心,還能保護(hù)隱私,甚至還能讓用戶在視頻里看起來更有精氣神。
但有些時(shí)候虛擬背景呈現(xiàn)出來的效果可能和用戶需求的不一樣。大部分人都經(jīng)歷過在移動(dòng)的時(shí)候虛擬背景把人臉擋住了,或者是虛擬背景無法識別手和桌子之間的邊界。 最近,Meta利用強(qiáng)化的AI模型來分割圖像,優(yōu)化了背景模糊功能,虛擬背景功能和其它Meta產(chǎn)品服務(wù)的AR效果。這樣可以更好的分辨照片和視頻中的不同部分。 來自Meta AI、現(xiàn)實(shí)實(shí)驗(yàn)室和Meta其它部門的研究人員和工程師,組成了一個(gè)跨部門小組,最近開發(fā)了新的圖像分割模型,已用在Portal、Messenger和Instagram等很多平臺的實(shí)時(shí)視頻通話和Spark AR的增強(qiáng)現(xiàn)實(shí)應(yīng)用中。 該小組還優(yōu)化了雙人圖像分割模型,已經(jīng)在Instagram和Messenger上應(yīng)用了。
如何讓AI改進(jìn)虛擬背景
該小組在推進(jìn)圖像分割的優(yōu)化過程中,主要有以下三大挑戰(zhàn): 1.要讓AI學(xué)會在不同的環(huán)境下也能正常識別。比如說環(huán)境偏暗、人物膚色不同、人物膚色接近背景色、人物不常見的體態(tài)(比方說彎腰系鞋帶,或者伸懶腰)、人物被遮擋、人物在移動(dòng)等等。 2.要讓邊緣的位置看起來更加的流暢、穩(wěn)定、連貫。這些特征在目前的研究中討論較少,但是用戶反饋研究表明,這些因素極大影響人們在使用各類背景效果時(shí)的體驗(yàn)。 3.要確保模型能夠在全世界幾十億部智能手機(jī)中都能靈活、高效的運(yùn)作。只在一小部分最先進(jìn)的手機(jī)中才能使用是不行的,這類手機(jī)往往搭載最新款的處理器。
而且,該模型必須能支持各種長寬比的手機(jī),這樣才可以在筆記本電腦、Meta的便攜式視頻通話設(shè)備和人們的手機(jī)的肖像模式、橫向模式中都保證模型的正常使用。
用Meta的AI模型處理后的虛擬背景示例,左為頭身像,右為全身像。
真實(shí)世界個(gè)人圖像分割模型的挑戰(zhàn)
圖像分割的概念不難理解,但獲得高精確度的個(gè)人圖像分割結(jié)果卻很困難。要有好結(jié)果的話,處理圖像的模型必須一致性極高、延遲度極低。
不正確的分割圖像輸出,會導(dǎo)致各種讓使用虛擬背景的視訊用戶走神的效果。更重要的是,圖像分割錯(cuò)誤會導(dǎo)致用戶的真實(shí)物理環(huán)境發(fā)生不必要的暴露。 因?yàn)檫@些,圖像分割模型的精度必須達(dá)到交并比90%以上,才能進(jìn)入實(shí)際的市場產(chǎn)品應(yīng)用。交并比是衡量圖像分割預(yù)測值與基底真實(shí)值重疊部分比值的常用標(biāo)準(zhǔn)度量。 由于使用場景與實(shí)例復(fù)雜度之海量,Meta的圖像分割模型要達(dá)到的交并比,最后10%完成起來遠(yuǎn)比之前的所有部分都更難。
Meta的軟件工程師們發(fā)現(xiàn),當(dāng)交并比已達(dá)到90%時(shí),圖像的可衡量指標(biāo)趨于飽和,在時(shí)間一致性與空間穩(wěn)定性上難有更好提升。 為了克服此障礙,Meta開發(fā)了一個(gè)基于視頻的衡量系統(tǒng),與其他幾個(gè)指標(biāo)一起來解決這額外的難度。
為真實(shí)世界應(yīng)用開發(fā)AI訓(xùn)練與衡量策略
AI模型只能從已交付的數(shù)據(jù)集里學(xué)習(xí)。所以想要訓(xùn)練出高精度的圖像分割模型,光是簡單錄入一大堆視頻用戶在明亮室內(nèi)正襟危坐的視頻樣本是不行的。樣本類型得盡可能貼近真實(shí)世界地豐富。 Meta AI實(shí)驗(yàn)室用了自家的ClusterFit模型,來從不同性別、膚色、年齡、身體姿勢、動(dòng)作、復(fù)雜背景、多人數(shù)的海量樣本中提取可用數(shù)據(jù)。 靜態(tài)圖像的度量值并不準(zhǔn)確反映模型實(shí)時(shí)處理動(dòng)態(tài)視頻的質(zhì)量,因?yàn)閷?shí)時(shí)模型通常要有依賴時(shí)間信息的追蹤模式。為了測量模型的實(shí)時(shí)質(zhì)量,Meta AI實(shí)驗(yàn)室設(shè)計(jì)了當(dāng)模型預(yù)測出畫面時(shí)、計(jì)算每幀畫面的各指標(biāo)的定量性視頻評估架構(gòu)。 與論文中的理想狀況不同,Meta的個(gè)人圖像分割模型是被日常的海量用戶評判性能。
如果有鋸齒、扭曲、或其他不滿意的效果出現(xiàn),其他性能比基準(zhǔn)值好出再多也沒用。 所以Meta AI實(shí)驗(yàn)室直接詢問自家產(chǎn)品用戶對圖像分割效果的評價(jià)。結(jié)果是邊緣不平滑和模糊對用戶體驗(yàn)影響最大。 針對此需求,Meta AI實(shí)驗(yàn)室在視頻評估架構(gòu)中,另添加了「邊緣交并比」這一新指標(biāo)。當(dāng)畫面的普通交并比超過90%、幾近飽和時(shí),邊緣交并比就是更需注意的指標(biāo)了。 而且,畫面時(shí)間一致性不夠,會帶來圖形邊緣的混雜效果,這也會影響用戶體驗(yàn)。Meta AI實(shí)驗(yàn)室用兩種方法來測量畫面的時(shí)間一致性。
首先,Meta研究人員假設(shè)時(shí)點(diǎn)緊鄰的兩幀畫面,圖像基本一致。所以任何模型上的預(yù)測差異都代表最終畫面會有時(shí)間不一致。 其次,Meta研究人員從時(shí)點(diǎn)緊鄰的兩幀畫面的前景動(dòng)作入手。前景里的光流能讓模型從第N幀的預(yù)測值推進(jìn)到第N+1幀。然后研究者就將此預(yù)測值與真實(shí)的N+1幀數(shù)值對照。 這兩種方法中測算出的差異度都以交并比這一度量來體現(xiàn)。 Meta AI實(shí)驗(yàn)室使用了來自30種的100余類人群的1100個(gè)視頻樣本來輸入AI模型,分類包括所有人類表征性別與菲茨帕特里克量表上的膚色色調(diào)。 分析結(jié)果是,Meta的AI模型在所有人群子分類的視像處理效果上都有差不多的顯著準(zhǔn)確性,交并比與置信度都在95%以上,各分類間交并比差異基本都在0.5個(gè)百分點(diǎn)左右,性能優(yōu)異可靠。
不同膚色與性別人群的視頻,Meta的AI模型處理后的交并比數(shù)據(jù)
優(yōu)化模型
架構(gòu) Meta研究人員使用FBNet V3作為優(yōu)化模型的主干。這是一種由多層混合形成的解編碼結(jié)構(gòu),每一層都有相同的空間分辨率。
研究人員設(shè)計(jì)了一種配備輕量級解碼器加重量級編碼器的架構(gòu),這樣可以擁有比全對稱設(shè)計(jì)的架構(gòu)更好的性能。生成的架構(gòu)由神經(jīng)架構(gòu)搜索支撐,并對設(shè)備上運(yùn)行的速度進(jìn)行了高度優(yōu)化。
語義分割模型架構(gòu)。綠色的長方形代表卷積層,黑色的圓圈代表各層融合點(diǎn)。 數(shù)據(jù)學(xué)習(xí) 研究人員使用離線大容量的PointRend模型為未注釋的數(shù)據(jù)生成地一個(gè)偽標(biāo)準(zhǔn)實(shí)值標(biāo)簽,以此來增加訓(xùn)練的數(shù)據(jù)量。同樣地,研究者使用師-生半監(jiān)督模型來消除偽標(biāo)簽中的偏差。 長寬比相關(guān)的重新采樣 傳統(tǒng)的深度學(xué)習(xí)模型會將圖像重新采樣成一個(gè)小正方形,輸入到神經(jīng)網(wǎng)絡(luò)里。由于重新采樣,圖像會出現(xiàn)畸變。并且由于每幀圖像具有不同的長寬比,因此畸變的幅度也會不相同。 畸變的存在、畸變程度的不同,會導(dǎo)致神經(jīng)網(wǎng)絡(luò)AI學(xué)習(xí)到不穩(wěn)健的低層次特征。這種畸變引起的限制在圖像分割應(yīng)用中會被放大。 如此一來,如果大多數(shù)訓(xùn)練圖像都是肖像比例,那么該模型在實(shí)景圖像和視頻上的表現(xiàn)要差得多。
為了解決這個(gè)問題,研究團(tuán)隊(duì)采用了 Detectron 2 的長寬比相關(guān)的二次采樣方法,該方法將具有相似長寬比的圖像分組,并將它們第二次采樣到相同的大小。
左為長寬比不調(diào)帶來畸變的基線圖像,右為AI模型處理后的改進(jìn)圖像 自定義補(bǔ)邊框 長寬比相關(guān)的二次采樣法需要將具有相似長寬比的圖像補(bǔ)邊框,但常用的零補(bǔ)框方法會產(chǎn)生偽影(artifact)。 更糟糕的是,當(dāng)網(wǎng)絡(luò)的深度不斷增加的時(shí)候,該偽影會擴(kuò)散到其他區(qū)域。過去的辦法是,使用復(fù)用邊框的手段來移除這些偽影。
最新的一項(xiàng)研究中顯示,卷積層中的反射邊框可以通過最小化偽影傳播的方式來進(jìn)一步提高模型的質(zhì)量,但相對應(yīng)地,時(shí)延成本也會增加。偽影的案例,和如何移除偽影的示例如下。
追蹤 時(shí)間不一致,會讓AI處理圖形時(shí)在幀到幀之間存在預(yù)測性差異,帶來閃爍(flicker),它的出現(xiàn)會極大損害用戶的體驗(yàn)。 為了提高時(shí)間一致性,研究人員設(shè)計(jì)了一個(gè)名為「面具偵測」的檢測過程。它從當(dāng)前幀圖像(YUV)中獲取三個(gè)通道,并且還存在第四通道。 對于第一幀圖像,第四通道只是一個(gè)空矩陣,而對于隨后的幀數(shù),第四通道則是對上一幀的預(yù)測。
研究人員發(fā)現(xiàn),這種利用第四通道跟蹤的策略顯著提高了時(shí)間一致性。同時(shí),他們還采用了最先進(jìn)的跟蹤模型中的一些想法,例如CRVOS和變換不變性CNN等建模策略,來獲得時(shí)間上較為穩(wěn)定的分割模型。
「面具偵測」法流程圖 邊界交叉熵 構(gòu)建平滑、清晰的邊界,對于AR圖像分割的應(yīng)用至關(guān)重要。除了在分割圖像的時(shí)候會有的標(biāo)準(zhǔn)交叉熵?fù)p失之外,研究人員還必須考慮邊界加權(quán)損失。 研究人員發(fā)現(xiàn),對象的內(nèi)部是更容易被分割的,所以Unet模型與其之后大多數(shù)變體的作者都建議使用三元圖加權(quán)損失來提升模型的質(zhì)量。 然而,三元圖加權(quán)損失有一個(gè)限制,就是三元圖只會根據(jù)標(biāo)準(zhǔn)實(shí)值來計(jì)算邊界區(qū)域,因此它對所有的誤判都不敏感,是一種非對稱的加權(quán)損失。 受「邊界交并比」的啟發(fā),研究人員采用交并比的方法為標(biāo)準(zhǔn)實(shí)值和各種預(yù)測提取邊界區(qū)域,并在這些區(qū)域中建立交叉熵?fù)p失。在邊界交叉熵上訓(xùn)練的模型,很明顯是優(yōu)于基準(zhǔn)的。 如此除了能使最終掩碼輸出中的邊界區(qū)域更清晰之外,應(yīng)用新方法后,新模型的誤報(bào)率更低。
Meta虛擬背景處理器應(yīng)用的新AI模型,其新功能效率更高、更穩(wěn)定,也更多樣化。這些優(yōu)化都會提高背景濾鏡的質(zhì)量和連貫性,從而提高在產(chǎn)品中的應(yīng)用效果。 舉例來說,優(yōu)化過的分割模型可以被用來識別多人場景和人物的全身,也可以識別被沙發(fā)、書桌或餐桌遮擋的全身人像。 除去應(yīng)用在視頻通話以外,通過虛擬環(huán)境和和現(xiàn)實(shí)世界中的人、物結(jié)合,這項(xiàng)技術(shù)還可以給AR和VR技術(shù)增添新的維度。在建設(shè)元宇宙、營造沉浸式體驗(yàn)時(shí),這項(xiàng)應(yīng)用會尤其重要。