微軟計算機視覺創研論壇首日干貨:3項前沿檢測技術解讀
5月15日消息,昨日上午9點,微軟亞洲研究院創研論壇CVPR 2020論文分享會線上開幕。會議有19位計算機視覺(CV)領域學者分享最新研究成果,講解內容涉及檢測、多模態、底層視覺、圖像生成、機器學習5大方向。
14日上午,3位計算機視覺檢測方向的研究員做了分享,分別介紹了先進的人臉識別技術、動作檢測技術和目標檢測技術。智東西對這3項先進技術進行解讀。
微軟亞洲研究院創研論壇CVPR 2020論文分享會是計算機視覺(CV)領域最重要的會議之一,本屆會議共分享近20項CV領域前沿技術。
一、X射線檢測算法識別假圖像,準確率可達95.4%
Deepfake技術的濫用輕則造成虛假信息問題,重則會引起金融安全風險、侵權問題等。一些Deepfake圖像可以做到以假亂真,人類肉眼難以判斷出來。這種情況下,人臉識別技術可以幫我們辨別。
現有的人臉識別工具大多針對某種特定Deepfake技術訓練,用假人臉圖像作為輸入。就是說,人臉識別技術只能識別出特定方法合成的假圖像。一旦Deepfake技術進化或換用其他Deepfake技術,人臉識別模型就可能失效。
微軟亞洲研究院研究員鮑建敏講解了人臉X射線識別技術(Face X-ray),這種技術用真實人臉圖像進行訓練。即使Deepfake技術進化,X射線人臉檢測算法也能保持較高的準確性。
制作一張假圖像的方法是把兩張圖像疊加,即把一張修改過的人臉圖像(前景)合成到背景圖像(后景)中。研究人員注意到,由于每張圖像拍攝或制作過程中用到不同的硬件(傳感器、透鏡等)或軟件(壓縮、合成算法等),前景圖像和后景圖像的特征不可能完全相同,因此人臉圖像和背景圖像之間存在一個“邊界”。
Face X-ray技術利用了上述特征,用人臉灰度圖像作為輸入。Face X-ray模型可以識別出不同灰度圖像之間的差異,這樣不僅可以顯示出人臉圖像是真實的還是偽造的,還能確定虛假圖像混合邊界的位置。

▲左起第一張為真實圖像,其他均為假圖像,Face X-ray模型檢測出了假圖像混合邊界位置。
研究人員對比了Face X-ray模型與之前人臉識別工具的性能。結果顯示,模型檢測出來的假臉幀數比之前的二分類方法更多,識別準確率最高可達95.4%。

鮑建敏指出,算法還有一定局限性。比如,Face X-ray主要用人臉圖像數據庫FF++進行訓練。FF++中大部分圖像都是正臉圖像,所以模型識別側臉的準確性較低。
二、DAGM模型:區分動作與上下文,準確識別出動作
微軟亞洲研究院研究員戴琦講解了一種動作檢測技術,該技術可以從視頻中識別出動作。據了解,目前的動作檢測技術可以分為全監督方法和弱監督方法。
全監督方法的動作檢測模型需要在訓練過程中需要對動作間隔進行時間注釋,十分昂貴和費時。因此現有的動作檢測工具多采用弱監督動作定位(WSAL,weakly-supervised action localization)技術。
WSAL技術有兩種類型,第一類建立一個從上到下的管道,學習一個視頻級別的分類器,通過檢查生成的時間分類動作地圖(TACM,temporal class activation map)來獲得幀注意力(frame attention)。第二類是從下到上的,直接從原始數據中預測時間注意力(temporal attention),然后從視頻級監控的視頻分類中優化任務。
兩種方法都依賴于視頻級別的分類模型,這會導致動作和上下文混淆(action-context confusion)的問題。比如,在一段跳遠的視頻中,跳遠動作(action)僅包括接近、跳躍、著陸3個階段,但是工作檢測模型常把準備和結束階段(context)也選中。

研究人員認為,解決這一問題的關鍵在于找到動作和上下文之間的區別。他們用判別性注意力模型(Discriminative Attention Modeling)和生成性注意力模型(GAM,Generative Attention Modeling)優化檢測工具,提出了判別性和生成性注意力模型(DAGM,Discriminative and Gener-ative Attention Modeling)。
研究人員對比了DAGM模型與其他弱監督動作工具的性能。結果顯示,DAGM模型的性能較好,平均精度最高可達41。

三、TSD算法:把檢測工具精度提高3~5%
目標識別算法一般從兩個維度檢測物體:分類(Classification)和回歸(Localization)。前者指識別物體的屬性,后者指定位物體的位置。
傳統檢測方法通常一起學習分類和回歸,共享物體潛在存在的區域框(Proposal)和特征提取器(Sibling head)。
這種檢測方法的局限性是最終輸出的圖片框的分類置信度和檢測框的準確度不一致,識別準確率較低。
研究人員發現,這是因為分類任務和回歸任務存在差別:分類任務更關注語義信息豐富的地方,回歸任務更關注物體的邊界。因此,共享物體潛在存在的區域框(Proposal)和特征提取器(Sibling head)會對檢測結果造成影響。

商湯科技X-Lab研究員宋廣錄介紹了基于任務間空間自適應解耦(TSD,task-aware spatial disentanglement)檢測算法,即在檢測器頭部應用特定設計的偏移量生成策略以及聯合訓練優化漸進損失。結果顯示,搭配TSD算法的檢測工具的檢測精度能提高3~5%。
結語:CV研究面臨語義、魯棒性的挑戰
三位研究人員分享結束后,美國羅徹斯特大學羅杰波教授、加州大學伯克利分校馬毅教授、加州大學圣地亞哥分校屠卓文教授、美國加州大學楊明玄教授、Wormpex AI Research華剛教授進行了圓桌論壇。這5位教授都曾擔任過CVPR會議主席。
在題目選擇、寫作技巧方面,5位教授對CV研究者給出許多建議,比如,他們認為研究者不必盲目追求研究熱點,而應該選擇自己感興趣的題目;剛剛起步的研究者可以借鑒成熟研究者的論文結構。他們強調,論文預印本網站arXiv上的論文質量良莠不齊,研究者在借鑒時應該注意甄別。
另外,5位教授指出,目前CV研究面臨的兩大主要挑戰來自語義和魯棒性。對語義的理解關系著模型能否完成更高級別的任務。在醫療、無人機、航空航天等領域中,CV模型的魯棒性直接影響到安全。
因此,在之后的CV研究中,提升CV模型對語義的理解能力和魯棒性仍是重點。