新型半?yún)?shù)變分自動(dòng)編碼器DeepCoder:可分層級(jí)編碼人臉動(dòng)作
DeepCoder 是一個(gè)好名字,在今年的 ICLR 會(huì)議上,劍橋大學(xué)和微軟就曾提出過一種 DeepCoder,可以組合其它程序代碼來生成新程序,參閱機(jī)器之心的文章《學(xué)界 | 劍橋與微軟提交 ICLR 2017 論文提出 DeepCoder:組合其它程序代碼生成新程序》。前段時(shí)間,又有其他研究者提出了另一種 DeepCoder——一種用于自動(dòng)面部動(dòng)作編碼的半?yún)?shù)變分自動(dòng)編碼器。
論文:DeepCoder:用于自動(dòng)面部動(dòng)作編碼的半?yún)?shù)變分自動(dòng)編碼器
(DeepCoder: Semi-parametric Variational Autoencoders for Automatic Facial Action Coding)
論文地址:https://arxiv.org/pdf/1704.02206.pdf
人臉的表征能表現(xiàn)出一種固有的層次結(jié)構(gòu)(即可以通過一套面部動(dòng)作單元(AU)和它們的強(qiáng)度來對(duì)整體面部表情進(jìn)行編碼)。變分(深度)自動(dòng)編碼器(VAE)已經(jīng)在大規(guī)模圖像數(shù)據(jù)的層次化隱含表征的無監(jiān)督提取上得到了優(yōu)良的結(jié)果,同時(shí)還能在存在噪聲和其它我們不想要的偽影時(shí)保持穩(wěn)健。潛在地,這會(huì)使 VAE 成為一種學(xué)習(xí) AU 強(qiáng)度估計(jì)的面部特征的合適方法。然而,大多數(shù)現(xiàn)有的基于 VAE 的方法都應(yīng)用了與編碼的特征分開學(xué)習(xí)到的分類器。相反,高斯過程(GP)等非參數(shù)(概率)方法通常比相對(duì)的參數(shù)方法表現(xiàn)更好,但卻無法輕松處理大量數(shù)據(jù)。為此,我們提出了一種全新的 VAE 半?yún)?shù)建模框架 DeepCoder,它將參數(shù)(卷積)和非參數(shù)(ordinal GP)VAE 的建模能力結(jié)合到了一起,用以聯(lián)合學(xué)習(xí) (1) 任務(wù)層次中多個(gè)層級(jí)的隱含表征,(2) 多個(gè)有序輸出的分類。我們?cè)?AU 強(qiáng)度估計(jì)的基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)表明,我們提出的 DeepCoder 的表現(xiàn)優(yōu)于當(dāng)前***的方法以及相關(guān)的 VAE 和深度學(xué)習(xí)模型。
圖1
圖 1中我們提出的 2 層 DeepCoder:輸入是面部圖像,輸出是重建的面部圖像和 AU 強(qiáng)度水平。頂部的變分卷積自動(dòng)編碼器(VAE)的表現(xiàn)比面部特征的***級(jí)編碼(Z0)更好,而這些特征的進(jìn)一步編碼(Z1)使用 ordinal GP 變分自動(dòng)編碼(VO-GPAE)針對(duì) AU 強(qiáng)度估計(jì)進(jìn)行了優(yōu)化
算法 1:DeepCoder 的學(xué)習(xí)和推理
圖 3:FERA2015:(a) MSE 重建誤差,(b) VO-GPAE 的 NLPD,(c) 每個(gè)數(shù)據(jù)點(diǎn)估計(jì)的變分下限,(d) AU 強(qiáng)度估計(jì)的 ICC,和恢復(fù)的隱空間:Z0 (e) 和 Z1 (f)
【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】