CV內(nèi)卷!心理學(xué)家學(xué)會(huì)人臉識(shí)別,訓(xùn)練600萬視頻區(qū)分世界各地表情
全球各地的人微笑或難過都是一個(gè)表情嗎?
人們面部表情具有一致性似乎是合理的,舉例來說,無論一個(gè)人是來自巴西、印度還是加拿大,他們看到親密朋友時(shí)的微笑,或者看到煙花表演時(shí)的激動(dòng)神情,看起來基本上是一樣的。
但這真的合理嗎?這些面部表情和跨越地域的相關(guān)背景之間的聯(lián)系真的普遍嗎?在不同文化背景下,人們的微笑或皺眉會(huì)告訴我們?nèi)藗兪侨绾蜗嗷ヂ?lián)系的,這兩種情況有什么相似或不同之處呢?
科學(xué)家們?cè)噲D回答這些問題,并揭示人們?cè)诙啻蟪潭壬峡缭轿幕偷乩恚褂谜{(diào)查為基礎(chǔ)的研究,但這種研究嚴(yán)重依賴當(dāng)?shù)卣Z言、道德規(guī)范和價(jià)值觀。并且這樣的研究是不可擴(kuò)展的,常常以小樣本和不一致的結(jié)果告終。
與基于調(diào)查的研究相比,研究面部運(yùn)動(dòng)模式可以更直接地理解表達(dá)人類的行為。
但是,分析面部表情在日常生活中的實(shí)際使用需要研究人員通過數(shù)百萬小時(shí)的真實(shí)世界的連續(xù)鏡頭,這項(xiàng)工作極為繁瑣并且需要大量的人工工作。
此外,面部表情及其展現(xiàn)的背景是復(fù)雜的,需要大量的樣本才能得出統(tǒng)計(jì)學(xué)上可靠的結(jié)論。
雖然現(xiàn)有的研究已經(jīng)對(duì)特定情境下面部表情的普遍性問題產(chǎn)生了不同的答案,但是使用機(jī)器學(xué)習(xí)技術(shù)來擴(kuò)展研究也許能提供不同的、更清晰的答案。
2019年在《Nature》上發(fā)表的Sixteen facial expressions occur in similar contexts worldwide一文中,是第一次、大規(guī)模的、全球范圍內(nèi)的面部表情在日常生活中實(shí)際使用情況的分析研究,利用深層神經(jīng)網(wǎng)絡(luò)擴(kuò)大表情分析。
論文中共使用來自144個(gè)國家的600萬個(gè)公開視頻數(shù)據(jù)集,分析了人們使用各種面部表情的背景,并證明了面部行為中豐富的細(xì)微差別,包括微妙的表情,在世界各地類似的社交場合中都有使用。

深度神經(jīng)網(wǎng)絡(luò)測量面部表情面部表情不是靜態(tài)的。當(dāng)一個(gè)人看另一個(gè)人的表情時(shí),起初看起來可能是憤怒,但結(jié)果可能是敬畏、驚訝或是困惑,不同的表情解釋取決于一個(gè)人的面部表情所呈現(xiàn)的動(dòng)態(tài)效果。
因此,建立一個(gè)神經(jīng)網(wǎng)絡(luò)來理解面部表情的挑戰(zhàn)在于,它必須在其時(shí)間上下文(temporal context)中解釋這種表情。訓(xùn)練這樣一個(gè)系統(tǒng)需要一個(gè)大型的、多樣化和跨文化的視頻數(shù)據(jù)集,同時(shí)還需要充分解釋的表情含義。
為了建立數(shù)據(jù)集,標(biāo)注人員手動(dòng)搜索廣泛的公開視頻集,以確定那些可能包含涵蓋我們預(yù)先選擇的表情類別。

為了確保視頻與它們所代表的區(qū)域相匹配,在視頻選擇中優(yōu)先選擇那些包含原始地理位置的視頻。
視頻中的人臉是通過一個(gè)類似于谷歌云端人臉檢測 API 的深度卷積神經(jīng)網(wǎng)絡(luò)識(shí)別系統(tǒng)發(fā)現(xiàn)的,該系統(tǒng)使用一種基于傳統(tǒng)光流(optical flow)的方法在視頻剪輯過程中跟蹤人臉。
使用一個(gè)類似于 Google 眾包平臺(tái) 的界面,如果在剪輯過程中的任何一點(diǎn)出現(xiàn)了面部表情,那么注釋者就會(huì)在28個(gè)不同的類別中標(biāo)記它們。

因?yàn)槟繕?biāo)是取樣一個(gè)普通人如何理解一個(gè)表情,所以標(biāo)注人員沒有得到指導(dǎo)或培訓(xùn),也沒有提供示例表情或是標(biāo)注的定義。
文中討論額外的實(shí)驗(yàn)來評(píng)估從這些注釋中訓(xùn)練出來的模型是否有偏差。

人臉檢測算法在整個(gè)視頻中建立了每個(gè)人臉的位置序列。然后,我們使用一個(gè)預(yù)先訓(xùn)練的初始網(wǎng)絡(luò)來提取特征,從臉上找到代表面部表情的最突出的一個(gè)部位。
然后,這些特征被輸入一個(gè)長期短期記憶網(wǎng)絡(luò)(LSTM)中 ,它能夠模擬面部表情隨著時(shí)間的推移如何演變的遞歸神經(jīng)網(wǎng)絡(luò),并且能夠記住過去突出的信息。
為了確保模型在一系列人口統(tǒng)計(jì)學(xué)群體中做出一致的預(yù)測,我們?cè)谝粋€(gè)現(xiàn)有的數(shù)據(jù)集上評(píng)估了模型的公平性,這個(gè)數(shù)據(jù)集是使用相似的面部表情標(biāo)簽構(gòu)建的,目標(biāo)是16種表情中表現(xiàn)最好的一種。
該模型的表現(xiàn)在所有類型人口組代表的評(píng)價(jià)數(shù)據(jù)集中表現(xiàn)了其一致性,也表明模型訓(xùn)練帶注釋的面部表情存在不可測量的偏見。該模型對(duì)1500張圖片中的16種面部表情進(jìn)行了注釋。

為了理解數(shù)以百萬計(jì)的視頻中面部表情的上下文,實(shí)驗(yàn)還測量了視頻中捕獲的表情的前后部分。論文中使用了可以捕獲細(xì)粒度內(nèi)容并自動(dòng)識(shí)別上下文的 神經(jīng)網(wǎng)絡(luò)。
第一個(gè) DNN 是視頻相關(guān)的文本特性(標(biāo)題和描述)與實(shí)際的視覺內(nèi)容(視頻-主題模型)的組合。
第二個(gè) DNN只依賴于文本特征而沒有任何視覺信息(文本-主題模型)。
這些模型預(yù)測了上萬個(gè)描述視頻的類別標(biāo)簽,在這個(gè)實(shí)驗(yàn)中,這些模型能夠識(shí)別數(shù)百個(gè)獨(dú)特的情境(例如,婚禮,體育賽事,或煙花)來展示分析數(shù)據(jù)的多樣性。
文中的第一個(gè)實(shí)驗(yàn)中,研究人員分析了300萬個(gè)手機(jī)拍攝的公共視頻,手機(jī)拍攝的視頻更可能包含自然的表情。
然后將視頻中出現(xiàn)的面部表情與來自視頻主題模型的上下文注釋相關(guān)聯(lián),發(fā)現(xiàn)16種面部表情與日常社會(huì)環(huán)境有著不同的聯(lián)系,這些聯(lián)系在世界各地都是一致的。例如,歡樂的表情和惡作劇共同出現(xiàn)的概率更大; 激動(dòng)的表情和煙花也更配; 勝利的表情也經(jīng)常出現(xiàn)在體育賽事中。
這些結(jié)果對(duì)于討論面部表情中,心理相關(guān)的場景對(duì)表情的使用有很強(qiáng)的暗示作用,比其他因素如那些個(gè)人、文化或社會(huì)所特有的因素更相關(guān)。
第二個(gè)實(shí)驗(yàn)分析了300萬個(gè)單獨(dú)的視頻,這次使用用文本主題模型注釋了上下文。結(jié)果證實(shí)了第一個(gè)實(shí)驗(yàn)中的發(fā)現(xiàn)并不是由視頻中面部表情對(duì)視頻主題模型注釋的微妙影響所驅(qū)動(dòng)的。換句話說,這個(gè)實(shí)驗(yàn)證實(shí)了第一個(gè)實(shí)驗(yàn)得出的結(jié)論,即視頻主題模型在計(jì)算其內(nèi)容標(biāo)簽時(shí)可能隱含著面部表情的因素。

在這兩個(gè)實(shí)驗(yàn)中,表情和語境之間的相關(guān)性在不同的文化中似乎都得到了很好的驗(yàn)證。為了準(zhǔn)確地量化研究的12個(gè)不同世界區(qū)域的表達(dá)式和上下文之間的關(guān)聯(lián)是多么相似,研究人員計(jì)算了每一對(duì)區(qū)域之間的二階相關(guān)性。這些相關(guān)性確定了每個(gè)區(qū)域中不同表情和上下文之間的關(guān)系,然后將它們與其他區(qū)域進(jìn)行比較。
最后結(jié)論,在每個(gè)地區(qū)發(fā)現(xiàn)的70% 的情境表情關(guān)聯(lián)在世界范圍是共享的。
機(jī)器學(xué)習(xí)使研究人員能夠分析世界各地?cái)?shù)以百萬計(jì)的視頻,并發(fā)現(xiàn)支持面部表情在跨文化的相似環(huán)境中被保留到一定程度這一假設(shè)的證據(jù)。
研究結(jié)果也為文化差異留下了空間,盡管面部表情和上下文之間的相關(guān)性在世界范圍內(nèi)有70% 的一致性,但是在不同地區(qū)之間的相關(guān)性只有30% 。相鄰世界地區(qū)的面部表情和語境之間的關(guān)聯(lián)通常比相距遙遠(yuǎn)的世界地區(qū)的關(guān)聯(lián)更為相似,這表明人類文化的地理傳播也可能在面部表情的意義上發(fā)揮作用。
這項(xiàng)工作表明,機(jī)器學(xué)習(xí)能夠更好地了解自己,并確定跨文化的共同溝通要素。神經(jīng)網(wǎng)絡(luò)等工具使我們有機(jī)會(huì)為科學(xué)發(fā)現(xiàn)提供大量不同的數(shù)據(jù),使我們對(duì)統(tǒng)計(jì)結(jié)論更有信心。