中山大學(xué)林倞解讀視覺(jué)語(yǔ)義理解新趨勢(shì):表達(dá)學(xué)習(xí)到知識(shí)及因果融合
2021 年模式識(shí)別與機(jī)器智能前沿研討會(huì)于 10 月 29 日上午線(xiàn)上舉行。會(huì)議由中國(guó)自動(dòng)化學(xué)會(huì)模式識(shí)別與機(jī)器智能(Pattern Recognition and Machine Intelligence,PRMI)主辦,旨在將從事模式識(shí)別與人工智能各個(gè)方向的頂尖學(xué)者與研究人員聚集在一起進(jìn)行技術(shù)分享,以便開(kāi)展相關(guān)領(lǐng)域的交流與合作。在研討會(huì)中,來(lái)自中山大學(xué)的林倞教授分享了關(guān)于《視覺(jué)語(yǔ)義理解的新趨勢(shì):從表達(dá)學(xué)習(xí)到知識(shí)及因果融合》的報(bào)告。表達(dá)學(xué)習(xí)和知識(shí)推理一直是模式識(shí)別與計(jì)算機(jī)視覺(jué)中的核心研究?jī)?nèi)容,兩者的有效結(jié)合將成為打開(kāi)當(dāng)代通用人工智能的第一扇門(mén)。然而在機(jī)器視覺(jué)的背景下,如何將認(rèn)知推理、知識(shí)表示與機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域的技術(shù)融會(huì)打通,依然是一個(gè)極具挑戰(zhàn)和迫切的難題。
在報(bào)告中,林倞教授首先簡(jiǎn)要回顧了計(jì)算機(jī)視覺(jué)領(lǐng)域從傳統(tǒng)到現(xiàn)代的研究發(fā)展趨勢(shì),然后分享了他在表達(dá)學(xué)習(xí)和知識(shí)融合方面的一系列代表性工作。林倞教授認(rèn)為目前絕大部分的知識(shí)融合表達(dá)學(xué)習(xí)工作依然無(wú)法完全實(shí)現(xiàn)兩者的有效融合,主要原因是高維度的視覺(jué)大數(shù)據(jù)難以避免地夾雜了各種混淆因子,導(dǎo)致深度學(xué)習(xí)模型難以從這些數(shù)據(jù)中提取無(wú)偏誤的表征與因果相關(guān)的知識(shí)。鑒于此,林倞教授提出融入因果關(guān)系理解的知識(shí)表達(dá)學(xué)習(xí)的新視角和新方法。與現(xiàn)有因果推斷作用于固定的低維度統(tǒng)計(jì)特征的做法不同,融合因果關(guān)系理解的表達(dá)學(xué)習(xí)往往需要結(jié)合復(fù)雜的多模態(tài)結(jié)構(gòu)知識(shí),以因果關(guān)系指導(dǎo)表達(dá)學(xué)習(xí),再用學(xué)習(xí)到的表征反繹因果關(guān)系。最后林倞教授分享了他所帶領(lǐng)的中山大學(xué)人機(jī)物智能融合實(shí)驗(yàn)室(以下簡(jiǎn)稱(chēng) HCP 實(shí)驗(yàn)室)最近在因果表達(dá)學(xué)習(xí)領(lǐng)域的研究進(jìn)展,并展示了如何將因果表達(dá)學(xué)習(xí)與多模態(tài)結(jié)構(gòu)知識(shí)融合實(shí)現(xiàn)去數(shù)據(jù)偏見(jiàn)的解釋性和優(yōu)越模型性能。
以下為機(jī)器之心根據(jù)林倞教授的演講內(nèi)容進(jìn)行的整理。
計(jì)算機(jī)視覺(jué)語(yǔ)義理解:從過(guò)去到現(xiàn)在

圖 1.David Marr 首次對(duì)計(jì)算機(jī)視覺(jué)系統(tǒng)應(yīng)該要做什么給出了觀點(diǎn)
計(jì)算器視覺(jué)奠基人之一的 David Marr 在他的著作《視覺(jué)》[1]一書(shū)中提出了視覺(jué)理解研究的核心問(wèn)題(見(jiàn)圖 1):視覺(jué)系統(tǒng)應(yīng)以構(gòu)建環(huán)境的二維或三維表達(dá),使得我們可以與之交互(這里的交互意味著學(xué)習(xí),理解和推理)。David Marr 把計(jì)算視覺(jué)表達(dá)分成幾個(gè)層面,從單純的二維視覺(jué)圖像,然后到代表邊緣結(jié)構(gòu)和輪廓信息的原始簡(jiǎn)約圖(Primal Sketch),再到包含一定程度深度信息的模態(tài) 2.5 維簡(jiǎn)約圖(2.5-D Sketch),最后到完整的三維表達(dá)。長(zhǎng)期以來(lái),計(jì)算視覺(jué)領(lǐng)域都圍繞這樣一個(gè)脈絡(luò)來(lái)開(kāi)展研究工作。

圖 2. 神經(jīng)網(wǎng)絡(luò)架構(gòu)隨著研究的深入變得越來(lái)越復(fù)雜
后續(xù)的視覺(jué)研究越來(lái)越多地跟機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)相關(guān)。2010 年,當(dāng)時(shí)的主流做法是利用特征工程,比如 HOG[2],LBP[3],來(lái)提取圖像的統(tǒng)計(jì)特征,再結(jié)合一些如特征金字塔等的特征增強(qiáng)方法,最后利用支持向量機(jī)等判別器來(lái)完成識(shí)別任務(wù)。自 2012 年起,深度卷積神經(jīng)網(wǎng)絡(luò)在 ImageNET 圖像識(shí)別大賽中大放異彩,其技術(shù)本質(zhì)上是舍棄了人工構(gòu)建特征時(shí)造成的信息丟失,轉(zhuǎn)而直接從圖像中學(xué)習(xí)并提取判別性更強(qiáng)的視覺(jué)表達(dá)。于是越來(lái)越多的研究者開(kāi)始關(guān)注如何利用更強(qiáng)的深度模型去提升視覺(jué)表達(dá)的學(xué)習(xí)能力,從殘差網(wǎng)絡(luò)到今天的 Visual Transformer 架構(gòu)[4,5],近十年來(lái)的計(jì)算機(jī)視覺(jué)研究圍繞著如何構(gòu)建強(qiáng)大的表達(dá)學(xué)習(xí)模型這個(gè)主題。在深度學(xué)習(xí)蓬勃發(fā)展的過(guò)程中,各類(lèi)視覺(jué)任務(wù)(如物體識(shí)別,檢測(cè),圖像分割等)的性能不斷提升。然而,該研究路線(xiàn)也逐漸遇到了瓶頸,這是因?yàn)閮H僅通過(guò)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)模型,很多關(guān)于計(jì)算機(jī)視覺(jué)理解的問(wèn)題無(wú)法得到根本解決。

圖 3. 計(jì)算機(jī)視覺(jué)研究的兩大新出路:高效的視覺(jué)表達(dá)學(xué)習(xí)與視覺(jué)知識(shí)推理
這些問(wèn)題我們可以歸納為兩大方面(圖 3)。第一是強(qiáng)調(diào)訓(xùn)練"性?xún)r(jià)比"(Cost-effective)的高效表達(dá)學(xué)習(xí)。圖靈獎(jiǎng)得主 Yan Lecun 在三年前的神經(jīng)信息處理系統(tǒng)大會(huì)上的專(zhuān)題報(bào)告中,曾拿蛋糕作為比喻,其大意是如何利用無(wú)標(biāo)注數(shù)據(jù)或者挖掘無(wú)標(biāo)注信息,才是人工智能目前最值得關(guān)注的研究方向。這個(gè)方向包括了無(wú)監(jiān)督學(xué)習(xí),遷移學(xué)習(xí)或者自監(jiān)督學(xué)習(xí)等[6,7],其技術(shù)核心是發(fā)掘圖像視頻數(shù)據(jù)中的一些內(nèi)在屬性和先驗(yàn)信息,通過(guò)預(yù)訓(xùn)練的方法先得到歸納偏置再拓展到下游任務(wù)中去,從而提升整個(gè)深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練效率,這類(lèi)方法在自然語(yǔ)言理解、計(jì)算機(jī)視覺(jué)等領(lǐng)域有著諸多成功的應(yīng)用,被認(rèn)為是最近主流的一種研究和工程實(shí)踐方法。第二,當(dāng)我們?cè)噲D跳出視覺(jué)表達(dá)學(xué)習(xí)的框架,用宏觀的角度去看數(shù)據(jù)擬合的時(shí)候,我們會(huì)發(fā)現(xiàn)有很多領(lǐng)域上的問(wèn)題,由于數(shù)據(jù)并沒(méi)有很好地呈現(xiàn)完整的知識(shí),通過(guò)擬合數(shù)據(jù)得到的模型往往無(wú)法排除數(shù)據(jù)帶來(lái)的偏見(jiàn)。因此不論采用的是卷積神經(jīng)網(wǎng)絡(luò),圖神經(jīng)網(wǎng)絡(luò)或者是最近大熱的 Transformer 模型,最終模型學(xué)習(xí)到的知識(shí)可能是錯(cuò)誤的,并且無(wú)法解釋。于是從 18 年開(kāi)始,就有許多工作便試圖將知識(shí)圖譜、常識(shí)庫(kù)等一些結(jié)構(gòu)化、符號(hào)化的知識(shí)表達(dá)與表達(dá)學(xué)習(xí)相結(jié)合,轉(zhuǎn)向更高理解層面的視覺(jué)知識(shí)推理研究。這些知識(shí)規(guī)則有兩個(gè)核心作用。首先,在有標(biāo)注樣本缺乏的一些情況下,可以用這種知識(shí)規(guī)則去改善模型的學(xué)習(xí)能力。其次,知識(shí)規(guī)則指導(dǎo)的學(xué)習(xí)也可以讓訓(xùn)練出來(lái)的深度神經(jīng)模型與人類(lèi)認(rèn)知保持一定程度的一致,增強(qiáng)其可解釋性。
高效表達(dá)學(xué)習(xí)與視覺(jué)知識(shí)推理
基于上述兩個(gè)方面問(wèn)題,本人分享一下我們實(shí)驗(yàn)室最近的幾個(gè)研究工作。
針對(duì)第一個(gè)問(wèn)題,我們今年有一個(gè)與牛津大學(xué) Philip Torr 合作的 ICCV 工作[9],內(nèi)容是關(guān)于如何有效地構(gòu)建訓(xùn)練樣本組合,來(lái)實(shí)現(xiàn)高效的自監(jiān)督表達(dá)學(xué)習(xí),從而促進(jìn)模型訓(xùn)練(見(jiàn)圖 4)。更具體地說(shuō),現(xiàn)有的研究表明,即使自監(jiān)督對(duì)比學(xué)習(xí)能夠讓預(yù)訓(xùn)練模型取得逼近甚至超越全監(jiān)督預(yù)訓(xùn)練模型的效果,其代價(jià)是需要超過(guò)十倍的訓(xùn)練量。而我們的研究揭示了對(duì)比學(xué)習(xí)中的兩個(gè)矛盾現(xiàn)象,我們稱(chēng)之為欠聚類(lèi)和過(guò)度聚類(lèi)問(wèn)題:欠聚類(lèi)意味著當(dāng)用于對(duì)比學(xué)習(xí)的負(fù)樣本對(duì)不足以區(qū)分所有實(shí)際對(duì)象類(lèi)時(shí),模型無(wú)法有效地學(xué)習(xí)并發(fā)現(xiàn)類(lèi)間樣本之間的差異;過(guò)度聚類(lèi)意味著模型無(wú)法有效地從過(guò)多的負(fù)樣本對(duì)中學(xué)習(xí)特征,迫使模型將實(shí)際相同類(lèi)別的樣本過(guò)度聚類(lèi)到不同的聚類(lèi)中。欠聚類(lèi)和過(guò)度聚類(lèi)是造成自監(jiān)督學(xué)習(xí)效率低下的主要原因,而我們提出了一種高效的截?cái)嗳M樣本對(duì)組合方法,采用三元組損失趨于最大化正對(duì)和負(fù)對(duì)之間的相對(duì)距離來(lái)解決聚類(lèi)不足問(wèn)題;并通過(guò)從所有負(fù)樣本中選擇一個(gè)負(fù)樣本代理來(lái)構(gòu)建負(fù)對(duì),來(lái)避免過(guò)度聚類(lèi)。從實(shí)驗(yàn)結(jié)果來(lái)看,我們的方法基本上能夠在兩倍于全監(jiān)督訓(xùn)練量下達(dá)到其預(yù)訓(xùn)練模型水平,比起現(xiàn)有的自監(jiān)督訓(xùn)練方法提高了 5 倍的效率。然后在下游任務(wù)的遷移上,如物體檢測(cè)和行人再識(shí)別,在主流的大型數(shù)據(jù)集上都驗(yàn)證了這種方法的高效性,該方法訓(xùn)練出來(lái)的模型性能甚至優(yōu)于一些全監(jiān)督方法。

圖 4. 中山大學(xué) HCP 實(shí)驗(yàn)室關(guān)于研究高效自監(jiān)督表達(dá)學(xué)習(xí)的最新成果,可以節(jié)省 80% 訓(xùn)練量的情況下,達(dá)到同樣的模型性能

圖 5. 中山大學(xué) HCP 實(shí)驗(yàn)室在視覺(jué)推理方向上的代表性工作:通用圖像解析
而在視覺(jué)理解中的知識(shí)推理這一方面問(wèn)題,我們實(shí)驗(yàn)室早在 2017 年就開(kāi)展了相關(guān)研究,取得的成果也比較多。我首先介紹一下我們團(tuán)隊(duì)利用知識(shí)推理去輔助高層視覺(jué)語(yǔ)義理解的兩個(gè)工作。第一個(gè)工作是關(guān)于如何實(shí)現(xiàn)通用的圖像解析(Image Parsing,可看作是一種精細(xì)化的語(yǔ)義分割任務(wù))模型[10] (見(jiàn)圖 5)。通常要實(shí)現(xiàn)在某個(gè)領(lǐng)域上的圖像解析,我們是要利用大量本領(lǐng)域上的圖像數(shù)據(jù)參與模型訓(xùn)練的,這一方面往往不符合高效表達(dá)學(xué)習(xí)的設(shè)定,而另一方面,要讓其實(shí)現(xiàn)在另一個(gè)領(lǐng)域上面的圖像解析,模型則必須重新進(jìn)行訓(xùn)練,因?yàn)樾骂I(lǐng)域的圖像分布和類(lèi)別跟舊領(lǐng)域不一樣。為了擺脫這些局限,我們的工作利用跨領(lǐng)域之間的知識(shí)共通性作為橋梁,將人類(lèi)知識(shí)和標(biāo)簽分類(lèi)法納入到圖卷積網(wǎng)絡(luò)中構(gòu)造新的遷移學(xué)習(xí)跨領(lǐng)域推理算法,再通過(guò)語(yǔ)義感知圖推理和傳輸在多個(gè)域中保持一致性,實(shí)現(xiàn)跨域圖像解析的語(yǔ)義包融和互補(bǔ)。我們的方法在著名人體解析數(shù)據(jù)集 LIP(順帶一提,該數(shù)據(jù)集也是由我們團(tuán)隊(duì)于 2017 年的 CVPR 工作中首次提出,在用于數(shù)次研討會(huì)的專(zhuān)項(xiàng)比賽后,其已成為人體解析領(lǐng)域里面的著名基準(zhǔn)數(shù)據(jù)集)中表現(xiàn)出非常優(yōu)秀的跨領(lǐng)域人體解析效果。另外,在全景分割任務(wù)中,我們的方法也在跨領(lǐng)域遷移情況下達(dá)到了當(dāng)前最先進(jìn)的性能。

圖 6. 中山大學(xué) HCP 實(shí)驗(yàn)室在視覺(jué)推理方向上的代表性工作:融合知識(shí)推理的視覺(jué)問(wèn)答
第二個(gè)工作是關(guān)于如何融入外部知識(shí)去完成視覺(jué)問(wèn)答任務(wù)[11](見(jiàn)圖 6)。具體來(lái)說(shuō),視覺(jué)問(wèn)答任務(wù)的技術(shù)本質(zhì)需要實(shí)現(xiàn)對(duì)圖像和對(duì)應(yīng)語(yǔ)言的同步理解,這需要在完備的知識(shí)空間里面進(jìn)行推理。然而現(xiàn)存的大部分視覺(jué)問(wèn)答的推理是通過(guò)配對(duì)封閉領(lǐng)域下的問(wèn)答數(shù)據(jù)而實(shí)現(xiàn)的,其訓(xùn)練的模型極容易產(chǎn)生偏誤,難以泛化到開(kāi)放世界下的問(wèn)答場(chǎng)景中。我們的工作提出了第一個(gè)融合外部知識(shí)進(jìn)行多段推理的數(shù)據(jù)集,該數(shù)據(jù)集衍生于真實(shí)的問(wèn)答情況,同時(shí)提供了從數(shù)據(jù)領(lǐng)域到知識(shí)圖譜的推理路徑標(biāo)簽。這有助于衡量視覺(jué)問(wèn)答過(guò)程的模型推理可解釋性,同時(shí)也比較容易應(yīng)對(duì)未出現(xiàn)過(guò)的提問(wèn)情況。我們基于樹(shù)層次結(jié)構(gòu)提出了針對(duì)該問(wèn)題的模塊化視覺(jué)推理問(wèn)答網(wǎng)絡(luò),能夠靈活結(jié)合結(jié)構(gòu)知識(shí)庫(kù)進(jìn)行視覺(jué)表達(dá)學(xué)習(xí),高效地推演出問(wèn)題答案。
除了高層視覺(jué)語(yǔ)義理解外,基于知識(shí)的視覺(jué)推理也可以被應(yīng)用到一些傳統(tǒng)的視覺(jué)任務(wù)當(dāng)中,突破現(xiàn)有模型的性能瓶頸。接下來(lái)我簡(jiǎn)要介紹一下我們團(tuán)隊(duì)在這方面的四個(gè)工作。

圖 7. 中山大學(xué) HCP 實(shí)驗(yàn)室利用視覺(jué)推理技術(shù)提高復(fù)雜場(chǎng)景下大規(guī)模物體檢測(cè)的性能
第一個(gè)是我們?cè)?CVPR-19 提出的 RCNN 系列衍生模型 Reasoning-RCNN,將基于知識(shí)圖譜的常識(shí)推理技術(shù)整合到神經(jīng)符號(hào)模型中,從而讓物體檢測(cè)網(wǎng)絡(luò)在所有對(duì)象區(qū)域上具備自適應(yīng)全局推理的能力,能有效應(yīng)對(duì)大規(guī)模物體檢測(cè)問(wèn)題中的長(zhǎng)尾數(shù)據(jù)分布,嚴(yán)重的遮擋和類(lèi)別模糊性等挑戰(zhàn)。Reasoning-RCNN 不僅能在視覺(jué)層面上傳播信息,同時(shí)也在全局知識(shí)范圍內(nèi)學(xué)習(xí)所有類(lèi)別的高級(jí)語(yǔ)義表示。基于檢測(cè)網(wǎng)絡(luò)的特征表示,Reasoning-RCNN 首先通過(guò)收集每個(gè)類(lèi)別先前的分類(lèi)層權(quán)重來(lái)生成全局語(yǔ)義池,然后通過(guò)聯(lián)系全局語(yǔ)義池中上下文的不同語(yǔ)義來(lái)自適應(yīng)地強(qiáng)化每個(gè)對(duì)象特征的信息。這讓 Reasoning-RCNN 具備可擴(kuò)展集成任何知識(shí)的能力。在三個(gè)大規(guī)模物體檢測(cè)的基準(zhǔn)數(shù)據(jù)集(物體種類(lèi)可以多達(dá)數(shù)千個(gè))中,Reasoning-RCNN 實(shí)現(xiàn)了 15%-37% 的最優(yōu)性能提升。該研究也被全球人工智能行業(yè)戰(zhàn)略研究公司 TOPBOTS 評(píng)選為 2019 年計(jì)算機(jī)視覺(jué)領(lǐng)域最前沿的十個(gè)工作之一。

圖 8. 中山大學(xué) HCP 實(shí)驗(yàn)室利用視覺(jué)推理技術(shù)去解決大規(guī)模類(lèi)別數(shù)量下的小樣本單分類(lèi)和多分類(lèi)視覺(jué)物體識(shí)別問(wèn)題
我們第二個(gè)工作專(zhuān)注于利用外部知識(shí)推理去輔助小樣本分類(lèi)的建?!,F(xiàn)有基于元學(xué)習(xí)的解決辦法在不同的小樣本類(lèi)別的子任務(wù)之間的偏差較大,而我們的工作通過(guò)外部知識(shí)構(gòu)建小樣本類(lèi)別和多數(shù)類(lèi)別之間的全局聯(lián)系,其優(yōu)勢(shì)在于穩(wěn)定小樣本分類(lèi)模型訓(xùn)練和提高其分類(lèi)魯棒性。具體來(lái)說(shuō),它首先構(gòu)建一個(gè)結(jié)構(gòu)化的知識(shí)圖譜,通過(guò)推理不同的類(lèi)別的共現(xiàn)概率去建模所有類(lèi)別的全局聯(lián)系,然后引入標(biāo)簽語(yǔ)義來(lái)指導(dǎo)學(xué)習(xí)特定于語(yǔ)義的特征初始化標(biāo)簽。我們將知識(shí)圖譜中每一個(gè)節(jié)點(diǎn)看作某個(gè)類(lèi)別的單分類(lèi)模型,并通過(guò)圖神經(jīng)網(wǎng)絡(luò)推理去實(shí)現(xiàn)它們的消息傳播機(jī)制從而進(jìn)行語(yǔ)義關(guān)聯(lián)的模型訓(xùn)練。該方法能有效解決超大規(guī)模類(lèi)別的單分類(lèi)小樣本物體識(shí)別問(wèn)題,同時(shí)也能夠輕易擴(kuò)展到多標(biāo)簽小樣本分類(lèi)問(wèn)題當(dāng)中。

圖 9. 中山大學(xué) HCP 實(shí)驗(yàn)室利用視覺(jué)推理技術(shù)去解決視覺(jué)關(guān)系分類(lèi)中的長(zhǎng)尾問(wèn)題
我們第三個(gè)工作研究的是以判別對(duì)象和關(guān)系標(biāo)簽為目的的長(zhǎng)尾視覺(jué)關(guān)系分類(lèi)。當(dāng)前大多數(shù)方法通常通過(guò)遵循 {主體,客體} 的固定推理路徑來(lái)識(shí)別低頻率出現(xiàn)的關(guān)系三元組。然而,這種固定的依賴(lài)路徑的知識(shí)整合往往忽略了常識(shí)知識(shí)和真實(shí)場(chǎng)景之間的語(yǔ)義差距,容易受到對(duì)象和關(guān)系標(biāo)簽的數(shù)據(jù)集偏差影響。為了緩解這種情況,我們提出了可配置圖推理來(lái)分解視覺(jué)關(guān)系的推理路徑,并結(jié)合外部知識(shí),實(shí)現(xiàn)對(duì)每幅圖像中每種關(guān)系類(lèi)型的可配置知識(shí)選擇和個(gè)性化圖推理。給定常識(shí)知識(shí)圖,可配置圖推理網(wǎng)絡(luò)學(xué)習(xí)匹配和檢索不同子路徑的知識(shí),并有選擇地組合知識(shí)路由路徑,彌合了常識(shí)知識(shí)與現(xiàn)實(shí)場(chǎng)景之間的語(yǔ)義鴻溝。大量的實(shí)驗(yàn)表明,可配置圖推理網(wǎng)絡(luò)在幾個(gè)流行的基準(zhǔn)測(cè)試中始終優(yōu)于以前的最新方法。
在第四個(gè)工作中,我們專(zhuān)注于圖像描述分割問(wèn)題。該任務(wù)的實(shí)質(zhì)是在給定某個(gè)自然語(yǔ)言描述下作出跟該表述相關(guān)的圖像分割,而難點(diǎn)在于如何在抽象的語(yǔ)言表述中實(shí)現(xiàn)精細(xì)化的分割結(jié)果。我們?cè)噲D通過(guò)解析給定語(yǔ)言表述的依賴(lài)樹(shù)結(jié)構(gòu)去實(shí)現(xiàn)多模態(tài)推理結(jié)果。技術(shù)上來(lái)說(shuō),我們提出了基于樹(shù)結(jié)構(gòu)的多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)模塊,將低層特征通過(guò)語(yǔ)義引導(dǎo)融合到高層特征中,貫徹自底向上的語(yǔ)義一致性。實(shí)驗(yàn)證明了我們這個(gè)方法能夠有效學(xué)習(xí)語(yǔ)言描述的粗粒度語(yǔ)義與像素層面的精細(xì)語(yǔ)義的對(duì)應(yīng),從而在該任務(wù)中進(jìn)行多模態(tài)推理實(shí)現(xiàn)優(yōu)秀的分割效果。

圖 10. 中山大學(xué) HCP 實(shí)驗(yàn)室利用視覺(jué)推理技術(shù)去實(shí)現(xiàn)描述性圖像分割中的多模態(tài)推理

圖 11. 基于構(gòu)建輔助任務(wù)去實(shí)現(xiàn)數(shù)學(xué)推理題求解
最后值得一提的是,我們基于高效自監(jiān)督學(xué)習(xí)和知識(shí)推理的研究思想也可拓展到一些自然語(yǔ)言處理的領(lǐng)域。在今年 ACL 上(圖 11),我們提出了一個(gè)基于自監(jiān)督輔助任務(wù)學(xué)習(xí)進(jìn)行推理,再實(shí)現(xiàn)數(shù)學(xué)應(yīng)用題求解。每一個(gè)輔助任務(wù)所解決的都是關(guān)于應(yīng)用題里條件的具體描述情況,而對(duì)這類(lèi)信息的正確把握實(shí)際上是推理過(guò)程中的中間結(jié)果,對(duì)最終求解起著重要作用。我們利用神經(jīng)符號(hào)模型將輔助任務(wù)信息和樹(shù)結(jié)構(gòu)推理模型結(jié)合起來(lái),最后的模型在四個(gè)現(xiàn)有的基準(zhǔn)數(shù)據(jù)集上達(dá)到了目前最優(yōu)的效果。
因果推理與因果表達(dá)學(xué)習(xí)

圖 12. 因果推理的兩大技術(shù)流派:以 Judea Pearl 為首的結(jié)構(gòu)因果模型和以 Donald Rubin 為首的潛在結(jié)果框架
結(jié)合知識(shí)與推理的表達(dá)學(xué)習(xí),推動(dòng)著視覺(jué)理解從下層感知逐漸往上層認(rèn)知過(guò)渡,極大地促進(jìn)了模式識(shí)別與人工智能學(xué)界的發(fā)展。然而要通往認(rèn)知智能的終點(diǎn),單純依賴(lài)知識(shí)與表達(dá)學(xué)習(xí)仍然遠(yuǎn)遠(yuǎn)不夠。一方面,現(xiàn)存的絕大部分深度學(xué)習(xí)技術(shù)無(wú)法避免的一個(gè)問(wèn)題就是主要關(guān)注關(guān)聯(lián)而忽略因果,因此其訓(xùn)練的模型在魯棒性和解釋性方面都會(huì)出現(xiàn)很多問(wèn)題。另一方面,高維度視覺(jué)大數(shù)據(jù)的復(fù)雜性往往導(dǎo)致其模型訓(xùn)練難以避免各種混淆因子的影響,導(dǎo)致最后學(xué)習(xí)到的表征與知識(shí)蘊(yùn)含難以預(yù)測(cè)的數(shù)據(jù)偏誤。于是,相關(guān)研究工作開(kāi)始考慮在視覺(jué)理解過(guò)程中去介入"反思"的機(jī)制,其本質(zhì)就是試圖將因果推理的思想融入到表達(dá)學(xué)習(xí)中,達(dá)到真正的"知其然,亦知其所以然"的目的。
因果發(fā)現(xiàn)與推理
有關(guān)"因果"兩字的定義往往可以追溯到上古各個(gè)哲學(xué)流派的討論,而近代的多個(gè)學(xué)科也有獨(dú)立提出其見(jiàn)解的一系列研究。在統(tǒng)計(jì)學(xué)習(xí)與人工智能領(lǐng)域中,比較廣為人知的有兩個(gè)技術(shù)派系。第一個(gè)派系以 Jerzy Neyman 教授和 Donald Rubin 教授各自獨(dú)立提出的潛在結(jié)果框架(Potential Outcome Framework)[12]為主要分析工具,基于不同的隨機(jī)對(duì)照實(shí)驗(yàn)組作為研究對(duì)象,考察其條件個(gè)體受試作用(Conditional Individual Treatment Effect)作為判別不同變量之間是否存在因果關(guān)系的主要依據(jù)。而第二個(gè)派系則以 2010 年的圖靈獎(jiǎng)得主 Judea Pearl 教授為首,提倡從三個(gè)層次的因果階梯出發(fā)去理解世事萬(wàn)物變量之間的因果關(guān)系 [13]。其階梯的第一層"關(guān)聯(lián)",指的是事物變量同時(shí)發(fā)生的聯(lián)合概率,也正是目前深度學(xué)習(xí)能夠解釋的深層的變量統(tǒng)計(jì)關(guān)系。Reichenbach 教授[14] 明確指出統(tǒng)計(jì)相關(guān)性所蘊(yùn)含的信息是嚴(yán)格小于因果關(guān)系的,因此要得到更深層次的因果關(guān)系信息我們必須把因果理解上升到第二層次的"干預(yù)",即對(duì)這個(gè)世界的我們感興趣的事物做某種改變,那么有各種的可能性,而不同的改變會(huì)有不同的結(jié)果,從而讓其反饋而獲取更多信息。最后,由于現(xiàn)實(shí)世界并不允許我們能夠進(jìn)行任意的交互和改變,一個(gè)典型的例子是在固定某個(gè)時(shí)間變量下,我們往往只能做出一次干預(yù)和觀察。因此,我們需要把因果關(guān)系的理解上升到第三層的"反事實(shí)",也就是對(duì)于每一次干預(yù)的發(fā)生,我們都能借助類(lèi)似人類(lèi)"反思"的過(guò)程,去比較其干預(yù)和不干預(yù)下的結(jié)果差異?;趯?duì)因果關(guān)系的深刻理解,Judea Pearl 教授進(jìn)一步提出了因果圖模型(Causal Diagram)和 Do 算子(Do-operator)作為其研究因果關(guān)系的理論框架和實(shí)現(xiàn)因果推理的工具。在其著作《為什么》一書(shū)中,他闡明了潛在結(jié)果框架和因果圖模型之間的共通性,證明了真理縱使表現(xiàn)形式不同,其結(jié)論總是殊途同歸的道理。
因果表達(dá)學(xué)習(xí)

圖 13. Joshua Bengio 教授對(duì)因果推理和表達(dá)學(xué)習(xí)的新理解
值得注意的是,縱使因果推理已有廣泛的算法研究,要讓其與深度學(xué)習(xí)模型結(jié)合指導(dǎo)復(fù)雜的視覺(jué)理解任務(wù),依然存在不少挑戰(zhàn)。一方面是該類(lèi)算法假設(shè)的因果圖往往是固定的,而且復(fù)雜度也比較低,另一方面則是其因果假設(shè)與推理的變量單元也經(jīng)常是低維度變量,蘊(yùn)含的信息量很少。但是,真實(shí)世界的推理單元往往是具有豐富語(yǔ)義信息的高維度變量(如物體),觀測(cè)結(jié)果最初往往并未對(duì)推理進(jìn)行結(jié)構(gòu)化。有鑒于此,圖靈獎(jiǎng)得主,深度學(xué)習(xí)研究領(lǐng)域的泰斗 Joshua Bengio 教授在最近的研究中提出了他對(duì)深度學(xué)習(xí)和因果關(guān)系的獨(dú)到見(jiàn)解[15]。他認(rèn)為深度學(xué)習(xí)擬合的是一個(gè)單一的數(shù)據(jù)分布,其本意就是只有一個(gè)觀測(cè)世界,而一般的深度學(xué)習(xí)則是去擬合該世界的唯一分布。但由于我們的世界是動(dòng)態(tài)變化而且分裂通向多元未來(lái)的,這意味著現(xiàn)有的深度學(xué)習(xí)實(shí)際上是在過(guò)擬合我們的觀測(cè)世界,而對(duì)未來(lái)的改變卻顯得無(wú)能為力。因此,Bengio 教授進(jìn)一步提出了"因果表示學(xué)習(xí)"的概念,試圖從數(shù)據(jù)中學(xué)習(xí)到這些變量表達(dá)以及建立結(jié)構(gòu)關(guān)系,同時(shí)去學(xué)習(xí),擬合不同世界,不同可能下的分布情況。這過(guò)程當(dāng)中就會(huì)對(duì)應(yīng)到因果理解中的干預(yù)和思,從而與不同的下游任務(wù)構(gòu)建起關(guān)系。Bengio 教授的"因果表示學(xué)習(xí)"概念深深地影響了最近的計(jì)算機(jī)視覺(jué)領(lǐng)域的一些研究,如弱監(jiān)督語(yǔ)義分割,視覺(jué)對(duì)話(huà),零樣本學(xué)習(xí)等(見(jiàn)圖 14)。

圖 14. 最近的一些關(guān)于計(jì)算機(jī)視覺(jué)結(jié)合因果表達(dá)學(xué)習(xí)的工作研究
因果學(xué)習(xí)與知識(shí)融合
最后本人分享一下我們實(shí)驗(yàn)室最近在因果表達(dá)學(xué)習(xí)的一些研究進(jìn)展,這包含了兩個(gè)工作。第一個(gè)是計(jì)算機(jī)視覺(jué)的工作,研究的是如何結(jié)合因果圖進(jìn)行圖像合成的;而第二個(gè)工作則跳脫計(jì)算機(jī)視覺(jué)的局限,研究醫(yī)學(xué)診療數(shù)據(jù)下面的無(wú)偏推理問(wèn)題:多輪對(duì)話(huà)下的自動(dòng)醫(yī)療問(wèn)診。不同于現(xiàn)有大部分對(duì)因果表達(dá)學(xué)習(xí)的探索,我們這兩個(gè)工作強(qiáng)調(diào)了如何利用外部知識(shí)或者數(shù)據(jù)中已有的結(jié)構(gòu)信息,去輔助因果表達(dá)學(xué)習(xí)完成更加復(fù)雜的任務(wù),對(duì)因果表達(dá)學(xué)習(xí)領(lǐng)域的未來(lái)研究具有一定的啟發(fā)性。

圖 15. 中山大學(xué) HCP 實(shí)驗(yàn)室關(guān)于表達(dá)學(xué)習(xí)生成模型結(jié)合因果圖推理的研究工作
在第一個(gè)工作中,我們研究如何在給定一個(gè)語(yǔ)義場(chǎng)景圖的情況下,實(shí)現(xiàn)從高層抽象語(yǔ)義到底層視覺(jué)數(shù)據(jù)的圖像生成。這可以看成是場(chǎng)景圖預(yù)測(cè)的反問(wèn)題。而實(shí)現(xiàn)的過(guò)程中有兩個(gè)難點(diǎn):一個(gè)是如何保證生成的圖像蘊(yùn)含的語(yǔ)義信息與給定場(chǎng)景圖的語(yǔ)義信息保持一致;另一個(gè)則是如何讓生成圖像的布局具有解耦性,就是修改布局的其中一部分語(yǔ)義不會(huì)引起整個(gè)圖像的扭曲。而要實(shí)現(xiàn)這種結(jié)構(gòu)上的布局解耦,實(shí)際上就是把相關(guān)變量看成是混淆因子來(lái)進(jìn)行因果表達(dá)學(xué)習(xí)的過(guò)程。于是我們可以看到,從場(chǎng)景圖到合成圖像的生成過(guò)程,我們都可以用結(jié)合外部知識(shí)的因果圖來(lái)表示。我們利用了生成對(duì)抗學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)逼真的圖像生成,同時(shí)采用變分自編碼器的特性學(xué)習(xí)隱空間表達(dá),使生成圖像中對(duì)應(yīng)的元素符合解耦性。而生成學(xué)習(xí)的目的則是在保持生成圖像盡可能逼真的前提下,如何讓生成的圖像語(yǔ)義在結(jié)構(gòu)因果關(guān)系的約束下,同時(shí)保持內(nèi)在語(yǔ)義和外部知識(shí)的一致性。實(shí)驗(yàn)的結(jié)果也驗(yàn)證了,我們的方法不但能從場(chǎng)景圖中生成語(yǔ)義一致的圖像,還可以對(duì)其中的結(jié)構(gòu)語(yǔ)義信息進(jìn)行動(dòng)態(tài)刪減和增加,同時(shí)保持被編輯外的圖像語(yǔ)義不會(huì)受到干擾和改變。

圖 16. 中山大學(xué) HCP 實(shí)驗(yàn)室利用因果推理技術(shù)實(shí)現(xiàn)可解釋醫(yī)療自動(dòng)診斷的研究工作
我們的第二個(gè)工作研究的是醫(yī)療自動(dòng)診斷,即訓(xùn)練一個(gè)代理模型與患者進(jìn)行動(dòng)態(tài)交互問(wèn)診,在準(zhǔn)確的前提下盡可能快地提前結(jié)束問(wèn)診并進(jìn)行疾病的診斷。這本質(zhì)上是一個(gè)數(shù)據(jù)挖掘建模結(jié)合機(jī)器學(xué)習(xí)的問(wèn)題,現(xiàn)有的方法基本上是利用觀測(cè)數(shù)據(jù)去構(gòu)建一個(gè)患者模擬器,從而模擬交互問(wèn)診過(guò)程并對(duì)診斷代理模型進(jìn)行訓(xùn)練。但這個(gè)醫(yī)療對(duì)話(huà)的模擬過(guò)程實(shí)際上使用的是觀測(cè)的被動(dòng)數(shù)據(jù),這會(huì)造成兩大因果類(lèi)的偏誤問(wèn)題。第一個(gè)情況是,如果某一個(gè)病人的問(wèn)診記錄存在從未被醫(yī)生問(wèn)起某種癥狀的時(shí)候,當(dāng)問(wèn)診策略訪(fǎng)問(wèn)到該病人的記錄進(jìn)行交互訓(xùn)練的時(shí)候,患者模擬器只會(huì)返回 “不知道” 的空值回答,因而代理模型是無(wú)法構(gòu)建針對(duì)該癥狀時(shí)的問(wèn)診策略的。這是因?yàn)樵摬∪藢?duì)于此癥狀的對(duì)話(huà)數(shù)據(jù)只存在于反事實(shí)世界中而沒(méi)在真實(shí)世界中出現(xiàn)過(guò)。該問(wèn)題被我們稱(chēng)為默認(rèn)答案偏差,經(jīng)常會(huì)發(fā)生在醫(yī)療診斷的數(shù)據(jù)中,原因非常好理解:真實(shí)世界中的醫(yī)生往往都是通過(guò)先驗(yàn)知識(shí)去搜索最短的問(wèn)診路線(xiàn),不存在試錯(cuò)的過(guò)程。而另外一個(gè)問(wèn)題是,由于現(xiàn)存的患者模擬器是基于純經(jīng)驗(yàn)的,從因果推斷的角度,它代表的數(shù)據(jù)往往只能反映出過(guò)去某一個(gè)觀測(cè)。而基于這些觀測(cè)訓(xùn)練出來(lái)的問(wèn)診代理模型,其策略也只會(huì)過(guò)擬合到這個(gè)觀測(cè)世界中,而在面對(duì)醫(yī)療診斷的時(shí)候,這個(gè)分布查詢(xún)偏差問(wèn)題往往是致命的,因?yàn)檫@些信息在代理模型進(jìn)行查詢(xún)的過(guò)程中往往會(huì)帶來(lái)數(shù)據(jù)偏見(jiàn),使得最后的診斷結(jié)果產(chǎn)生錯(cuò)誤。
我們的工作試圖利用因果結(jié)構(gòu)圖對(duì)不同癥狀和疾病因子進(jìn)行分析,再結(jié)合潛在結(jié)果框架去消除這兩類(lèi)偏差,最終實(shí)現(xiàn)無(wú)偏,可解釋的醫(yī)療自動(dòng)診斷。受到潛在結(jié)果模型技術(shù)的傾向評(píng)分匹配啟發(fā),我們首先提出基于傾向分?jǐn)?shù)的患者模擬器,其目的是取代受到數(shù)據(jù)偏見(jiàn)影響的觀察數(shù)據(jù)患者模擬器,通過(guò)從其他記錄中提取知識(shí)來(lái)有效回答未記錄的詢(xún)問(wèn)(圖 - 16 的左邊子圖)。更具體地說(shuō),我們的方法首先通過(guò)因果結(jié)構(gòu)圖去判定出每次詢(xún)問(wèn)過(guò)程中的哪些因素是對(duì)撞因子,接著基于每個(gè)觀測(cè)數(shù)據(jù)中被詢(xún)問(wèn)的癥狀和疾病的關(guān)系,用傾向性評(píng)分匹配策略去計(jì)算每個(gè)記錄的傾向性評(píng)分并聚類(lèi)不同的詢(xún)問(wèn)記錄。那么對(duì)于每個(gè)觀測(cè)記錄中不存在的癥狀詢(xún)問(wèn),我們都可以通過(guò)其聚類(lèi)的其他觀測(cè)記錄去尋找類(lèi)似的答案,其詢(xún)問(wèn)結(jié)果滿(mǎn)足潛在結(jié)果框架下的無(wú)偏估計(jì)。不但如此,這個(gè)方法可以被用于所有基于交互的自動(dòng)問(wèn)診代理模型的訓(xùn)練中,讓其克服由于交互方式不當(dāng)造成的問(wèn)診答案偏差。另外,為了克服分布查詢(xún)偏差,我們?cè)诶没趦A向分?jǐn)?shù)的患者模擬器同時(shí),提出了一種漸進(jìn)式代理網(wǎng)絡(luò)模型,把策略分解為癥狀查詢(xún)和疾病診斷的兩部分(圖 - 16 的右邊子圖)。詢(xún)問(wèn)過(guò)程由診斷過(guò)程以自上而下的方式驅(qū)動(dòng),以詢(xún)問(wèn)癥狀對(duì)患者的未知方面進(jìn)行干預(yù)。其干預(yù)結(jié)果可以進(jìn)一步推斷多個(gè)在未來(lái)可能會(huì)產(chǎn)生的交互情景。基于交互對(duì)不同的未來(lái)發(fā)展軌跡進(jìn)行聚類(lèi),我們可以依據(jù)不同的聚類(lèi)結(jié)果對(duì)應(yīng)到不同的疾病判斷中。因此每個(gè)完成交互后的軌跡,并將對(duì)應(yīng)不同的疾病診斷,而最大化不同聚類(lèi)簇之間的距離,則能夠增強(qiáng)結(jié)束對(duì)話(huà)時(shí)候的疾病診斷置信度。該診斷過(guò)程實(shí)際上可以被看作是到神經(jīng)科學(xué)里面的發(fā)散模型:在心理和概率上描繪患者,并通過(guò)干預(yù)想象的問(wèn)題(例如“如果患者咳嗽怎么辦?”)在該心理表征中進(jìn)一步解釋原因,具有現(xiàn)有疾病診斷智能體不能比擬的可解釋能力。通過(guò)上述干預(yù),我們提出的代理能夠根據(jù)癥狀的存在與否進(jìn)行診斷,以消除分布詢(xún)問(wèn)偏差。

圖 17. 基于因果推理醫(yī)療自動(dòng)診斷的具體實(shí)現(xiàn)框架
我們采納了兩個(gè)真實(shí)場(chǎng)景下采樣的數(shù)據(jù)集對(duì)我們的工作進(jìn)行評(píng)測(cè)。對(duì)于傾向分?jǐn)?shù)的患者模擬器,由于真實(shí)場(chǎng)景的測(cè)試數(shù)據(jù)也是觀測(cè)數(shù)據(jù),我們基于反事實(shí)推斷衍生的評(píng)價(jià)標(biāo)注去衡量其是否能夠有效實(shí)現(xiàn)反事實(shí)推斷。另外再引入癥狀密度(symptom density)去測(cè)量我們的模擬器是否可以避免陷入回答 “不知道” 這些無(wú)意義的回答中。最后,我們雇傭了一部分來(lái)自中山醫(yī)學(xué)院的學(xué)生去評(píng)價(jià)不同智能體代理的疾病診斷效果。我們的實(shí)驗(yàn)結(jié)果表明了現(xiàn)有基于觀測(cè)數(shù)據(jù)進(jìn)行交互訓(xùn)練的智能體,其診斷結(jié)果極容易受到現(xiàn)存交互記錄數(shù)據(jù)影響,難以訓(xùn)練出在真實(shí)場(chǎng)景下可靠的問(wèn)診模型。而我們提出的患者模擬器則能夠比較好地適應(yīng)這種變化。同時(shí),不論是基于觀測(cè)測(cè)試數(shù)據(jù)的準(zhǔn)確率還是專(zhuān)業(yè)人員評(píng)價(jià),我們的代理策略模型也體現(xiàn)出了更優(yōu)秀的疾病診斷效果。
總結(jié)
我們從計(jì)算機(jī)視覺(jué)作為切入點(diǎn),見(jiàn)證了人工智能從 David Marr 樸素的視覺(jué)理解概念開(kāi)始,一路到今天以深度神經(jīng)網(wǎng)絡(luò)模型和表達(dá)學(xué)習(xí)為研究軸心的蓬勃發(fā)展。同時(shí),我們也發(fā)現(xiàn)了該路線(xiàn)漸漸走到了奇點(diǎn)。不同于一些學(xué)派認(rèn)為表達(dá)學(xué)習(xí)難以學(xué)習(xí)高層認(rèn)知,我們主張目前的表達(dá)學(xué)習(xí)應(yīng)該結(jié)合知識(shí)推理和因果模型去實(shí)現(xiàn)下一階段的技術(shù)飛躍:因?yàn)橹R(shí)推理可以實(shí)現(xiàn)從人類(lèi)知識(shí)到機(jī)器認(rèn)知的一致遷移,而因果模型則為理解機(jī)器推理提供嚴(yán)謹(jǐn)?shù)募夹g(shù)手段。我們實(shí)驗(yàn)室關(guān)于知識(shí)推理和因果模型的一系列工作也從側(cè)面驗(yàn)證了我們的觀點(diǎn)。