人類看見形狀,AI看見紋理:從計算機視覺分類失敗談起
研究人員們驚訝地發(fā)現(xiàn),深度學習視覺算法之所以經(jīng)常在圖像分類時遭遇挑戰(zhàn),是因為它們主要從紋理——而非形狀——當中提取判斷線索。
在我們觀察一張貓的照片時,往往能夠很快認出這是橘貓還是虎斑貓——此外,圖像是不是黑白、是否存在斑點、是否存在磨損以及褪色等等,也都是觀察過程中能夠輕松得到的結(jié)論。此外,我們還會發(fā)現(xiàn)這些小生靈是蜷縮在枕頭后邊,還是迅捷地躍上一張臺面。總而言之,人類總能不知不覺快速學會識別小貓。相比之下,由深度神經(jīng)網(wǎng)絡(luò)驅(qū)動的機器視覺系統(tǒng)雖然能夠在某些特定情況下提供優(yōu)于人類的識別能力,但一旦構(gòu)圖較為罕見、存在噪點或者其它一些干擾因素,系統(tǒng)也有可能對一張內(nèi)容明確的圖像束手無策。
最近德國一支研究小組發(fā)現(xiàn)了當中令人意想不到的原因:人類對圖像里各對象的形狀較為敏感,而深度學習計算機視覺算法卻通常更關(guān)注對象的紋理。
這一發(fā)現(xiàn)發(fā)表在今年5月舉辦的國際學習代表大會上,主要強調(diào)了人與機器在“思考”方式之間的鮮明差異,并闡述了我們的直覺如何誤導人工智能。此外,這項研究也暗示了,人類的視覺為何會發(fā)展成今天的形式。
擁有大象皮膚的小貓與由鐘表構(gòu)成的飛機
舉例來說,深度學習算法體現(xiàn)為一套神經(jīng)網(wǎng)絡(luò),其中包含著成千上萬張有貓或者無貓的圖像素材。系統(tǒng)能夠從這些數(shù)據(jù)當中找到模式,而后利用它來決定如何更好地標記自己從未見過的圖像。網(wǎng)絡(luò)的架構(gòu)類似于人類視覺系統(tǒng),但建模方式更為松散——這是因為,其中的連接層允許網(wǎng)絡(luò)一步步從圖像中提取出越來越抽象的特征。然而,這套系統(tǒng)實際上是一種“暗箱”流程,我們只能獲得正確答案,卻不知道這答案從何而來。并未參與此項研究的俄勒岡州立大學計算機科學家Thomas Dietterich指出,“我們一直在努力找到使得深度學習計算機視覺算法得出正確結(jié)果的原因,以及哪些因素有可能干擾這種視覺識別能力。”
為了達成這一目標,有些研究人員開始探索,在對圖像內(nèi)容進行修改之后,網(wǎng)絡(luò)會因欺騙而得出怎樣的結(jié)論。他們發(fā)現(xiàn),某些非常小的變化都有可能導致系統(tǒng)完全錯誤地標記圖像中的對象——但有些很大的變化,卻反而不會讓系統(tǒng)修改其標記內(nèi)容。與此同時,也有其他一些專家通過網(wǎng)絡(luò)進行了回溯,分析了其中單一“神經(jīng)元”在圖像中的響應(yīng),并據(jù)此為系統(tǒng)學習到的特征生成所謂“激活圖集”。
其中計算神經(jīng)科學家Matthias Bethge實驗室的一組科學家,以及來自德國蒂賓根大學的心理物理學家Felix Wichmann采取了更為定性的方法。去年,該團隊報告稱,當他們在利用特定噪聲進行干擾處理的圖像上訓練神經(jīng)網(wǎng)絡(luò)時,結(jié)果發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)在對存在類似失真干擾的新圖像進行分類方面,表現(xiàn)要優(yōu)于人類。但只要對這些圖像稍微進行一些新的模式調(diào)整,就能夠完全騙過網(wǎng)絡(luò)——即使新的內(nèi)容扭曲與圖中原本存在的扭曲看起來并無不同。
為了解釋這一結(jié)果,研究人員們猜測,也許極低的噪音水平也可能會具有巨大的判定權(quán)重。在這方面,紋理似乎是個很不錯的線索。Bethge和Wichmann實驗室研究生,研究論文***作者Robert Geirhos指出,“如果長時間添加大量噪音,圖像對象的形狀因素其實并不會受到太大的影響。但在另一方面,圖像中的某些局部結(jié)構(gòu),在添加一丁點噪音因素時也可能變得極度扭曲。”因此,他們提出了一種巧妙的方法,以測試人類與深度學習系統(tǒng)究竟是如何處理圖像的。
Geirhos、Bethge和他們的同事創(chuàng)造出兩幅包含相互沖突線索的圖像,即對象的形狀取自某一物體,紋理則取自另一個物體。例如,用帶裂紋的灰色紋理(大象皮膚)填充在貓的輪廓當中;或者制作小熊紋理的鋁罐,乃至由鐘面堆疊而成的飛機圖形等。利用數(shù)百張此類圖像,人類仍能夠根據(jù)圖像中的形狀——貓、熊、飛機等——以極高的準確度進行標記。相比之下,四種不同的分類算法則傾向于另一種理解方式,即給出能夠反映物體紋理的標記,包括大象、罐頭、時鐘等。
并未參與此項研究的哥倫比亞大學計算神經(jīng)科學家Nikolaus Kriegeskorte指出,“這正在改變我們對深度前饋神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)視覺識別能力、及其訓練過程的理解方式。”
奇怪的是,人工智能采取的紋理大于形狀的理解方式,似乎很有那么點現(xiàn)實意義。Kriegeskorte表示,“我們其實可以把紋理看成是一種更精細的形狀。”神經(jīng)系統(tǒng)能夠更輕松地鎖定高精度形狀比例:具有紋理信息的像素數(shù),要遠遠超過構(gòu)成對象邊界的像素數(shù),而神經(jīng)網(wǎng)絡(luò)的***步就是檢測線條與邊緣等局部特征。并未參與此項研究的多倫多約克大學計算視覺科學家John Tsotsos指出,“這就是紋理。所有的線段組都以相同的方式進行排列。”
Geirhos和他的同事已經(jīng)證明,這些局部特征已經(jīng)足以幫助神經(jīng)網(wǎng)絡(luò)完成圖像分類任務(wù)。事實上,Bethge和該研究的另一位作者,博士后研究員Wieland Brendel在今年5月的大會上也通過一篇論文提到了這一點。在這次工作當中,他們構(gòu)建起一套深度學習系統(tǒng),但具體運行方式卻與深度學習技術(shù)出現(xiàn)之前的分類算法非常相似——這更像是一種“特征包”。它最初會將圖像分割成眾多微小的塊(類似于目前的Geirhos等現(xiàn)有模型),但接下來它并不像其它模型那樣逐步整合信息并提取高級特征,而是立即識別出每個小塊中的圖像內(nèi)容(「這個塊中包含自行車的因素,另一塊當中包含鳥的因素」等)。它會將這些決策結(jié)果疊加在一起以確定對象的實際內(nèi)容(「如果包含自行車因素的小塊更多,那么圖像展示的就是自行車」),而完全不考慮不同圖塊之間的全局空間關(guān)系。但就是這種“笨辦法”,卻能夠以驚人的準確度識別物體對象。
Brendel表示,“這一發(fā)現(xiàn)挑戰(zhàn)了此前人們所認定的,深度學習技術(shù)與原有模型完全不同的假設(shè)。很明顯……深度學習仍然代表著一種飛躍,只是不像有些人所希望的那么天翻地覆。”
根據(jù)約克大學與多倫多大學博士后研究員Amir Rosenfeld的觀點(并未參與此項研究),“我們理解中的神經(jīng)網(wǎng)絡(luò)運作方式,與其實際運作方式之間仍然存在著「巨大的差異」”,其中也包括神經(jīng)網(wǎng)絡(luò)對人類行為的復制效果。
Brendel也表達出類似的觀點,他表示人們很容易假設(shè)神經(jīng)網(wǎng)絡(luò)能夠像人類一樣解決任務(wù),“但我們也忘了、或者說是在刻意忽略其中還存在著別的可能。”
一種更接近人類的觀察方法
目前的深度學習方法可以將紋理等局部特征整合至更多全局模式當中。Kriegeskorte指出,例如在談到形狀時,“論文當中提出了令人驚訝、但又非常引人注目的證明,即雖然架構(gòu)能夠關(guān)注形狀,但如果僅僅進行訓練(對標準圖像進行分類),那么神經(jīng)網(wǎng)絡(luò)不會自動提出形狀這一概念。”
Geirhos希望看到當團隊強迫這些神經(jīng)模型忽略紋理因素時,會發(fā)生怎樣的結(jié)果。該團隊采用傳統(tǒng)上用于訓練分類算法的圖像,并以不同的樣式對圖像加以“繪制”,從而在根本上剝離出有用的紋理信息。當他們在新圖像上重新訓練每套深度學習模型時,這些系統(tǒng)開始逐步關(guān)注更大、更為全局的模式,同時也表現(xiàn)出更類似于人類的形狀偏好。
在采取這種方式時,算法能夠更好地分辨包含噪音干擾的圖像,甚至無需訓練即可識別出其中的內(nèi)容。Geirhos表示,“基于形狀的網(wǎng)絡(luò)能夠提供更強大的識別功能。這讓我們意識到,對于特定任務(wù),其實是存在「正確的偏見」這一概念的。以我們的研究為例,形狀偏見能夠把視覺識別算法推廣到更多新穎的場景當中。”
研究還暗示,人類有可能也會自然地產(chǎn)生這種偏見;因為對于***或者干擾因素較多的情況,形狀是一種更為健壯的指標,能夠幫助我們更好地定義自己看到的內(nèi)容。人類生活在一個三維世界當中,很多物體在不同條件、不同角度之下都會呈現(xiàn)出不同的狀態(tài)。而我們的其它感官,例如觸覺,可以根據(jù)需要完善物體識別能力。因此,我們的固有思維就認定形狀優(yōu)先于紋理。(此外,也有一些心理學家提出,語言、學習與人類形狀偏見之間的聯(lián)系;當幼兒接受訓練時,他們可以專門學習某些特定類別的單詞以更多關(guān)注形狀因素。如此一來,他們在后續(xù)掌握名詞或物體相關(guān)詞匯時,往往會表現(xiàn)出較超未訓練孩子的學習能力。)
Wichamnn表示,這項工作提醒人們“數(shù)據(jù)會產(chǎn)生遠超我們認知的偏見與影響。”這已經(jīng)不是研究人員們***次面對這個難題:人臉識別程序、自動招聘算法以及其它神經(jīng)網(wǎng)絡(luò),此前都已經(jīng)被證明會過度重視某些出人意料的特征。這是因為這些神經(jīng)網(wǎng)絡(luò)所使用的訓練數(shù)據(jù)之內(nèi),已經(jīng)存在著根深蒂固的偏見。事實證明,從決策過程當中消除這些不必要的偏見往往非常困難,但Wichmann認為此次新研究展示出新的可能性,也讓他對此充滿信心。
然而,以便Geirhos的模型已經(jīng)開始關(guān)注形狀這一因素,也有可能被圖像當中的大量噪音或特定像素變化所干擾——這表明其距離還原人類視覺能力還有很長的道路要走。(同樣的,Tsosenos實驗室研究生Rosenfeld、Tsotsos以及Markus Solbach最近也發(fā)表了研究報告,認為機器學習算法無法像人類那樣感知不同圖像之間的相似性。)不過Krigeskorte指出,“通過此項研究,我們終于開始觸及一個實質(zhì)性問題——計算機視覺識別算法并沒能把握住人類大腦當中的某些重要機制。”而在Wichmann看來,“在某些情況下,關(guān)注數(shù)據(jù)集可能更為重要。”
多倫多大學計算機科學家Sanja Fidler(并未參與此項研究)也對這一觀點表示贊同。她解釋稱,“具體結(jié)果,取決于我們能否設(shè)計出聰明的數(shù)據(jù)與聰明的任務(wù)。”她和她的同事目前正在研究如何為神經(jīng)網(wǎng)絡(luò)提供輔助,以幫助網(wǎng)絡(luò)提取出最重要的特征。受到Geirhos調(diào)查結(jié)果的啟發(fā),他們最近訓練出一種圖像分類算法,其不僅能夠識別出物體本身,同時也可以判斷哪些像素屬于其輪廓或者形狀的組成部分。該網(wǎng)絡(luò)在常規(guī)對象識別任務(wù)中能夠自動提升判斷水平。Fidler指出,“只要完成了一項任務(wù),我們就會自然地在關(guān)注當中帶有選擇性,同時忽略掉其它很多不同的因素。但如果面對多個任務(wù),我們可能會發(fā)現(xiàn)更多影響要素。這些算法也是如此。”算法在解決各種任務(wù)的過程中會“對不同的信息產(chǎn)生偏見”,這與Geirhos在形狀與紋理實驗中的發(fā)現(xiàn)高度契合。
Dietterich總結(jié)稱,所有這些研究都代表著“在深入了解深度學習中具體步驟與內(nèi)容方面,一個個令人興奮的階段。這也許將幫助我們克服一系列當下困擾著我們的局限。因此,我非常贊賞此次發(fā)布的一系列論文。”