為什么這些照片連強大的視覺AI也無法準(zhǔn)確識別?
▲ 桌子上面的到底是井蓋還是蜻蜓?(圖片提供:Dan Hendrycks)
▲ 照片中的是一只綠鬣蜥,還是一只松鼠?(圖片提供:Dan Hendrycks)
▲這是獨輪車,還是一只穿越馬路的鱷魚?(圖片提供:Dan Hendrycks)
對人類而言,這些答案顯而易見。然而,世界上最強大的圖像識別人工智能卻還無法解決上述難題。
之所以會這樣,是因為每一張照片都經(jīng)過精心挑選,專門用來“欺騙”圖像識別技術(shù)。這些照片來自一套專門的數(shù)據(jù)集,其中的7000張照片由加州大學(xué)伯克利分校、華盛頓大學(xué)以及芝加哥大學(xué)的研究人員們共同整理完成。
加州大學(xué)伯克利分校計算機科學(xué)博士生、論文作者Dan Hendrycks表示:“目前的(機器學(xué)習(xí))模型還不夠完善。雖然已經(jīng)有不少研究嘗試?yán)萌斯?shù)據(jù)提升模型的能力,但我們發(fā)現(xiàn),這些模型在面對某些真實數(shù)據(jù)(來自真實照片)時往往會出現(xiàn)嚴(yán)重且高度一致的錯誤判斷。
為了解釋這個問題的重要意義,我們首先對圖像識別技術(shù)的發(fā)展做一下回顧。
過去幾年以來,圖像識別工具已經(jīng)變得越來越好,識別速度也越來越快。這在很大程度上要歸功于斯坦福大學(xué)創(chuàng)建的,并且其規(guī)模仍在持續(xù)拓展的開放數(shù)據(jù)集ImageNet。該數(shù)據(jù)集目前已經(jīng)包含超過1400萬張照片,每張照片都配有“樹”、“天空”之類的標(biāo)記。這個龐大的數(shù)據(jù)庫成為人工智能重要的訓(xùn)練素材集合,也可以作為新AI系統(tǒng)的參考基準(zhǔn),用于訓(xùn)練系統(tǒng)進行圖像識別。打個比方,它就像是一本專供幼兒學(xué)習(xí)新單詞的看圖學(xué)話繪本。目前,利用ImageNet訓(xùn)練出的人工智能擁有極高的準(zhǔn)確率,其物體識別精度可達95%,這一水平已經(jīng)優(yōu)于人類的圖像內(nèi)容分辨效果。
然而,解決這最后5%的準(zhǔn)確度缺口是個巨大的挑戰(zhàn)。自2017年以來,計算機在識別圖像的準(zhǔn)確度方面一直比較羸弱。正因為如此,研究人員們才嘗試探索其中的原因——即計算機為什么無法解析某些特定圖像。
通過這套新的圖像集合,研究人員們以手工方式搜索Flickr(雅虎旗下的圖片分享網(wǎng)站),尋找可能會令A(yù)I軟件陷入混亂的照片。然后,他們利用由ImageNet數(shù)據(jù)集訓(xùn)練而成的AI模型進行測試,如果模型確實無法識別照片內(nèi)容,則將其添加到這套名為ImageNet-A的新數(shù)據(jù)集內(nèi)(很明顯,這個名稱代表的就是反ImageNet之意)。在識別這7000張照片時,AI的準(zhǔn)確度從90%迅速降低至2%。是的,您沒有看錯,世界上最先進的視覺AI模型確實無法正確識別其中98%的照片。
至于AI系統(tǒng)為什么無法理解這些圖像,則是個相當(dāng)復(fù)雜的問題。
目前的AI訓(xùn)練基本上就是把大量數(shù)據(jù)投入“黑匣子”當(dāng)中——換句話說,我們只能根據(jù)最終結(jié)果來判斷其準(zhǔn)確性。比如,如果“黑匣子”見過足夠多樣的樹木圖像,它就會開始在新照片中認出樹木對象,而我們就認為訓(xùn)練獲得成功(這類重復(fù)任務(wù)被稱為機器學(xué)習(xí))。但問題是,我們并不知道AI是依靠哪些指標(biāo)識別樹木的——是形狀?顏色?背景?質(zhì)地?還是說樹木具有某種人類從未意識到的統(tǒng)一核心幾何樣式?對于這個問題,目前科學(xué)家們也回答不了。
總而言之,AI能力的判斷由結(jié)果實現(xiàn),而非通過推理過程實現(xiàn)。這意味著我們可能會從AI當(dāng)中發(fā)現(xiàn)種種令人意想不到的偏見,而這又進一步影響到AI系統(tǒng)在無人駕駛汽車或者刑事司法領(lǐng)域的實際應(yīng)用。除此之外,這也意味著圖像識別系統(tǒng)并不算是真正實現(xiàn)的智能化,而更像是一種強大的匹配工具。
構(gòu)建ImageNet-A數(shù)據(jù)集,正是為了“欺騙”AI,從而總結(jié)為什么這些圖像會讓系統(tǒng)找不到正確答案。舉例來說,當(dāng)AI錯把一張松鼠的圖片誤認為是海獅時,其缺少深層智慧與推理能力的問題就會被直接暴露出來。該系統(tǒng)可能僅依賴于這些動物的紋理——而非對象的相對大小或形狀——進行識別。Hendrycks表示:“那些需要根據(jù)物體形狀才能做出正確判斷的照片,似乎最有可能騙過AI模型。”
利用ImageNet-A,研究人員們成功從視覺AI當(dāng)中找到7000個盲點。但是,這是否意味著可以將這些圖像構(gòu)建成新的訓(xùn)練集,從而修復(fù)AI模型的這個大毛病?答案恐怕是否定的。Hendrycks指出,“由于現(xiàn)實世界中存在著大量多樣性與復(fù)雜性因素,因此利用這些圖像進行訓(xùn)練可能無法教會模型如何真正可靠地管理全方位的視覺輸入信息。比方說,也許收集并標(biāo)記1萬億張圖像足以解決一部分模型盲點,但當(dāng)出現(xiàn)新的場景或者環(huán)境發(fā)生變化時,以往修復(fù)的各個盲點可能會再次暴露出來。”
換言之,簡單將更多照片添加到機器學(xué)習(xí)數(shù)據(jù)集當(dāng)中,無法解決AI模型在邏輯層面的核心缺陷,畢竟總會出現(xiàn)計算機之前從未見過的圖像。那么,研究人員們該如何解決這最后5%的準(zhǔn)確性空白?Hendrycks解釋稱,他們需要在現(xiàn)代機器學(xué)習(xí)范圍之外開發(fā)出新的方法,從而創(chuàng)建起更加復(fù)雜的AI系統(tǒng)。而在他們實現(xiàn)這一目標(biāo)之前,人類仍然可以繼續(xù)保持一點小小的優(yōu)越感——截至當(dāng)下,AI在某些方面仍無法與人類相匹敵。