關于模型可解釋性的深入思考:從哪里來,到哪里去?
本文作者 Cody Marie Wild,不僅是一位機器學習領域的數據科學家(目前任職 phos 公司),在生活中還是名不折不扣的貓咪鏟屎官,她鐘愛語言和簡潔優美的系統,與此同時,Cody Marie Wild還標榜自己是一位專業求知欲者。
最近,Cody Marie Wild 開始圍繞著一些機器學習領域的熱門話題開始了自己的思考:學習出一個通用智能行動者的潛力和局限性,算法公平方面細微的以及可以被真正規范化的挑戰,以及現在的熱門話題:能向人類解釋、能被人類理解對模型來說意味著什么?Cody Marie Wild 撰寫了一篇文章介紹了她的思考,這篇文章整理翻譯如下。
隨著人們的新點子已經被越來越復雜的模型架構所取代,在一層又一層的模型的重壓之下快要依稀不見,人們呼吁重視機器學習的可解釋性的呼聲也越來越高。過去的兩年內,NIPS 舉辦過關于相關話題的研討會,DARPA(美國國防部高級研究計劃局)也正資助一項可解釋 AI 項目,與此同時,歐洲各國的 AI 項目也均爭先響應歐盟的新要求:紛紛表示 AI 模型所作出的任何「重大決策」無一例外都會對用戶做出解釋。
哦不!這個像素重要性的熱力度看起來像一張鬼臉
Cody Marie Wild 發現大家關于「模型可解釋性」的爭論通常分為一下三大派:
-
對模型穩定性所產生的恐懼。這種思維模式最最令人擔憂,欠缺對模型制定決定的反省能力,模型最終有可能以種種方式學到某些不恰當的模式。這里有一個常見案例,由于醫院的策略是每次都把哮喘病人送到重癥病房,(病人危重所以需要馬上救治)所以模型反而學會了認為哮喘病人的死亡風險比較低。當在關鍵場景中得到運用時,模型還擁有能力來檢驗,其如何學習到該場景的「關鍵」背后的原理。很多情況下這些模型也是由經驗豐富的專業人員部署下去的,他們當然也不會部署一個連他們自己都不能打包票的模型了。
-
人類期望從這些不可解釋的模型中提煉出新奇的知識:通過這種方式來賦予人類對世界的新的了解,把機器學習用在應用科學中的人多數就是這樣的思考角度。在這里,「模型可解釋性」被視為一種價值增值,因為如果能夠將機器的抽象翻譯成對有意義的人類概念的話,人類就可能將這些概念重組到現有的知識網絡,并用它來推動更多的研究。
-
在模型在做出與人類息息相關的決定時,人類覺得自己有權知曉它背后合乎邏輯的理由:人類的這種想法有點稍微難以解釋,但其中確實摻雜了一些強烈情感。這也與針對機器偏見的爭論有關,并且可以確定的是,許多人都認為黑箱子中的模型正在以不當方式利用社會信息,他們從這個角度爭論不休。但作者認為,相對于模型,人類社會對于公平概念有著更廣泛的理解:例如某個人在進行一個決定行為時(貸款或聽證會)獲得信服的前提是,他給出了令人信服的理由。當一個人將自己某項決定行為的理由告知你時,你就可以利用這些理由,甚至依據它們和他爭辯。同樣地,作者也十分理解當模型給了你一個不可調和且不透明的決定時,你發覺自己被它專橫對待了,而且毫無「自衛」之力的那種感受。如果可以的話,你肯定會阻止別人使用模型的這個邏輯。
為什么模型的復雜架構會降低其可解釋性?
ResNet 模型為什么不具備可解釋性?這樣問有些冒老生常談的風險。模型欠缺哪些基本性質?這與系統本身具有完全確定性有關,因為模型一旦被訓練完畢,你就可以據此寫出模型中每個量與其他的量相關聯的方程。作者認為模型欠缺可解釋性的根本原因和模型本身的缺陷關系不大,反而更多和人類的認知缺陷相關。當人類「思考時,大腦會將每個與之相關的有意義概念作為其中的單元來組成想法,而且大腦通常需要將那些概念抽象化、概括化,有時候還要壓縮,以便讓它們便于處理。當交給人類一篇敘述性散文和把它交給三個充滿權重的模型矩陣時,會得到截然不同的兩種解釋水平,因為人類是不可能一次性地將模型矩陣包含的全部信息記錄在人腦里的,那不現實也不可能。這促使作者認識到了「模型可解釋性」中的一個關鍵概念:對于一項復雜模型的可解釋性表示,通常被大體看做是其本身的一種壓縮表示。
該概念,是真正可解釋性的必要概念,它為一直以來為深度學習模型的晦澀難懂所困的大家打開了一扇窗。可以確定,難以理解的一部分原因是由于模型本身架構復雜。但作者還想說明,這個問題也有一部分原因是因為深度學習歷來就能夠高效處理非常原始的輸入數據。作為對比,當一個人需要把經濟普查數據作為輸入特征時,由于計算特征的因果關系鏈是沿著人類認為有意義有價值的方向走的,這樣定義下來的特征也都代表了一個人類認為有意義的概念。對于非常原始的輸入數據,比如像素值,你就會遇到這個問題:每一個單獨的輸入值都不和任何概念產生聯系。不論模型使用的更高層的抽象到了什么程度,這都完全是模型自己學到的抽象,而非人類向系統輸入的概念。無論何時有人執行神經元或者圖層可視化操作,你都會看到模型為了有意義而進行的摸索,我們不可避免地會去嘗試為模型附加人類的概念,例如該模型用來識人眼,另一個模型則用來識別建筑物等等,即便在某種程度上我們知道期待機器的抽象能夠熟練地植入人類的思想這件事會有誤導性。
模型的可解釋性有哪幾種
作者在閱讀 LIME、Shapley Values、 Neuron Visualization 等意圖提出模型可解釋性問題的論文時,發現它們可以被分成以下幾類:
特征歸屬 VS 內部邏輯:作者眼中最有意義的分法是把各種可解釋性的方法分為兩類:一類嘗試把歸因值分配給特征,另一類嘗試闡明模型真正的內部工作邏輯。沙普利值(Shapley Values)和 LIME 兩種方法就可以分在第一類里。它們的主要目標是將模型的行為映射回原來的那組輸入特征(或者人為創建可選的輸入特征),在模型的復雜的決策過程中,影響越大的特征會被分配越大的權重。相比之下,層模板可視化這樣的方法就屬于后一類了:它試圖理解模型在獲得最終答案的過程中,創建的那個起到媒介作用的抽象。盡管某種意義上這兩類方法都在闡述「模型可解釋性」,但在作者看來,廣泛采用某種清楚的名字來命名這些「模型可解釋性」的不同子目標是有價值的。
模擬獲取知識 VS 內省獲取知識:第二種不那么明確的分法就和給定的可解釋性方法的目標無關,而是取決于達到目標用的是什么樣的技巧。基于模擬的知識意味著,我們通過生成某種形式的模擬數據來獲得對自己模型的理解,捕捉模型如何表現這些數據點,并將其用于理解。這種分法和前一種分法有著的不同取向,LIME(它模擬局部數據樣本,并使用局部內核)和 Neuron Visualization(它以數值方法優化像素,把內部狀態變成高激活值)在這種分法里就同樣分在了「模擬方法」的一側。相比之下,內省獲取知識來源于運用模型的固定方向,并使用它們來獲得知識,而不必進行前者的模擬。這第二類模型的例子比如,線型模型的基本特征重要性(其中的線性項和常數項意味著你可以分析性地計算出特征重要性),以及隨機森林組合模型中的 Gini 縮減特征重要性,因為兩者都是訓練完畢的模型的屬性。但總的來說,盡管如此,作者還是認為后一類方法不適用于更復雜的模型,因而針對「模型可解釋性」的大多數較新發布的論文均屬于前一類。
關于構建一個人類不能完全理解的系統這一想法(它可能也無法得到完全控制),基本上相當于人類親手孕育了一個狂妄之獸,諸如這類的指責經常發難最近的復雜模型師們。然而,人類希望完全理解模型的渴望會偶爾受挫,就像當年強烈反對機械化或自動化的英國手工業工人(勒德分子),但作者相信,還是有一些具有說服力的理由表明這是一個可能會有豐厚回報的研究領域,在模型應用的信任和模型內部表征的脆弱性測試方面最為明顯。另外,作者還在整篇文章中間接表達了一項訴求,就是我們不該將對模型可解釋性立下的一系列期望目標和根本動機像大雜燴那樣一鍋端,這只會使得我們在該問題上的論述陷于更加混亂不清的境況。