機器學習的挑戰:黑盒模型正面臨這三個問題
01 機器學習面臨的挑戰
2016年3月,基于深度學習算法的阿爾法圍棋(AlphaGo),以4∶1的總比分戰勝圍棋世界冠軍李世石,深度學習算法從此一戰成名,成為機器學習領域備受推崇的明星算法,在計算機視覺,語音識別,自然語言處理、生物信息學等領域都取得了極好的應用成果。
雖然深度學習模型、集成學習模型(比如XGBoost、LightGBM等)在很多領域都取得了很好的成果,但是這類模型有一個共同的特點就是:內部結構非常復雜,其運作機制就像一個黑盒子一樣,難以用人類可以理解的語言去描述,模型輸出結果也難以被解釋,使得其在一些有關生命安全或重要決策領域的應用受到巨大挑戰。
比如在銀行業,2019年2月,波蘭政府增加了一項銀行法修正案,該修正案賦予了客戶在遇到負面信用決策時可獲得解釋的權利。這是GDPR(《通用數據保護條例》,General Data Protection Regulation)在歐盟實施的直接影響之一。這意味著如果決策過程是自動的,那么銀行需要能夠向客戶解釋為什么不批準貸款。
2018年10月,“亞馬遜人工智能招聘工具偏向男性”的報道登上了全球的頭條新聞。亞馬遜的模型是基于有偏見的數據進行訓練的,這些數據偏向于男性應聘者。該模型構建了不利于含有“Women's”一詞的簡歷的規則。
以上問題的提出,表明業界對模型的應用要求,已經不只是停留在準確性層面,模型結果能否解釋,模型是否安全、公正、透明等也是機器學習面臨的新挑戰。
02 黑盒模型存在的問題
在實際應用中,黑盒模型為什么難以一步到位解決所有問題呢?在回答這個問題之前,我們先來看幾個銀行業的小故事。
1)小楊是某銀行的一名理財客戶經理,年關將至,馬上就要業績考核了,但其業績離既定的銷售目標還有一定的距離,于是他決定使用一個機器學習模型,判斷他所負責的客戶名單中哪些人更有可能會購買基金產品。花了一周時間編寫代碼和做特征工程,小楊順利地運行了一個XGBoost(Extreme Gradient Boosting,梯度提升)模型,模型的AUC(Area Under Curve,ROC曲線下與坐標軸圍成的面積)達到了0.86,結果非常理想,他便高興地拿著模型預測的名單逐個進行電話營銷。結果在幾百通電話之后,最終只有一兩個客戶購買了基金產品,小楊落寞地對著自己的代碼陷入了沉思。
2)小蘇是某銀行的風控專員,最近銀行新開通的信用卡遇到了嚴重的逾期還款問題,銀行決定對舊的評分模型進行調整優化,以防止發生更多的違約情況。于是他用新的訓練數據對模型進行了更新,并對一些特征重新進行了分箱處理,最終將新模型部署上線。然而沒過多久,銀行便開始接到不同的投訴電話:“為什么我已經提供了齊全的資料,征信也沒問題,但是我的信用卡審批就是通不過呢?”“我提交的資料信息與我同事的資料信息是相近的,為什么他的額度比我的高那么多?”……面對申請人接二連三的質疑,小蘇一時半會兒也沒法回答,面對這個黑盒模型運行所得的評分模型,他正絞盡腦汁地對模型進行剖析。
3)小何是一位典型的“吃貨”,尤其喜愛喝珍珠奶茶,幾乎每餐之后都會到手機銀行App上瀏覽附近的奶茶店。最近她婚期將至,看著自己的體重還在持續增長,于是下定決心減肥,并辦了一張健身房的年卡,并且每餐也以沙拉等輕食為主,杜絕珍珠奶茶等高糖分的攝入。令她煩惱的是,每次吃完飯用手機銀行App結賬的時候,App總會向她推薦附近的奶茶店。為了避免因禁不住誘惑而導致減肥前功盡棄,小何毅然決定卸載該手機銀行的App。
由于黑盒模型內部結構的復雜性,模型使用者往往無法得知數據進入模型之后,是如何得到預測結果的,這就好像變魔術一樣,魔術師從黑盒里變出不同的物品,觀眾卻不明所以。
對于決策者,尤其是對于高風險領域(比如自動駕駛、金融領域、醫療行業等)的決策者,在不清楚黑盒模型運作原理的情況下,是不敢僅憑模型的預測結果就輕易做出決策的。
雖然人工智能和機器學習技術大大提升了人類生活和工作的效率,在很多領域,人工智能都在發揮著巨大的作用。但不可忽視的是,人工智能、機器學習中的模型黑盒問題,也同樣需要引起我們的重視,值得我們深入思考。模型黑盒問題具體包括如下三點。
1. 無法挖掘因果關系問題或因果錯判問題
我們在使用機器學習模型時,不僅希望模型能夠給出正確的預測結果(尤其是在醫學、金融、自動駕駛等高風險領域),還希望模型能夠為我們提供判斷依據。
黑盒模型內部結構復雜,使用黑盒模型做預測時,我們會根據一些模型的評價指標(如AUC)去評估模型的好壞,但即使AUC很高,我們也依然不清楚黑盒模型的判斷依據是否正確。如果模型無法給出合理的因果關系,那么模型的結果也將很難使人信服。
微軟著名研究院的Caruana曾在論文[1]中提到過一個醫學上的例子:
在一個關于肺炎風險的數據集中,我們想要預測不同肺炎病人的死亡概率,從而更好地治療高風險的肺炎病人。最準確的模型是神經網絡,AUC達到0.86,但是當我們使用基于規則的模型時,模型學習到了“如果病人帶有哮喘,那么他屬于低風險人群”。也就是說,帶有哮喘的肺炎患者的死亡率比其他肺炎患者要低。
這個結論看起來模棱兩可,違背了我們的客觀認知,但深入挖掘下去,我們便會發現其中的邏輯關系:有哮喘病史的肺炎患者,由于病情的嚴重性,會得到更進一步的治療,治療的效果通常也會很好,從而降低了這類患者的死亡率。
如果我們直接使用屬于黑盒模型的神經網絡模型,那么模型由于無法推導出這樣的因果關系,從而將帶有哮喘的肺炎病人判斷為低死亡率(低風險)人群,這類人群便有可能錯過最佳治療時間,實際上他們需要得到更好的治療。
2. 黑盒模型的不安全性問題
黑盒模型的不安全性問題可以分為兩大類,具體說明如下。
一是對于建模人員來說,黑盒模型內部結構復雜,當模型受到外界攻擊時,我們通常很難發現這些攻擊。倘若黑客在原始模型的輸入樣本中添加了一些擾動(通常稱為對抗樣本),那么模型很有可能會產生錯判,建模人員如果無法及時調整模型,就會導致非常嚴重的后果。
例如,將黑盒模型應用于自動駕駛時,如果黑客向輪胎的圖像樣本中加入一些擾動,則可能會導致輪胎的識別錯誤,從而造成嚴重的車禍問題。如果建模人員在建模時未發現模型存在這樣的問題,那么在模型投入實際應用時,行車的安全系數將會大大降低。
二是對于模型的使用者來說,他們并不了解模型的運作機制,只是利用模型的結果作出決策。
當我們拿到一個新工具時,我們不僅需要知道如何正確地操作該工具,還需要了解使用該工具時的注意事項、存在哪些風險點,正如醫生向病人提供治療的藥物時,除了用量和服用方式之外,藥物說明書上還會寫明不良反應、禁忌和注意事項等,病人了解這些信息后才能安心服藥。
黑盒模型無法解釋模型的結果,結果通常是以概率或評分的形式給出,使用者對模型結果的風險點卻少有了解,這就好比病人不了解藥物的不良反應一樣。如果有人使用欺詐或偽造的方式,提升自己在黑盒模型中的評分,使用者很難從黑盒模型的結果中發現異常,這就會造成模型結果在使用中存在不安全性的問題。
3. 黑盒模型可能存在偏見問題
偏見是指對某類人群帶有主觀意識情感,就人論事,如性別歧視、種族歧視等都是常見的偏見問題。黑盒模型存在偏見問題,表面上好像是在說黑盒模型能夠反映人類的思想,實際上是指黑盒模型在做預測時,放大了數據收集過程中可能存在的數據不平衡性問題,導致模型最終得出具有偏見性的結果。
比如在美國廣泛使用的COMPAS算法,該算法通過預測罪犯再次犯罪的可能性來指導判刑,根據美國新聞機構的報道,COMPAS算法存在明顯的偏見,根據分析,該系統預測黑人被告再次犯罪的風險要遠遠高于白人,甚至達到了后者的兩倍。
從算法的結果來分析,黑人的預測風險要高于實際風險,黑人被誤判的幾率是白人的2倍多,也就是說,COMPAS算法對黑人是很不公平的,該算法的應用已經嚴重影響到了判決的公正和公平。
有些模型的算法還會涉及性別歧視、年齡歧視等問題。由于黑盒模型缺乏內在解釋性,進行模型訓練時又難免會使用不均衡的樣本數據,因此使用這樣的模型,問題嚴重時可能會引發一系列的社會問題。同樣的道理,在金融領域,當我們做風險評估時,黑盒模型可能會對不同性別、地域、年齡等特征進行不同的處理。
綜上所述,如何避免模型做出帶有偏見性的預測,是值得我們關注的問題。