機器學習的挑戰：黑盒模型正面臨這三個問題

作者：索信達控股 2021-12-23 10:05:43

本文將講述可解釋機器學習的研究背景，介紹黑盒模型存在的問題和風險，通過一些小故事讓讀者了解問題的嚴重性。

01 機器學習面臨的挑戰

2016年3月，基于深度學習算法的阿爾法圍棋（AlphaGo），以4∶1的總比分戰勝圍棋世界冠軍李世石，深度學習算法從此一戰成名，成為機器學習領域備受推崇的明星算法，在計算機視覺，語音識別，自然語言處理、生物信息學等領域都取得了極好的應用成果。

雖然深度學習模型、集成學習模型（比如XGBoost、LightGBM等）在很多領域都取得了很好的成果，但是這類模型有一個共同的特點就是：內部結構非常復雜，其運作機制就像一個黑盒子一樣，難以用人類可以理解的語言去描述，模型輸出結果也難以被解釋，使得其在一些有關生命安全或重要決策領域的應用受到巨大挑戰。

比如在銀行業，2019年2月，波蘭政府增加了一項銀行法修正案，該修正案賦予了客戶在遇到負面信用決策時可獲得解釋的權利。這是GDPR（《通用數據保護條例》，General Data Protection Regulation）在歐盟實施的直接影響之一。這意味著如果決策過程是自動的，那么銀行需要能夠向客戶解釋為什么不批準貸款。

2018年10月，“亞馬遜人工智能招聘工具偏向男性”的報道登上了全球的頭條新聞。亞馬遜的模型是基于有偏見的數據進行訓練的，這些數據偏向于男性應聘者。該模型構建了不利于含有“Women's”一詞的簡歷的規則。

以上問題的提出，表明業界對模型的應用要求，已經不只是停留在準確性層面，模型結果能否解釋，模型是否安全、公正、透明等也是機器學習面臨的新挑戰。

02 黑盒模型存在的問題

在實際應用中，黑盒模型為什么難以一步到位解決所有問題呢？在回答這個問題之前，我們先來看幾個銀行業的小故事。

1）小楊是某銀行的一名理財客戶經理，年關將至，馬上就要業績考核了，但其業績離既定的銷售目標還有一定的距離，于是他決定使用一個機器學習模型，判斷他所負責的客戶名單中哪些人更有可能會購買基金產品。花了一周時間編寫代碼和做特征工程，小楊順利地運行了一個XGBoost（Extreme Gradient Boosting，梯度提升）模型，模型的AUC（Area Under Curve，ROC曲線下與坐標軸圍成的面積）達到了0.86，結果非常理想，他便高興地拿著模型預測的名單逐個進行電話營銷。結果在幾百通電話之后，最終只有一兩個客戶購買了基金產品，小楊落寞地對著自己的代碼陷入了沉思。

2）小蘇是某銀行的風控專員，最近銀行新開通的信用卡遇到了嚴重的逾期還款問題，銀行決定對舊的評分模型進行調整優化，以防止發生更多的違約情況。于是他用新的訓練數據對模型進行了更新，并對一些特征重新進行了分箱處理，最終將新模型部署上線。然而沒過多久，銀行便開始接到不同的投訴電話：“為什么我已經提供了齊全的資料，征信也沒問題，但是我的信用卡審批就是通不過呢？”“我提交的資料信息與我同事的資料信息是相近的，為什么他的額度比我的高那么多？”……面對申請人接二連三的質疑，小蘇一時半會兒也沒法回答，面對這個黑盒模型運行所得的評分模型，他正絞盡腦汁地對模型進行剖析。

3）小何是一位典型的“吃貨”，尤其喜愛喝珍珠奶茶，幾乎每餐之后都會到手機銀行App上瀏覽附近的奶茶店。最近她婚期將至，看著自己的體重還在持續增長，于是下定決心減肥，并辦了一張健身房的年卡，并且每餐也以沙拉等輕食為主，杜絕珍珠奶茶等高糖分的攝入。令她煩惱的是，每次吃完飯用手機銀行App結賬的時候，App總會向她推薦附近的奶茶店。為了避免因禁不住誘惑而導致減肥前功盡棄，小何毅然決定卸載該手機銀行的App。

由于黑盒模型內部結構的復雜性，模型使用者往往無法得知數據進入模型之后，是如何得到預測結果的，這就好像變魔術一樣，魔術師從黑盒里變出不同的物品，觀眾卻不明所以。

對于決策者，尤其是對于高風險領域（比如自動駕駛、金融領域、醫療行業等）的決策者，在不清楚黑盒模型運作原理的情況下，是不敢僅憑模型的預測結果就輕易做出決策的。

[[441690]]

雖然人工智能和機器學習技術大大提升了人類生活和工作的效率，在很多領域，人工智能都在發揮著巨大的作用。但不可忽視的是，人工智能、機器學習中的模型黑盒問題，也同樣需要引起我們的重視，值得我們深入思考。模型黑盒問題具體包括如下三點。

1. 無法挖掘因果關系問題或因果錯判問題

我們在使用機器學習模型時，不僅希望模型能夠給出正確的預測結果（尤其是在醫學、金融、自動駕駛等高風險領域），還希望模型能夠為我們提供判斷依據。

黑盒模型內部結構復雜，使用黑盒模型做預測時，我們會根據一些模型的評價指標（如AUC）去評估模型的好壞，但即使AUC很高，我們也依然不清楚黑盒模型的判斷依據是否正確。如果模型無法給出合理的因果關系，那么模型的結果也將很難使人信服。

微軟著名研究院的Caruana曾在論文[1]中提到過一個醫學上的例子：

在一個關于肺炎風險的數據集中，我們想要預測不同肺炎病人的死亡概率，從而更好地治療高風險的肺炎病人。最準確的模型是神經網絡，AUC達到0.86，但是當我們使用基于規則的模型時，模型學習到了“如果病人帶有哮喘，那么他屬于低風險人群”。也就是說，帶有哮喘的肺炎患者的死亡率比其他肺炎患者要低。

這個結論看起來模棱兩可，違背了我們的客觀認知，但深入挖掘下去，我們便會發現其中的邏輯關系：有哮喘病史的肺炎患者，由于病情的嚴重性，會得到更進一步的治療，治療的效果通常也會很好，從而降低了這類患者的死亡率。

如果我們直接使用屬于黑盒模型的神經網絡模型，那么模型由于無法推導出這樣的因果關系，從而將帶有哮喘的肺炎病人判斷為低死亡率（低風險）人群，這類人群便有可能錯過最佳治療時間，實際上他們需要得到更好的治療。

2. 黑盒模型的不安全性問題

黑盒模型的不安全性問題可以分為兩大類，具體說明如下。

一是對于建模人員來說，黑盒模型內部結構復雜，當模型受到外界攻擊時，我們通常很難發現這些攻擊。倘若黑客在原始模型的輸入樣本中添加了一些擾動（通常稱為對抗樣本），那么模型很有可能會產生錯判，建模人員如果無法及時調整模型，就會導致非常嚴重的后果。

例如，將黑盒模型應用于自動駕駛時，如果黑客向輪胎的圖像樣本中加入一些擾動，則可能會導致輪胎的識別錯誤，從而造成嚴重的車禍問題。如果建模人員在建模時未發現模型存在這樣的問題，那么在模型投入實際應用時，行車的安全系數將會大大降低。

二是對于模型的使用者來說，他們并不了解模型的運作機制，只是利用模型的結果作出決策。

當我們拿到一個新工具時，我們不僅需要知道如何正確地操作該工具，還需要了解使用該工具時的注意事項、存在哪些風險點，正如醫生向病人提供治療的藥物時，除了用量和服用方式之外，藥物說明書上還會寫明不良反應、禁忌和注意事項等，病人了解這些信息后才能安心服藥。

黑盒模型無法解釋模型的結果，結果通常是以概率或評分的形式給出，使用者對模型結果的風險點卻少有了解，這就好比病人不了解藥物的不良反應一樣。如果有人使用欺詐或偽造的方式，提升自己在黑盒模型中的評分，使用者很難從黑盒模型的結果中發現異常，這就會造成模型結果在使用中存在不安全性的問題。

3. 黑盒模型可能存在偏見問題

偏見是指對某類人群帶有主觀意識情感，就人論事，如性別歧視、種族歧視等都是常見的偏見問題。黑盒模型存在偏見問題，表面上好像是在說黑盒模型能夠反映人類的思想，實際上是指黑盒模型在做預測時，放大了數據收集過程中可能存在的數據不平衡性問題，導致模型最終得出具有偏見性的結果。

比如在美國廣泛使用的COMPAS算法，該算法通過預測罪犯再次犯罪的可能性來指導判刑，根據美國新聞機構的報道，COMPAS算法存在明顯的偏見，根據分析，該系統預測黑人被告再次犯罪的風險要遠遠高于白人，甚至達到了后者的兩倍。

從算法的結果來分析，黑人的預測風險要高于實際風險，黑人被誤判的幾率是白人的2倍多，也就是說，COMPAS算法對黑人是很不公平的，該算法的應用已經嚴重影響到了判決的公正和公平。

有些模型的算法還會涉及性別歧視、年齡歧視等問題。由于黑盒模型缺乏內在解釋性，進行模型訓練時又難免會使用不均衡的樣本數據，因此使用這樣的模型，問題嚴重時可能會引發一系列的社會問題。同樣的道理，在金融領域，當我們做風險評估時，黑盒模型可能會對不同性別、地域、年齡等特征進行不同的處理。

綜上所述，如何避免模型做出帶有偏見性的預測，是值得我們關注的問題。

責任編輯：龐桂玉來源：大數據DT

機器學習人工智能黑盒模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器學習的挑戰：黑盒模型正面臨這三個問題

01 機器學習面臨的挑戰

02 黑盒模型存在的問題