數據科學的下一個「超能力」：模型可解釋性

作者：機器之心編譯 2019-03-28 09:26:26

很多人重視重視模型的預測能力，卻忽略了模型可解釋性的重要性，只知其然而不知其所以然。為什么說模型的可解釋性這么重要呢？作者就5個方面對此進行了闡述。

在過去的 10 年間，我采訪了許多數據科學家，模型的可解釋性是我最喜歡的主題，我用它來區分***的數據科學家和一般的數據科學家。

有些人認為機器學習模型是黑箱，能做出預測但無法理解;可是***的數據科學家可以通過任何模型洞察真實世界。給出任何模型，這些數據科學家都可以輕松地回答下面的問題：

模型認為數據中最重要的特征是什么
就模型的任何單個預測結果而言，數據中的每個特征是如何影響這一預測結果的
特征之間什么樣的相互作用對模型預測產生的影響***

這些問題的答案比大多數人認為的要有意義。受此啟發，我在 Kaggle 上開設了模型可解釋性的微課程。無論你是通過 Kaggle 還是其他的綜合性資源(比如《統計學習基礎(Elements of Statistical Learning)》)進行學習，這些技術都將徹底地改變你構建、驗證和部署機器學習模型的方式。

[[260764]]

為什么這些洞察結果很有價值?

模型洞察結果的五個最重要應用是：

調試
指導特征工程
指導未來數據的收集方向
指導人類做出決策
建立信任

1. 調試

這個世界中存在很多不可靠的、雜亂無章且具有大量噪聲的數據。當你寫下預處理代碼時，你就添加了潛在的錯誤源頭。加上目標泄漏的可能性，在真實的數據科學項目中，在某個點出現錯誤是正常的，而非例外。

鑒于錯誤的頻率以及潛在的災難性后果，調試成為了數據科學中最有價值的技能之一。理解模型正在尋找的模式有助于你確定模型何時與你對現實世界的了解不一致，這一般都是追蹤錯誤的***步。

2. 指導特征工程

特征工程一般是提高模型準確率的最有效方法。特征工程通常包括轉換原始數據或之前創建的特征來反復創建新特征。

有時候你可以僅憑對基本主題的直覺來完成這個過程。但是當原始特征有 100 多個或者你缺乏手頭項目的背景知識時，你就需要更多指導了。

Kaggle 競賽中有道題是關于預測貸款違約的，這就是一個極端的例子。這道題中有 100 多個原始特征。出于隱私原因，這些特征沒用常見的英文名字，而是用 f1、f2、f3 這樣的代號命名的。這就模擬了一個你不怎么了解原始數據的場景。

一名參賽者發現了 f527~f528 這兩個特征之間的差異，從而創建了強大的新特征。將這一差異作為特征的模型比沒有這個特征的模型要好得多。但是當變量有數百個時，你怎么能想到創建這個變量呢?

你在這門課程中學到的技巧能讓你輕易分辨出 f527 和 f528 是重要特征，而且它們是有緊密關聯的。這會指導你考慮轉換這兩個變量，從而找到 f527-f528 的「黃金特征」。

現在的數據集動輒就有成百上千個原始特征，因此這個方法的重要性與日俱增。

3. 指導未來數據的收集方向

你無法控制在線下載的數據集。但許多使用數據科學的企業和組織都有機會擴大他們收集數據的類型。收集新類型的數據又貴又不方便，所以他們只會收集值得費力氣的數據。基于模型的洞察結果可以讓你更好地理解當前特征的價值，這將幫助你推斷出哪些新價值是最有用的。

4. 指導人類做出決策

有些決策是由模型自動做出的——當你登錄亞馬遜時，網站沒有人在倉促間決定給你展示什么內容。但是有很多重要的決定必須要由人類來做。就這些決策而言，模型的洞察能力比預測能力更有價值。

5. 建立信任

在沒有驗證基本事實的情況下，人們不會相信你的模型，也就不會根據你的模型做出重要的決策。就數據出錯的頻率而言，這是明智的預防措施。在實踐中，展示符合他們一般認知的洞察結果有助于建立用戶對模型的信任，即便這些用戶對數據科學知之甚少也沒關系。

原文鏈接：

https://towardsdatascience.com/why-model-explainability-is-the-next-data-science-superpower-b11b6102a5e0

【本文是51CTO專欄機構“機器之心”的原創譯文，微信公眾號“機器之心( id: almosthuman2014)”】

戳這里，看該作者更多好文

責任編輯：趙寧寧來源： 51CTO專欄

數據科學模型機器學習

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據科學的下一個「超能力」：模型可解釋性