又一機器學習模型解釋神器：Shapash

作者：小猴子 2022-06-07 10:25:45

Shapash 是一個 Python 庫，用于描述 AI 模型的動態交互。它希望通過使 AI 模型更加直觀，讓使用者更加相信模型。Shapash 對全局和局部合理性進行了直接的可視化。

什么是 Shapash

模型可解釋性和可理解性一直是許多研究論文和開源項目的關注的重點。并且很多項目中都配備了數據專家和訓練有素的專業人員。

Shapash 適用于大多數 sklearn、lightgbm、xgboost、catboost 模型，并可用于分類和回歸任務。它利用 Shap 后端來計算特征的局部貢獻度，但是，這可以用其他一些計算局部貢獻度的策略代替。數據科學家可以利用 Shapash 解釋器對他們的模型進行調查和故障排除，或者部署以提供每個推測的可視化。并且它還可以用于制作可以為最終客戶和企業家帶來巨大價值的 Web 應用程序。

shabash 庫

Shapash的目標

1. 顯示清晰合理的結果

繪圖和輸出使用每個組件及其模式的標簽：

2. Web 應用程序

數據科學家可以通過使用 Web 應用程序輕松探索全局和局部鄰域之間的邏輯，從而快速理解他們的模型，并了解各種關鍵點如何發揮作用：

shapash 庫 webapp

3. 總結并導出解釋

Shapash 提出了一個簡短而清晰的解釋。它允許每個客戶（無論他們的背景是什么），都能理解對托管模型清晰的解釋，因為對 Shapash 特征進行了總結和清晰的說明。

4. 完整的數據科學報告

這里有完整的數據報告可以查看：https://shapash-demo.ossbymaif.fr/

Shapash 功能

Shapash 的一些功能如下所示：

1.機器學習模型：它適用于分類（二元或多類問題）和回歸問題。它支持多種模型，如 Catboost、Xgboost、LightGBM、Sklearn Ensemble、線性模型和 SVM。

2.特征編碼：它支持大量的編碼技術來處理我們數據集中的分類特征，如單熱編碼、序數編碼、Base N 編碼、目標編碼或二進制編碼等。

3.SklearnColumnTransformer： OneHotEncoder、OrdinalEncoder、StandardScaler、QuantileTransformer 或 PowerTransformer

4.可視化：提供一組視覺效果以輕松解釋你的結果，并顯示可理解和清晰的結果。

5.它與 Lime 和 Shap 兼容。它使用 Shap 后端只需幾行代碼即可顯示結果。

6.它為參數提供了許多選項，以簡潔地獲得結果。

7.Shapash 安裝簡單和使用方便：它提供了一個 SmartExplainer 類來理解你的模型并用簡單的語法總結澄清。

8.部署：對于操作使用的調查和部署（通過 API 或批處理模式）很重要。輕松創建 Web 應用程序以從全局導航到本地。

9.高度通用性：要顯示結果，需要進行非常多次的爭論。但如果你在清理和歸檔數據方面做得越多，最終客戶得到的結果就越清楚。

Shapash 如何工作

Shapash 是一個使機器學習易于理解和解釋的Python庫。數據愛好者可以輕松理解并分享他們的模型。Shapash 使用 Lime 和 Shap 作為后端，只需幾行代碼即可顯示結果。Shapash 依賴于構建機器學習模型以使結果合理的各種重要進展。下圖顯示了 shapash 包的工作流程：

Shapash 是如何工作的

工作原理

首先，它編譯每個步驟的元素，如數據準備、特征工程、模型擬合、模型評估和模型理解。
其次，它提供了一個 WebApp 和圖表來更好地理解模型。可以與客戶分享和討論模型的結果。
最后，它為您提供了可解釋性的摘要。

安裝

可以使用以下代碼安裝 Shapash：

pip install shapash

對于 Jupyter Notebook：如果你正在使用 jupyter notebook 并且想要查看內聯圖，那么你需要使用另一個命令：

pip install ipywidgets

入門

在這里我們將使用數據集房價預測來探索 Shapash 。這是一個回歸問題，我們必須預測房價。首先我們分析數據集，包括單變量和雙變量分析，然后使用特征重要性、特征貢獻、局部和比較圖對可解釋性建模，然后是模型性能，最后是 WebApp。

分析數據集

單變量分析

使用可以查看下圖，了解名為First Floor Square Feet的要素。我們可以看到一個表格，其中顯示了我們的訓練和測試數據集的多種統計數據，例如平均值、最大值、最小值、標準偏差、中位數等等。在右側圖中可以看到訓練和測試數據集的分布圖。Shapash 還提到了我們的特征是分類的還是數字的，它還提供了下拉選項，在下拉菜單中所有功能都可用。