Nature: 受熱力學啟發的人工智能解釋
介紹
根據觀測數據執行預測是廣泛科學學科中普遍關注的問題。傳統上,科學家們通過開發數學模型來解決這個問題,這些模型利用他們對潛在物理過程的了解將觀察與預測聯系起來。然而,在許多實際情況下,由于缺乏系統特定信息,構建這種顯式模型是不可行的. 近年來,出現了一類涉及人工智能 (AI) 的純數據驅動方法,并取得了顯著的成功.這些方法通常被稱為黑盒模型,因為它們不依賴于對系統內部工作原理的深入理解,并且旨在直接從數據中提取模式。然而,當涉及到根據這些模型做出明智的決策和政策時,這種缺乏理解會引起人們的擔憂。
最近在解決這個問題方面取得了重大進展,所提出的方法可分為兩類:(1) 本質上可解釋的 AI 模型(例如,提供可理解決策路徑的決策樹、評分機制、廣義加法模型等),或 (2) 針對本質上不可解釋的 AI 模型的事后解釋方案,稱為 XAI(例如,基于梯度的方法:逐層相關性傳播 (LRP)、引導反向傳播、積分梯度;樹或線性近似于黑盒行為的替代模型;基于博弈論的方法等)。盡管由于 XAI 的某些限制,最近有人推動了前一類方法,大多數現有的黑盒 AI 本身并不是可解釋的。因此,XAI 已被廣泛用于為黑盒 AI 預測生成人類可理解的基本原理.在 XAI 范式下,開發的方法可以是特定于模型的黑盒,也可以是與模型無關的,它們以視覺或特征重要性歸因的形式生成全局或局部有效的解釋.
在這項工作中,我們專注于與模型無關的 XAI 方法,即一類特定的方法,通過僅訪問黑盒模型的輸入和輸出層來工作。最近,出現了一種趨勢,即越來越多的 ML 模型僅用于用戶級別的推理目的,而模型架構和訓練的參數則保留用于商業目的。為了評估此類 ML 模型的可信度,與模型無關的 XAI 是為數不多的有效選擇之一。
最早和最有影響力的模型不可知解釋方法之一是部分依賴圖 (PDP).PDP 可視化特征子集與預測之間的關系,同時保持所有其他特征不變。很久以后,在 2016 年,隨著 Ribeiro 等人引入局部可解釋模型不可知解釋 (LIME:Local Interpretable Model-agnostic Explanations),與模型無關的解釋取得了重大突破。LIME 構造一個線性替代模型,該模型在局部近似于黑盒模型的行為。然后使用與構建的線性模型的每個特征相關的系數來歸因局部特征重要性。由于其易用性,LIME 已成為最廣泛采用的與模型無關的解釋方法之一。在 2018 年的后續工作中,Ribeiro 等人引入了錨,該方法旨在識別足夠的 if-then 條件作為解釋,以便在特征值更改時保留預測。從那時起,其他研究人員一直致力于擴展 LIME 的適用性,例如 Zhang 等人調查了由于隨機鄰域抽樣程序、不正確的相似性測量、缺乏穩健性等原因在 LIME 中可能出現的潛在不確定性,并提出了一組測試來信任解釋本身。
SHapley 加法解釋 (SHAP)由 Lundberg 和 Lee 于 2017 年推出,通過將合作博弈論概念與模型不可知的解釋方法相結合,進一步推動了該領域的發展。SHAP 值通過考慮所有可能的特征組合集來評估每個特征對預測的貢獻,從而提供特征重要性的綜合指標。SHAP 的一個關鍵優勢是它能夠檢測特征之間的非線性依賴關系。此外,SHAP 能夠為黑盒預測提供局部和全局解釋。
盡管這些方法的開發是為了使 AI 預測合理化,但存在一個確保人類高可解釋性的潛在問題。挑戰在于,沒有既定的方法可以直接量化生成的解釋的人類可解釋性程度。這是評估 AI 模型可信度的一個主要問題,但經常被忽視。例如,當合理化涉及大量相關特征時,實現高人類可解釋性并因此建立信任可能具有挑戰性。到目前為止,這個方向的研究進展包括構建線性模型以近似 AI 模型并將模型參數的數量作為人類可解釋性的代理的方法(類似于其他數學領域的一些已建立的方法,例如,在 Akaike 信息準則中或貝葉斯信息準則).
我們工作背后的主要動機之一是認識到模型復雜性可能不足以描述人類可解釋性,如圖 1 所示。在這種情況下,如果模型復雜性用作人類可解釋性的代理,那么兩個線性模型都如圖 1 所示。a、b 將被分配相同的值,因為它們都具有相同數量的模型參數。事實上,以前的研究揭示了當受到不同刺激時,信息處理能力的瓶頸引起的人類認知限制。因此,我們將自己建立在信息論對熵的定義之上并采用一種將線性模型權重視為概率分布的方法。這使我們能夠通過計算類似于香農熵的量來評估不同線性模型之間人類可解釋性的差異。如圖 1 所示,很明顯,與模型 1 相比,模型 2 對人類來說明顯更容易理解。如果兩個模型表現出相同的準確性,則最好選擇模型 2 而不是 1,因為它提供的可操作策略較少。我們在現有方法中通過引入解釋熵的概念來評估任何線性模型的人類可解釋性程度,從而解決了這個問題。我們表明,在簡單條件下,我們對解釋熵的定義解決了基于復雜性的量化的缺點。
圖 1:模型復雜性不是人類可解釋性的良好描述符。
a 線性模型 1 的說明性輸入特征系數。b 線性模型2的系數。兩個模型具有相同數量的模型參數 (6)。但是,模型 2 明顯比模型 1 更易于人類解釋,其中 6 個特征中有 2 個與預測最相關。
此外,我們從經典熱力學的角度看待 AI 模型解釋的整體問題.在熱力學中已知,系統的平衡狀態以其亥姆霍茲自由能 F(T, V) ? U ? TS 的最小值為特征。這里 U 和 S 分別表征在恒定溫度 T 和體積 V 下具有固定數量粒子 N 的系統的內部能量和熵。同樣,我們在這項工作中建立了一種形式主義,其中解釋的最優性 (ζ) 被評估為它的不忠實性 (U) 和基礎真值之間的權衡,和解釋熵 (S).類似于經典熱力學中的 U 和 S,在我們的形式主義中U和S單調地相互依賴。這種權衡的強度可以通過參數 θ 進行調整,以確定最穩定的解釋,該參數的作用類似于熱力學溫度 T。對于 θ > 0 的任何選擇,ζ 都保證只有一個最小值,在某些條件下由一對值表征{U,S}。
我們將我們的方法稱為受熱力學啟發的 AI 和其他黑盒范式的可解釋表征 (TERP),它從 LIME 中汲取靈感,構建局部線性替代模型來生成黑盒解釋。然而,與現有文獻中的方法相反,TERP 側重于使用本文中引入的解釋熵的概念直接量化人類可解釋性的程度,以產生獨特的解釋。由于其與模型無關的實現,TERP 可用于解釋來自任何 AI 分類器的預測。在這項工作中,我們通過解釋以下黑盒模型的預測來證明這種普遍性:(1) 基于自動編碼器的 VAMPnet對于表格分子數據,(2) 用于圖像的基于自注意力的視覺Transformer(3) 基于注意力的雙向長短期記憶 (Att-BLSTM) 的文本分類。特別是,第一類模型屬于一個正在快速發展的研究領域,涉及分子動力學 (MD) 模擬.作為對 MD 模擬有著濃厚興趣的研究人員,我們觀察到該領域對 AI 模型的解釋工具的應用非常有限。因此,我們相信我們提出的方法 TERP 將證明對專注于該主題的更廣泛科學界有價值。
結果
解釋不忠實性 (U) 用于替代模型構造
我們的起點是一些給定的數據集X以及來自黑盒模型的相應預測 g。對于特定元素x∈X,我們尋求盡可能人類可理解的解釋,同時也盡可能忠實于 x 附近的 g。我們的目標是通過開發線性近似來解決解釋 g 的問題,由于其線性結構,線性近似更容易解釋。具體來說,我們將 F 表述為一組有序的代表性特征的線性組合 s = {s1、 s2, ..., sn}.通常,這些特征是依賴于域的,例如,圖像的熱編碼超像素、文本的關鍵字和表格數據的標準化值。我們在下面的公式 (1) 中證明了這一點,其中 F 表征線性近似值,f0是常數,fk來自一組有序的特征系數,f = {f1、 f2, ..., fn}.
讓我們考慮一個具體問題,其中 x0是高維實例,g(x0) 是黑盒模型預測,需要對此進行解釋。我們首先通過隨機擾動高維輸入空間生成一個鄰域 {x1、 x2, ..., xN}。之后,黑盒預測 {g(x1)、g(x2), ..., g(xN)} 獲得與鄰域中的每個樣本相關聯。隨后,通過使用方程 (2) 中定義的損失函數采用線性回歸來構建局部替代模型。
(2)
這里
是高斯相似度測度,其中 d 是解釋實例 x 之間的距離0和鄰域樣本 Xi.在以前的替代模型構造方法中,連續輸入特征空間中的歐幾里得距離一直是 d 的典型選擇。但是,如果輸入空間具有多個相關或冗余特征,則基于歐幾里得距離的相似性度量可能會產生誤導.TERP 通過使用線性判別分析計算鄰域的一維 (1-d) 投影來解決此問題(LDA),它消除了冗余并產生了更準確的相似性。這種投影通過最小化類內方差和最大化類間距離,鼓勵在一維空間中形成兩個集群,分別對應于類內和非類內數據點。由于投影空間是一維的,因此無需調整超參數,
中σ在已建立的方法中可能是必要的,我們可以設置 σ = 1。我們通過在隨后的小節中進行實驗來證明基于 LDA 的相似性對實際問題的優勢。
接下來,我們引入一個有意義的不忠實度量 (U) 生成的解釋,根據使用公式 (1) 和黑盒預測 (g) 獲得的線性替代模型預測 (F) 之間的相關系數 C 計算得出。對于任何解釋,C(F, g) ∈ [ ? 1, + 1],因此解釋不忠實性是有界限的,即U∈[0,1]
U=1 ? | C(F,g) | (3)
使用這些定義,我們實現了一個前向特征選擇方案,首先構建 n 個線性模型,每個模型都有 j = 1 個非零系數。我們使用等式 (3) 來確定導致最低Uj=1.此處,上標 j = 1 突出顯示了U是針對具有 j = 1 個非零系數的模型計算的。我們將在整個手稿中對其他相關量遵循此符號。
然后,傳播所選特征以識別兩個最佳特征集,從而產生最低的Uj=2,并且該方案將持續到Uj=n被計算。由于具有 j + 1 個非零系數的模型與方程 (1) 中定義的具有 j 個非零系數的模型相比,其不忠實度較低或充其量相同,因此可以觀察到U隨 j 單調遞減。當 j 從 1 到 n 時,整個方案會產生 n 種不同的解釋。
解釋熵 (S) 進行模型選擇
在確定了 n 種解釋之后,我們的目標是從這一系列模型中確定最佳解釋。在這一點上,我們介紹解釋熵的定義S用于量化任何線性模型的人類可解釋性程度。給定一個線性模型,其中有一組有序的特征系數 {f1、 f2, ..., fn},其中 j 為非零,我們可以定義 {p1、 p2, ..., pn},其中
. 然后解釋熵定義為:
此處的上標 j 表征S針對具有 j 個非零系數的模型進行計算。很容易看出pk滿足概率分布的屬性。具體來說,pk≥ 0 和
與信息論中的自信息/驚異(surprisal)概念類似,擬合線性模型中pk 的負對數可以定義為該特征的自解釋性懲罰。然后,將解釋熵計算為所有特征的自解釋性懲罰的期望值,如方程 (5) 所示。使用 Jensen 不等式,可以證明S的上限為日志log(n) 我們可以對定義進行規一化,以便S以 [0, 1] 為界。
(5)
這種函數式解釋形式的熵 (S),即可解釋性懲罰,鼓勵擬合權重的急劇峰值分布的低值,表明人類可解釋性高,反之亦然。此外,如果特征是獨立的,則S在下面的定理中表達了兩個有趣的性質。
定理 1
Sj是特征數 (j) 的單調遞增函數。
定理 2
隨著U減少S單調遞增。
用于最佳解釋的自由能 (ζ)
對于具有 j 個非零系數的解釋,我們現在定義自由能 ζ j作為Uj和Sj可通過參數 θ ≥ 0 進行調節,如圖 2和方程 (6)。
(6)通過為穩態值 Δ 編寫方程 (7) 中所示的表達式 Δζ j = ζ J+1? ζ j= 0,我們可以在每個 j ∈ [1, n ? 1]定義特征溫度 θj。本質上
是具有 j 個非零系數的模型的隨每單位解釋熵變化的不忠實度變化的度量。這與熱力學溫度的定義非常相似,熱力學溫度被定義為內能相對于熵的導數。然后,我們用 (j + 1) 個非零系數確定解釋,該系數將
作為最佳解釋,因為可以保證ζJ+1將保留集合中最低的最小值 {ζ 1、ζ2, ..., ζj, ..., ζn} 在最寬的溫度范圍內。最后,我們計算最佳溫度
(θ 內的任何值j < θ < θJ+1同樣有效,因為最優解釋本身不會改變),并將解釋生成為此模型的權重。全部 ζ j本手稿中顯示的 vs. j 圖是使用最佳溫度的定義創建的。
(7)
因此
(8)這又讓人想起了經典的熱力學,其中系統的平衡構型通常會隨溫度而變化,但粗粒度的亞穩態描述在明確定義的溫度范圍內保持穩健。在我們的框架中,當 θ = 0 時,ζ j在 j = n 解釋時最小化,或者最大化不忠實并完全忽略熵的模型。當 θ 從零開始增加時,解釋熵對 ζ 的貢獻更大 j.此處,(θ J+1? θj) 是 j 非零系數解釋穩定性的度量。完整的 TERP 協議總結為一種算法,如圖 3所示。
圖 2:突出自由能特性的說明性示例 ζj、不忠Uj和解釋熵Sj.
a Sj強度對 ζ 的貢獻j可以使用 θ 進行調諧。ζ j顯示了三種不同 θ = 9、6、4 的 vs. j 圖,分別在 j = 2、3、4 處產生最小值。乙Uj vs. j 不受 θ 影響。C θSj vs. j 圖顯示權衡的強度可以通過 θ 進行調整。
圖 3:TERP 算法。
描述生成與黑盒模型預測對應的最佳 TERP 解釋的協議。
圖像分類應用:視覺Transformer (ViTs)
Transformers 是一種機器學習模型,其特征是存在自我注意層,通常用于自然語言處理 (NLP) 任務. 最近提出的 Vision transformers (ViTs)旨在將 Transformer 架構直接應用于圖像數據,無需卷積層,已成為計算機視覺中的熱門選擇。根據結構,ViT 是黑盒模型,由于它們的實際用途,最好在部署之前采用解釋方案來驗證它們的預測。
ViT 的工作原理是將輸入圖像分割成更小的時空分片,將每個分片視為類似于 NLP 中的單詞的次元。然后嵌入這些 patchs (patch-embeddings) 并傳遞給 transformer 層進行自我注意和前饋操作。這樣的設計使 ViT 能夠捕捉圖像中的長程空間依賴性并學習有意義的表征。有趣的是,眾所周知,ViT 在有限的訓練數據下表現不佳,但在足夠大的數據集下,ViT 已被證明優于基于卷積層的模型。因此,典型的 ViT 實現包括兩個階段:首先,使用大型數據集來學習有意義的表征并預先訓練可轉移模型,然后針對特定任務進行微調。
在這項工作中,我們采用了作者在 ImageNet-21k 數據集上預先訓練的 ViT. 然后,通過對公開可用的大規模 CelebFaces 屬性 (CelebA) 進行訓練,微調用于預測人類面部屬性的模型數據。CelebA 是一個包含 202,599 張人類面部圖像的大型集合,每張圖像都標有 40 種不同的屬性(例如,“微笑”、“眼鏡”、“男性”等)。在訓練過程中,輸入圖像被轉換為 16 × 16 像素的分片,導致每個 CelebA 圖像(224 × 224 像素)總共有 196 個分片,如圖5b所示。
圖 5:使用 TERP 解釋和檢查在 CelebA 數據集上訓練的 ViT 的可靠性。
a ViT 預測此圖像中存在“眼鏡”的概率為 0.998。b 在 ViT 分片的 16 × 16 像素定義之后,測試圖像的超像素定義。TERP 結果顯示 c Uj、 d Sj, e θj和 f ζj作為 j、g 的函數對應的 TERP 解釋。我們可以看到 θ 的最大下降 j從 j = 2 到 j = 3 時發生。通過定義最佳溫度
如 “Results” 部分所述,最低 ζj在 j = 3 處觀察到。面板 h-j 顯示完整性檢查,即 AI 解釋方案的結果在模型參數隨機化 (h) 、 (i) 和數據隨機化 (j) 下應該是敏感的。k 顯著性圖結果作為“眼鏡”預測的基線解釋。紅色突出顯示了 RGB 通道中類概率梯度絕對值較高的像素。與 'Eyeglasses' 無關的像素處的高梯度顯示了顯著性圖解釋的局限性。l TERP 和 m 類 'Male' 的顯著性圖解釋。Uj, Sj、ζj和 θj因為 (l, m) 的 j 函數在 SI 中提供。
為了解釋 ViT 預測,“眼鏡”(預測概率為 0.998),對圖 5a使用 TERP。我們首先通過將圖像劃分為對應于 196 個 ViT 分片的 196 個超像素(像素集合)來構建人類可理解的代表性特征,如圖5b所示。之后,按照鄰域生成方案,通過對隨機選擇的超像素的 RGB 顏色求平均值來生成擾動圖像的鄰域。圖 5c-f 顯示Uj,Sj、 θj和 ζj作為 j 的函數(圖3)。因此,TERP 解釋使我們能夠得出結論,“眼鏡”的 ViT 預測是出于正確的原因。最佳 TERP 解釋出現在 j = 3 處,如圖 5g所示, 這是由于 θ 的最大減小 j因為 j 從 2 增加到 3。使用公式 (7) 和 (8),ζ j,并且最小值出現在 j = 3 處。
數據和模型參數隨機化實驗表明 TERP 解釋很敏感
為了確定 TERP 在生成解釋時確實同時考慮了輸入數據和黑盒模型,我們對我們的協議進行了 Adebayo 等人開發的健全性測試。我們通過采用微調的 ViT 模型并在他們的工作之后以自上而下的級聯方式隨機化模型參數并獲得損壞的模型來實現這一目標。具體來說,我們分別隨機化 ViT 塊 11 ? 9 和塊 11 ? 3 的所有參數,以獲得兩個損壞的模型。這兩個型號的“眼鏡”的 TERP 解釋如圖 5h所示。顯示的繪圖Uj,Sj、ζj和 θj因為這些模型的 j 函數在 SI 中提供。在這里,我們的想法是,由于隨機化,解釋將與基本事實不匹配。但是,一個好的 AI 解釋方案應該對這種隨機化測試敏感,并產生與完全訓練的模型不同的解釋。同樣,我們實施了在同一工作中提出的數據隨機化測試(圖 5j),其中訓練數據的標簽在訓練前隨機化,并使用損壞的數據獲得新的 ViT。同樣,AI 解釋方法的結果應該對這種隨機化敏感。從相應的 TERP 解釋中可以看出。5h-j,我們得出結論 TERP 通過了兩個隨機化測試。
基于顯著性圖的基線基準顯示 TERP 解釋是可靠的
為了了解解釋的有效性、穩健性和人類可解釋性,我們分別將 TERP 與顯著性圖、 LIME 和 SHAP 進行了基準測試。在本節中,我們首先表明,與基線方法相比,TERP 解釋明顯更好、更合理,即使用先前訓練的 ViT 進行“眼鏡”預測的簡單基于梯度的顯著性圖。與更高級的方法(LIME 和 SHAP)進行比較,以展示我們的工作如何為現有領域做出貢獻,將在下一小節中討論。
從圖5k,我們看到了顯著性解釋的局限性,例如,檢測到許多與“眼鏡”無關的像素在 RGB 通道中具有較高的概率梯度絕對值。這并不奇怪,因為眾所周知,顯著性圖可以檢測顏色變化、對象邊緣和其他高級特征,而不是學習模型輸入和類預測之間的關系.我們還為標簽“男性”生成了 TERP 和顯著性圖解釋,如圖 5L 所示。同樣,顯著性圖解釋包括應該與此預測類無關的像素。相反,TERP 解釋涉及的像素應該與證明結果有效性的相應類相關。
與高級方法的比較表明 TERP 解釋是獨一無二的
在本小節中,我們將 TERP 與生成獨特且高度人類可解釋性的最新解釋方法進行了比較。為了確保公平的比較,我們重點介紹其他廣泛使用的與模型無關的事后解釋方案 (LIME和 SHAP),這些方法僅適用于黑盒模型的輸入和輸出層。
LIME 通過最小化來生成黑盒預測 (g) 的局部線性近似值 (f):
這里L是保真度函數(通常為均方根誤差),πx是鄰域相似度,Ω 是代理線性模型的復雜度度量。在實踐中,LIME 是通過首先執行加權線性回歸,然后 (1) 選擇具有極值系數的前 j 個特征,或 (2) 直接實施具有 L1 正則化的 Lasso 回歸來實現用于構建稀疏模型,其中稀疏度可以通過超參數α進行調整。j 和 α 通常都取決于所調查的實例,并且需要由用戶將其設置為合理的值。因此,LIME 中缺少基于人類可解釋性的準確機制來生成獨特的解釋,并且在分析大量黑盒預測時,需要進行大量測試/人工干預。
雖然 TERP 和 LIME 都使用相似的保真度函數,但主要區別在于 TERP 不使用模型復雜性或簡單性作為人類可解釋性的代理。正如 “引言” 中所討論的,此類指標可能具有誤導性,TERP 通過引入解釋熵的概念直接計算人類的可解釋性程度。之后,通過識別導致每單位熵增加的不忠實度降低幅度最大的特征集來生成獨特的解釋。
我們應用 LIME 來解釋 “眼鏡” 的 ViT 預測,如圖 6a 所示,顯示對預測有前 10 個影響的特征。我們還在 LIME 中實施了第二種方法,即 10 個不同 α 值的稀疏模型的 Lasso 回歸。隨著 α 的增加,解釋中所選特征的數量會減少,如圖 6b所示。雖然 LIME 識別的相關超像素是合理的,并且與 TERP 識別的超像素重疊(圖 5g),LIME 涉及超參數選擇/人為干預,這對于高通量實驗來說可能是不可行的,例如,在分析 MD 數據時。
圖 6:最先進方法的黑盒解釋。
a 對具有頂部 j = 10 個特征的“眼鏡”的 LIME 解釋,b 稀疏模型大小與調節 L1 正則化強度的超參數α。分別為 c“眼鏡”、d 和“男性”預測的 SHAP 值。這些結果與解釋的一致性如圖 5 所示驗證了 TERP。
在 LIME 之后,我們實施了另一種廣泛使用的最新方法 SHAP,用于解釋“眼鏡”和“男性”預測,如圖 6c 所示, d.與極端 SHAP 值關聯的特征表征對黑盒預測的貢獻很大。具體來說,與特征 j 相關的 SHAP 值可以通過以下方式獲得:
. 在這里,前因子表征特征 j 到 S 的邊際貢獻(括在 [] 中)的權重,其中 S、∣S∣ 和 N 分別表征一組特定的特征(聯盟)、該特定聯盟中的特征數和特征總數。邊際貢獻是通過減去當 j 分別存在于聯盟中存在和不存在時特征 j 在預測中的影響來評估的。在獲得所有特征的 SHAP 值后,通常通過取具有最極端 SHAP 值的前 j (j 是用戶定義的) 特征來獲得稀疏解釋。因此,與 LIME 類似,SHAP 解釋也不是唯一的。通過將 SHAP 結果與 TERP 進行比較(圖5gl),我們再次看到相關特征重疊,這驗證了 TERP 的解釋。
在本節中,我們將 TERP 與兩種廣泛使用的最先進的、與模型無關的事后方法進行了比較,并證明了 TERP 解釋的有效性。此外,通過采用這項工作中開發的理論,TERP 成功地產生了高度人類可解釋的獨特解釋,這與既定方法不同。
AI 增強 MD 的應用:VAMPnets,降維 (LDA) 顯著提高鄰域相似性,應用于文本分類:基于注意力的雙向長短期記憶 (Att-BLSTM)
討論
基于 AI 的黑盒模型的廣泛采用已成為各個領域的標準做法,因為它們能夠在不需要深入了解底層流程的情況下進行部署。然而,這一優勢也對 AI 模型的可信度和解釋提出了挑戰。在這項研究中,我們引入了一個受熱力學啟發的框架來創建復雜黑盒模型的可解釋表征。我們的目標是使用類似于能量-熵權衡的概念找到能夠最大限度地減少與真實模型差異的表征形式,同時保持對人類的高度可解釋性。此外,這項工作中引入的解釋熵的概念有可能在 ML 之外的一般基于人類可解釋性的模型選擇中有用。在未來的工作中,可以為通用線性回歸開發高效的優化算法,該算法使用方程 (4) 作為正則化來直接構建人類可解釋的模型。
我們展示了這種方法在各種 AI 應用中的有效性,包括圖像分類、文本分析和分子模擬。雖然有幾種方法過去曾提出解決 AI 可解釋性問題,但只有少數已被用于例如闡明分子模擬。重要的是,我們的工作標志著可解釋性技術在快速發展的 AI 增強分子動力學領域的開創性應用之一。
我們的框架 (TERP) 的最新應用有助于揭示晶體成核背后的關鍵機制和疏水配體解離.鑒于分子科學在揭示化學反應途徑方面的關鍵作用、了解疾病機制、設計有效的藥物以及許多其他重要領域,確保準確分析至關重要,因為黑盒模型中的錯誤可能會對財務和公共衛生產生重大影響。TERP 應該為分子科學的從業者提供一種方法,通過與熱力學領域簡單而有力的相似之處,在嚴謹的基礎上解釋這些黑盒模型。
本文轉載自 ??清熙??,作者: 沙姆斯·邁赫迪
