XAI有什么用?探索LLM時代利用可解釋性的10種策略
你是否也好奇,在大模型時代,可解釋性人工智能技術(XAI)有怎樣的使用價值?近日,來自佐治亞大學、新澤西理工學院、弗吉尼亞大學、維克森林大學、和騰訊 AI Lab 的研究者聯合發布了解釋性技術在大語言模型(LLM)上的可用性綜述,提出了 「Usable XAI」 的概念,并探討了 10 種在大模型時代提高 XAI 實際應用價值的策略。
論文題目:Usable XAI: 10 Strategies Towards Exploiting Explainability in the LLM Era
論文鏈接:https://arxiv.org/pdf/2403.08946.pdf
代碼鏈接:??https://github.com/JacksonWuxs/UsableXAI_LLM??
這些策略涵蓋兩方面:(1)如何利用 XAI 來更好地理解和優化 LLM 與 AI 系統;(2)如何利用 LLM 的獨特能力進一步增強 XAI。此外,研究團隊還通過具體的案例分析說明如何獲取和使用大模型的解釋。
可用的大模型解釋技術
Usable XAI in LLMs
從深度學習興起至今,XAI 一直受到關注。人們希望通過 XAI 了解模型是否按預期工作,并利用這些解釋來設計更好的模型。盡管 XAI 在技術上已有顯著的進步,但如何有效使用 XAI 技術以滿足人們的期待還有待探索。發展「可用的解釋性技術」(Usable XAI)有兩大阻礙,其一是 AI 自動化和人類介入之間存在沖突,其二是不同技術背景的用戶對于解釋的需求并不一致。
針對 LLM 的 Usable XAI 又面臨更多新挑戰:(1)LLM 龐大的參數量對于解釋性算法的復雜度提出了限制;(2)LLM 擅長于生成式任務而非傳統的分類任務,這對傳統的解釋性算法設計提出新的要求;(3)LLM 廣泛的應用場景也讓研究者在設計和使用大模型解釋性算法的時候需要考慮道德因素和社會影響。另一方面,LLM 也可能在 XAI 的一些環節中替代人類的作用,從而提高解釋性算法的可用性,降低人工成本。
研究者考慮大模型時代下的 「Usable XAI」包括兩個方面:(1)使用 XAI 來增強 LLM 和 AI 系統,(2)使用 LLM 來提升 XAI 框架。進一步,研究者具體討論了 10 種策略來實現 Usable XAI 技術(見圖 1),其中包括 7 種使用解釋來提升 LLM 的策略,以及 3 種使用 LLM 來提升解釋性技術的策略。對于某些策略,研究者提供了案例分析來強調策略的有效性或局限性。
策略 1:歸因解釋用于診斷 LLM
歸因解釋(attribution methods)旨在量化每個輸入單詞對模型輸出的影響。傳統上,歸因解釋分為四種主要方法:基于擾動、基于梯度、基于代理模型和基于模型解耦。在這些方法中,基于梯度的方法仍然適用于 LLM。圖 2 是一個輸入 - 輸出詞對間的的歸因解釋熱力圖,亮度越高代表當前輸入詞對于當前輸出詞的影響越大。
通過歸因解釋,能夠更加深入地理解 LLM 的運行機制。因此,論文作者們設計了一套流程,通過歸因得分來分析模型行為(見圖 3)。流程開始于指定一個目標 LLM 及其一個輸入輸出樣本對,然后計算輸入和輸出單詞之間的歸因影響。因此,可以利用這些量化的歸因影響以及人類對于某個任務的先驗知識構造特征向量。最后,基于這些特征向量訓練一個輕量級的模型用于模型行為的診斷。兩個具體的案例研究進一步展示了如何應用這一策略。
Case Study-1: 使用歸因解釋評估模型回答質量?
考慮一個機器閱讀理解場景,即輸入一段文章以及一個問題,研究團隊希望判斷分析模型生成的回答質量。理想情況下,一個高質量的回答應該是依賴于文章中相關的內容得到的。于是,先通過歸因解釋抽取模型所依賴的原始文章段落,而后訓練一個分類器基于抽取的段落判斷回答是否正確。
表 2 的使用結果說明,通過歸因解釋抽取的段落可以有效地判斷答案的質量,并且取得了接近于人工標注的效果,證明了歸因解釋在驗證模型答案質量方面的應用價值。
Case Study-2: 使用歸因解釋檢測幻覺回答?
LLM 可能會產生事實錯誤的回答,這種現象稱為 「幻覺」(hallucination)。一個可能的原因是模型過于關注用戶指令而忽視相關實體。例如,「請給我一個關于 Renoit 國王的故事」這個用戶請求,Vicuna 模型會將《三個火槍手》里國王的故事安插給 Renoit 國王。
然而 Renoit 國王是一個虛構的角色,并不存在相應的故事。在這個例子中,模型太執著于執行指令 「請給我一個 xxx 的故事」,卻忽略了指令實體 「Renoit 國王」。于是,作者提出通過統計輸入指令中不同詞性的單詞的平均歸因解釋得分作為特征向量構建出一個幻覺回答檢測器。
表 3 的實驗結果表明,即使是較小模型(Vicuna/Mistral-7B)產生的歸因解釋也能有效識別大模型(ChatGPT 3.5)的幻覺回答,證明了這種方法的有效性。
策略 2:內部模塊解釋用于診斷和提升 LLM
LLM 主要構建于 Transformer 架構之上,其包括自注意機制(Self-Attention)和前饋網絡(Feed-Forward Networks)。對于自注意機制,一個基本的解釋方法是通過分析注意力矩陣來理解輸入和輸出之間單個樣本詞對的關系。除此以外,近期也有更深入的新技術出現,例如 Transformer Circuits 理論或者將模型權重投影到靜態詞向量,進而揭示具體權重的行為。這些技術幫助研究者設計出更好、更高效的自注意力結構。
在前饋網絡方面,主流工作主要依賴于 key-value memories 理論。最新的研究致力于減輕由于神經元的多義性(polysemantic)導致的解釋性難題,比如引入 PCA 分解或者字典學習的技術。這些解釋性算法已經被嘗試應用于模型知識編輯、生成內容控制、和模型剪枝等領域。
策略 3:基于(訓練)樣本的解釋用于調試 LLM
基于樣本的解釋方法旨在通過分析訓練樣本來解釋模型對于特定測試樣本的響應。影響函數(Influence Function,IF)是這方面的核心技術之一,它通過評估移除特定訓練樣本并重新訓練模型后,模型對測試樣本響應的變化來量化該訓練樣本的影響力。這種方法不僅可以揭示 LLM 的回答依據何種訓練文檔,還有助于了解 LLM 如何在廣泛知識領域內進行推廣。
盡管影響函數的理論在 LLM 調試中極具潛力,但由于在大型模型上計算 Hessian 矩陣的復雜度,目前還缺乏實證這一技術在 LLM 上有效性的開源實現。因此,研究團隊提供了一個案例分析來強調 IF 在 LLM 上的適用性,具體的代碼可以在開源 Github 倉庫中找到。
Case Study-3: 基于 EK-FAC 近似實現 LLM 影響函數解釋
在本案例中,研究團隊采用 Grosse 等人(2023)提出的 EK-FAC 近似理論來實現 influence function,驗證其對于 LLM 的適用性,又選取 SciFact 數據集中的 5183 篇論文摘要作為訓練語料,對包括 GPT2-1.5B、LlaMA2-7B、Mistral-7B 和 LlaMA2-13B 在內的一系列大模型進行了進一步預訓練。
為了確保模型能記住每個訓練文檔,每個 LLM 均在該語料庫上訓練了 2 萬步。通過隨機選取某個訓練文檔的前三個句子作為輸入,并收集模型的輸出,研究團隊使用 IF 估計了每個訓練文檔對于該輸入輸出對的重要性,并據此對訓練文檔進行排序。表 4 報告了對應的原始文檔在前 5 或 10 個文檔中的召回率,理想情況下,原始訓練文檔應該排在盡可能前面。
實驗結果顯示,作者的方法在召回率上顯著優于隨機選擇策略,這表明 EK-FAC 近似的影響函數對于 LLM 是有效的。有趣的是,盡管模型對這些訓練語料過度擬合,召回率仍未達到 100%,暗示了大型語言模型在預測時不僅僅依賴單一樣本(可能還包括他們預訓練階段學習到的知識),而是展現出了強大的泛化能力。
策略 4:利用解釋性技術提高 LLM 可信賴性和對齊度
相較于之前著重于提升模型性能的策略,本策略專注于如何運用可解釋性技術提升模型的可信度(Trustworthiness)和使其與人類價值觀對齊(Human Alignment)。隨著 LLM 在醫療、金融、法律和教育等關鍵領域的廣泛應用,確保這些模型能夠遵守人類的道德準則和安全標準變得尤為重要。
本策略綜合了近幾年利用可解釋性技術來增進語言模型在安全性、隱私保護、公平性、無害性及真實性五個維度的研究成果。雖然使用解釋性技術提升模型可信度的方向已受到部分學界關注,但當前依舊缺乏有效的監測與緩解措施。這為發展更先進的 LLM 可解釋性技術提出了新的挑戰和期待。
策略 5:可解釋的提示技術(prompts)用于提升 LLM
不同于傳統的機器學習模型,LLM 的一大優勢是其對于輸入輸出形式的高度靈活性。以情感分類任務為例,傳統模型僅能輸出一個表示情緒傾向的數值,而 LLM 能夠提供包含理由的文本輸出,這種輸出方式本質上增加了模型解釋行。其中,「思維鏈提示」(Chain-of-Thoughts,CoT)技術不僅提高了決策過程的透明度,還提高了模型下游任務的性能。這一方法成功催生了更多類似技術,如思維樹(Tree-of-Thoughts)和思維圖(Graph of Thoughts)。
盡管如此,這個框架的一個關鍵前提 —— 模型輸出的文本真的可以作為其預測的解釋 —— 還未經驗證。因此,這篇綜述通過案例分析探討了 CoT 解釋的忠實性。
Case Study-4: CoT 是否真的提高了 LLM 的可解釋性??
作者針對復雜的多跳問答任務進行了案例分析,這類任務需要整合多個信息源才能解決問題。例如,詢問 「中國百米跑第一名來自哪里?」需要結合關于 「中國百米跑第一名是誰」和 「該人物出生地」的信息。在這種多跳問答場景中,任何一環的錯誤都可能導致最終答案的錯誤。
為考查忠實性,研究團隊選擇了包括 2 跳、3 跳和 4 跳問題各 1000 個 的MQUAKE-CF 數據集,以考察 CoT 的忠實性。具體而言,研究團隊首先收集模型生成的初始思維鏈和最終答案,然后故意修改思維鏈中的信息為錯誤知識,基于這個錯誤思維鏈讓模型給出新的最終答案,并希望模型產生錯誤的答案。
實驗結果表明,對于新一代的 LLM(如 Vicuna-v1.5, LLaMA2-7B, Falcon-7B, Mistral-v0.1/0.2-7B),它們會拒絕基于錯誤的思維鏈做出預測,這意味著還不能確定 CoT 對于這些新模型是否構成有效解釋。然而,對于早期的 LLM(如 GPT-2, GPT-J, LLaMA-7B),較大的模型生成的 CoT 在忠實性方面表現較好,可以被視作有效的預測解釋。
策略 6:利用知識增強的提示技術用于提升 LLM
區別于思維鏈等提示技巧,知識增強的提示依靠引入外部知識以提高模型回答的準確性和豐富度,這種方法通常被稱為檢索增強生成(Retrieval-Augmented Generation, RAG)。
RAG 技術主要分為兩個步驟:首先,使用搜索引擎從外部知識庫中檢索相關信息;接著,將這些檢索到的知識整合到提示中,與 LLM 共同工作。這種方式引入的外部知識對人類來說是可理解的,因此也被視為一種推理階段的解釋性技術。
在本綜述中,研究者細致梳理了幾種運用 RAG 技術來增強模型性能的應用場景,如減少幻覺現象、引入最新知識、以及融合特定領域的專業知識。
策略 7:將解釋結果用于數據增強
數據增強是提升機器學習模型性能的一種經典方法,關鍵在于增加生成數據的多樣性和確保這些數據與特定任務緊密相關。大型語言模型(LLM)的解釋性技術為這一挑戰提供了新的解決方案。通過解釋性技術揭示模型的內部工作機制,不僅能夠指導數據增強的過程,以便生成與任務更為契合的特征,還能避免模型學習到不當的捷徑。
此外,借助 LLM 的高度可控生成能力和先前討論的解釋性技術,可以直接生成具有更高多樣性的數據集,從而進一步提高模型的魯棒性和性能。這種方法不僅擴展了數據增強的應用范圍,也為提升模型理解能力和處理能力開辟了新途徑。
策略 8:利用 LLM 生成用戶友好的解釋
傳統的解釋性技術常常依賴于數字結果作為解釋的基礎,這對普通用戶來說并不友好。因為普通用戶難以高效地審視并匯總大量數字信息。對于大部分人而言,理解和匯總大量數字信息是一項挑戰。相對而言,文本描述形式的解釋更能幫助人們理解和接受解釋性結果,這對于提升解釋性技術的實用性和接受度至關重要。綜述總結了近年來如何利用 LLM 重構解釋性算法的輸出,以提高其對用戶的友好度的相關工作。
策略 9:利用 LLM 設計可解釋的 AI 系統
在 XAI 領域,設計原理上具有可解釋性(intrinsically interpretable)的人工智能模型一直是一個核心目標,目的是根本上增加系統的透明度。傳統機器學習中的決策樹,以及深度學習中的概念模型(concept bottleneck models)和解耦模型都是可解釋性較高的系統示例。
在綜述中,研究團隊總結了兩種利用 LLM 來輔助設計可解釋 AI 系統的方法:一是利用 LLM 模擬人類專家的角色,為任務定義所需的概念;二是構建由多個 LLM 組成的系統,其中每個 LLM 承擔特定的功能,從而提升整個系統的可解釋性。
策略 10:利用 LLM 扮演人類在 XAI 中的角色
類在開發可解釋性 AI 模型的過程中扮演著關鍵角色,包括采集有人類標注的數據集進行模型訓練,以及評估模型生成的解釋。然而,人類參與的過程往往耗費大量的時間和金錢,限制了 XAI 的發展規模。
綜述中探討了如何利用 LLM 模擬人類能力以緩解這一問題的可能性。相關研究指出,通過整合基于主動學習的數據標注策略,LLM 可以在保持數據質量的同時,模擬人類標注者的角色,為采集高質量的人類標注數據集提供輔助。
未來展望
- 規避模型可解釋性與準確性之間的矛盾:在傳統的 XAI 研究中,通常需要在透明度和模型性能之間做出權衡。然而,隨著 LLM 的發展,直接識別可解釋性模塊變得更加復雜。因此,論文作者建議 XAI 研究者放棄這種基于權衡的思維模式,轉而尋求同時增強模型的解釋性和準確性。這正是論文中 Usable XAI 旨在實現的核心目標。
- 數據驅動 v.s. 解釋性驅動:當前,數據驅動的 AI 技術占主導地位,其通過利用大規模數據集構建強大的「黑箱」模型,強調結果而非決策過程。然而,隨著高質量數據資源的逐漸枯竭,解釋性驅動的 AI 技術有望迅速發展,推動通過解釋性增強模型和更高效地利用數據的新范式。
- 設計可解釋性的目標:LLM 時代,XAI 技術的重要性相對發生了根本變化,LLM 強大的能力使得研究者們無需關注為什么模型沒有生成一個連貫的句子,而是開始追求解釋 LLM 是否依賴于事實信息構建輸出之類的問題。鑒于 LLM 強大的能力和復雜性,或許解釋性目標需要轉變為一個更具體、并切實可行的方面,例如為某個特定的任務或者場景定制的可解釋性目標。
- 評估 LLM 的可解釋性面臨新挑戰:傳統的 XAI 已經建立了完善的問題分類體系,但無法直接移植到 LLM 時代的 XAI 研究。因為在 LLM 的背景下,某些可解釋性問題變得不那么突出,同時某些方法變得過于復雜。此外,LLM 內部機制的研究已經呈現出多樣化的趨勢,如研究模型的「撒謊」、「禮貌」 和 「催眠」等行為。這些因素都導致解釋 LLM 的方法尚未形成統一的方法論,從而使評估變得具有挑戰性。
本文轉自 機器之心 ,作者:機器之心
