提升大模型內在透明度:無需外部模塊實現高效監控與自發安全增強|上海AI Lab & 上交
大語言模型(LLM)能力提升引發對潛在風險的擔憂,洞察其內部“思維過程”、識別危險信號成AI安全核心挑戰。
當前主流用外部“黑盒”監控模塊解讀模型表征,此類方法如“隔靴搔癢”:獨立于模型,解讀邏輯不透明、結果可信度低,且對數據分布變化敏感、適應性差,難觸推理本質,無法滿足監控需求。
上海人工智能實驗室和上海交通大學的研究團隊提出創新解決方案——TELLME (Transparency Enhancement of LLMs without External modules)。
該方法摒棄了復雜的外部監控模塊,通過“表征解耦”技術,直接提升大模型自身的內部透明度。
破局新思路:從外部監控轉向內在透明
其核心理念是:讓模型關于不同行為(尤其是安全與不安全行為)的內部“思維語言”(表征)在空間中清晰分離、涇渭分明。這不僅為模型監控開辟了更可靠、更簡單的途徑,還意外地提升了模型輸出的安全性。
△外部監控的瓶頸:可靠性與適應性之困
現有基于表征的監控方法,本質是在模型的輸出中依靠外部探測器打撈風險信號。這種方法面臨兩大關鍵局限:
- “黑盒”不可靠:探測器本身是獨立模型,其決策邏輯不透明,監控結果的解釋性和可信度難以保證。
- 適應性堪憂:面對新的數據分布或未知風險模式,外部探測器往往表現不佳,識別精度顯著下降。
這些局限使得監控效果不穩定,難以應對模型能力持續演進帶來的挑戰。
表征解耦手術
TELLME的核心在于對模型進行輕量級微調,其目標并非改變模型的任務能力,而是重塑其內部的表征空間結構:
1. 對比學習驅動分離:
引入對比學習損失(如InfoNCE Loss)作為核心驅動力。該損失函數促使模型將語義/風險相似的問題表征拉近聚合,同時將不同(尤其是安全與不安全)問題的表征強力推遠分離。這相當于在模型的“思維空間”中進行一場精密的“風險分區規劃”。
2. 雙重約束守護能力:
為防止解耦過程損害模型寶貴的通用能力,TELLME設計了雙重保障。
解耦數據KL散度約束: 確保模型在用于解耦的數據上保持行為邏輯的一致性,避免“精神分裂”。
通用數據二范數約束: 牢牢錨定模型的通用知識和基礎性能,防止優化過程“跑偏”,守護模型的核心價值。
實驗驗證:透明度、監控力與安全提升
在多個安全、知識、數學場景及不同先進模型上的實驗如下:
透明度顯著提升
t-SNE可視化圖清晰顯示,不同風險/行為的表征形成了界限分明的獨立聚類,真正實現了“所思即所見”。
關鍵指標提升顯著,驗證了方法有效性。
通用能力穩固
經過TELLME優化后,模型的通用問答、知識掌握、邏輯推理等核心能力基本無損,有力證明了雙重約束設計的有效性。
簡單與可靠的模型監控
- 解鎖高透明度監控:
利用模型自身的高透明度,監控變得極其簡單——僅需計算問題表征與預設的安全“錨點”表征的相似度 (Self-Sim),即可達到甚至超越復雜外部監控器的準確率!相較于原始模型,監控準確率大幅提升22.3%。 - 賦能現有監控器:即使繼續使用外部監控器,在TELLME優化后的高透明度模型上,其表現也得到顯著提升——在安全風險二分類和多分類任務上的準確率分別提升了5.8%和6.5%。
- 輸出監控同步受益: 基于模型最終輸出的監控準確率也提升了1.7%,表明內部透明性正向影響外部可觀測行為。
如圖,一個涉及“侵犯隱私”的查詢,在TELLME模型內部,“侵犯隱私”行為與安全行為的平均相似度從0.96驟降至0.55。該查詢自身的表征遠離安全錨點(相似度從0.96降至0.54),并緊靠“侵犯隱私”錨點(相似度從0.94升至0.98),風險暴露無遺。
安全性的自發提升:令人驚喜的“副作用”
- TELLME僅要求模型在表征空間無偏好地解耦安全與不安全行為,并未明確指示哪類行為是“壞”的。然而,模型卻自發地在輸出上表現出更強的安全性。
- 無論是原始模型還是經過監督微調(SFT)對齊的模型,應用TELLME后,其安全性能平均提升7.5%,同時保持了合理的過度拒絕率。
- 使用形式相似但更充分利用負例的NT-Xent Loss替代InfoNCE Loss后,安全性能得到進一步改善。
- 通用性能顯著優于僅進行SFT的模型,且基本無衰退,實現了安全與能力的更好平衡。
強大擴展性:
TELLME在Qwen2.5-72B-Instruct超大模型和Qwen2.5-VL-72B-Instruct視覺語言模型上同樣有效,證明了其卓越的可擴展性。
Qwen2.5-72B-instruct:
Qwen2.5-VL-72B-instruct(在視覺模型上,分別使用關鍵詞匹配與判官模型評估其安全性能):
理論支撐:解耦為何有效?
研究團隊借助最優傳輸理論在模型泛化誤差估計中的相關定理,將LLM視為“編碼器”(生成表征)和“分類器”(基于表征產生輸出/監控結果)。理論表明,TELLME實現的表征解耦,顯著降低了模型的泛化誤差上界,為監控和安全性能的提升提供了數學基礎。
結論與展望:通往可擴展監督的新道路
TELLME為大模型的可信監控與安全發展開辟了一條創新路徑:
- 思路革新: 從依賴“外部監控模型”轉向“增強模型自身可監控性”,創新性的視角轉換。
- 監控效能躍升: 通過內在的表征解耦實現超高透明度,無需復雜外部模塊即可高精度識別風險,同時大幅提升外部監控器的可靠性。
- 安全自發增強: 僅通過解耦表征,模型即能自發改善輸出安全性,效果顯著且機制獨特。
- 能力穩固保障: 嚴格的優化約束有效守護了模型的通用能力,破解了安全與能力難以兼得的困局。
更深遠的意義在于,TELLME具有擁抱模型增長的潛力: 模型能力越強,其內部表征蘊含的信息越豐富。在高透明度的前提下,TELLME的監控能力反而會隨之增強!這為解決未來超級智能面臨的“可擴展監督 (Scalable Oversight)”這一關鍵難題,提供了一條極具潛力的可行路徑。
本論文由上海AI Lab、上交大和KAUST聯合完成。主要作者包括上交大本科生陳冠旭、上海AI Lab青年研究員劉東瑞(共同一作)等。通訊作者邵婧為上海AI Lab青年科學家,研究方向為AI安全可信。
論文鏈接:https://arxiv.org/abs/2502.05242
項目主頁:https://github.com/AI45Lab/TELLME