揭開大模型“偽遺忘”,港理工等團隊:結構不變就是沒忘
近年來,大語言模型(LLMs)的能力突飛猛進,但隨之而來的隱私風險也逐漸浮出水面。
訓練中暴露的敏感信息往往被模型“記住”,引發廣泛關注。
在此背景下,機器遺忘(Machine Unlearning)技術應運而生,目標是在不影響整體能力的前提下,有選擇性地抹除特定知識。
來自香港理工大學、卡內基梅隆大學和加州大學圣克魯茲分校的研究團隊通過構建一套表示空間的診斷工具,系統性地區分了“可逆性遺忘”與“災難性不可逆遺忘”,并首次揭示了遺忘現象背后的表示結構變化規律——
真正的遺忘只有在多個網絡層發生協同且大幅度擾動時才會出現;而相比之下,在高敏感區域(如輸出logits)中進行輕微更新雖然會顯著降低準確率或提高困惑度,但模型內部表示結構仍可保持完整。
研究人員整理成了一個統一的表示層分析工具箱,支持診斷LLM在Unlearning/Relearning/Finetuning等過程中的內在變化。
真正的遺忘,是結構性的抹除,而非行為的抑制
研究者提出:“一個模型若僅僅在token輸出上‘忘記’,而其內部結構幾乎未變,那它隨時可以恢復原樣?!?/span>
上圖左側(a)展示了兩種典型遺忘場景:
- 上方:雖然Unlearning階段準確率急劇下降,但Relearning之后快速恢復,表示空間保持穩定,屬于可逆(災難性)遺忘;
- 下方:雖然行為表現下降,但結構嚴重擾動,重訓練也難以恢復,屬于不可逆(災難性)遺忘。
右側(b)則展示了我們構建的表示空間分析工具,包括:
- PCA Similarity/Shift
- CKA相似性分析
- Fisher信息矩陣(FIM)
表征空間分析揭示了“遺忘的可逆邊界”
研究者在Yi-6B模型上對不同方法(GA, GA+KL, NPO, RLabel)進行了單次遺忘實驗,比較了三種指標:
- MIA:攻擊者能否識別遺忘目標是否出現過;
- F.Acc:遺忘樣本的準確率;
- R.Acc:保留樣本的準確率。
△在不同學習率下,多種方法的單次遺忘結果對比
進一步,研究者探究了不同請求數量(N)和學習率(LR)組合下的變化:
上圖為在持續遺忘場景下,更大規模的遺忘實驗配置(N×LR組合)下的性能波動。
可視化診斷:模型真的“忘記”了嗎?
PCA Similarity:衡量表示空間主方向變化
研究者發現,對于可逆性遺忘,其表示空間在Relearning后高度恢復原始主方向,而不可逆性遺忘則呈現廣泛漂移:
△各層PCA主方向變化(Cosine相似度)分析
PCA Shift:量化表示分布中心的偏移程度
對于不可逆性遺忘,其“表示漂移”不僅方向變化,更伴隨大尺度的空間位移,Relearning難以還原:
△各階段的PCA散點漂移示意圖
CKA:表示空間結構相似性分析
Linear CKA揭示了各層之間的結構保留程度。可逆性場景下,CKA幾乎未受破壞,而不可逆性場景則迅速退化為低相關結構:
△CKA曲線分析(逐層)
Fisher信息矩陣:重要參數的擾動程度
FIM從參數空間的角度提供了視角。研究人員聚焦Layer 31,觀察其Fisher分布是否仍保留原始結構。
更復雜任務:可逆性能否擴展至復雜任務?
在Qwen2.5-7B上,研究者擴展實驗至MATH和GSM8K推理任務。盡管任務復雜,他們依然觀察到“受控Relearning”可帶來準確率恢復,尤其在可逆場景中甚至超越初始性能。
△MATH與GSM8K任務下各方法表現對比
結論
研究者從結構層面系統剖析了大模型遺忘的可逆性,得出以下核心結論:
- 持續遺忘風險遠高于單次操作,GA/RLabel破壞性強單次遺忘多數可恢復,而持續性遺忘(如100條請求)易導致徹底崩潰。GA、RLabel易過度遺忘,GA+KL、NPO類方法能顯著提高穩定性。
- 真正的遺忘表現為結構漂移而非輸出下降不可逆遺忘伴隨PCA主方向旋轉、分布漂移、Fisher質量下降;僅憑token-level指標難以揭示這種深層變化。
- 遺忘可能帶來隱式增強效果在部分場景中,Relearning后模型對遺忘集的表現優于原始狀態,提示Unlearning可能具有對比式正則化或課程學習效果。
- 結構診斷工具支持可控性遺忘設計PCA/CKA/FIM不僅揭示是否崩潰,更可定位破壞位置,為實現“可控、局部、不可逆”的安全遺忘機制奠定基礎。
本工作由Xiaoyu Xu, Xiang Yue, Yang Liu, Qingqing Ye, Haibo Hu, Minxin Du 共同完成。
論文地址:https://arxiv.org/abs/2505.16831Github地址:https://github.com/XiaoyuXU1/Representational_Analysis_Tools.git