生成式AI如何告別版權困擾?基于權重顯著性的機器遺忘算法有奇效
近期,硅谷 AI 公司 OpenAI 可謂是話題度拉滿,先是一出「宮斗戲」引起輿論嘩然,后是公布 Sora 效果炸裂受到了全網的一致好評。在這期間,一樁訴訟案件同樣引爆了熱點 —— 因 ChatGPT 涉嫌侵犯紐約時報著作權,OpenAI 及微軟被起訴并要求支付巨額版權費 [1]。一方是傳統新聞行業的代表刊物,一方是新興人工智能技術發展中的佼佼者。雙方展開這場「里程碑式」拉鋸戰的同時,也將科研圈長期存在的問題再次拉上了臺面:
在 AI 高速發展的浪潮中,如何在保持技術創新的同時不失對于數據安全問題的考量?
的確,隨著近年來產業化模型的逐步發展,數據安全在個人隱私、模型安全、版權問題等多方面都受到了嚴峻的挑戰,如:語言模型因引入個人信息而埋下的隱私泄露隱患;擴散生成模型因訓練數據中涵蓋色情、暴力等不良圖像而導致具備產生違法內容的能力。此外,諸如國家互聯網信息辦公室頒布的《生成式人工智能服務管理暫行辦法》[2],以及歐盟的《一般數據保護條例》[3](GDPR)等也意味著對于數據安全的約束也逐漸從道德層面轉向了法律、法規層面。人們對于數據安全的需求逐漸從幕后轉向了臺前,對于機器學習相關研究者以及現有人工智能服務的提供者而言也是亟待解決的問題與挑戰。
直觀而言,移除敏感數據并重新訓練(Retrain)是一種合理的消除數據影響并保證模型安全的方法。然而,訓練模型對時間和算力的消耗不容小覷,對于一些已經產業化并投入使用的大模型,重新訓練的額外開銷會急劇增大。如何快速有效的消除數據對模型帶來的影響 —— 機器遺忘,便成為了一個新興的熱門研究方向。
什么是機器遺忘?
機器遺忘(Machine Unlearning, 也可稱機器「反」學習),這種方法旨消除特定訓練數據(如敏感或非法信息)對已完成預訓練模型的影響,同時保持該模型的實用性。在評估一種機器遺忘方法時,我們需從三個關鍵維度出發:
1. 高效:算法是否高效運行;
2. 精準:特定數據是否被精準遺忘;
3. 穩定:遺忘后模型是否具有穩定泛化能力。
遺憾的是,現有的機器遺忘方法都無法同時滿足這三個維度的要求。近日,密歇根州立大學(Michigan State University)、賓夕法尼亞大學(University of Pennsylvania)和 IBM 研究院(IBM Research)的研究者們分析了已有機器遺忘方法的局限性,基于權重顯著性提出了一種簡單、直觀但表現優異的機器遺忘框架 ——SalUn(Saliency Unlearn)。實驗結果表明,在圖像分類和圖像生成任務上,SalUn 都能夠出色地滿足高效、精準和穩定這三個維度的要求,證明了其在機器遺忘領域的創新性和重要性。
- 論文題目:SalUn: Empowering Machine Unlearning via Gradient-based Weight Saliency in Both Image Classification and Generation
- 論文地址:https://arxiv.org/abs/2310.12508
- 代碼地址:https://github.com/OPTML-Group/Unlearn-Saliency
論文的共同一作樊翀宇在密歇根州立大學交流期間(目前是華中科技大學的本科生,即將加入密歇根州立大學攻讀博士學位),與清華姚班畢業生劉劍成協作完成了這項研究。目前,相關論文已被人工智能領域的頂級會議 ICLR 2024 錄用為 Spotlight。
「裸體」概念遺忘前后對比;(中)「狗」類遺忘前后對比;(右)「素描」風格遺忘前后對比 [5]
現有機器遺忘方法存在哪些局限?
1. 在分類任務下的不穩定性:現有方法在圖像分類中不同遺忘任務下的表現仍存在差異性。從下圖可以看到,在遺忘數據量為 10% 時,一些基線方法如 l1-sparse [6] 可以接近理想的遺忘效果,但當遺忘數據量逐步增加,特別是達到 50% 時,現有方法與理想的遺忘差距顯著增大。
現有方法在不同遺忘數據量下與理想遺忘效果遺忘效果間的差值
2. 在生成任務下無法泛化:目前已有的機器遺忘方法集中于圖像分類任務,不能適應圖像生成。如下圖所示,當現有的遺忘方法直接遷移到生成模型上時,往往不是過度遺忘就是遺忘不足 —— 模型要么模型對于非遺忘類圖像的生成質量不佳,要么仍然具有生成被遺忘類別的能力。
現有方法在生成任務上的表現
SalUn:基于權重顯著性的機器遺忘
對于不同任務的分析表明,當遺忘任務逐步變難時,遺忘數據和剩余數據在這些任務下可能產生更強的耦合進而導致已有方法無法在保證遺忘效果的同時維持模型的泛化能力。為了達到更加精準的移除,本文在機器遺忘中引入模塊化(modularity)思想,提出了基于權重顯著性(Weight Saliency)的機器遺忘方法 ——SalUn。
一般而言,顯著性是指模型在做出決策或預測時認為最相關或最重要的數據特征。而權重顯著性將此概念擴展到模型的內部權重,確定哪些權重對模型的結果影響最大。SalUn 利用遺忘損失梯度預估相關的權重顯著性,篩選出對遺忘數據敏感的權重,并著重對這部分權重進行遺忘。通過對于模型權重的精確掩模,SalUn 在消除模型中對應數據影響的同時盡可能減少對模型泛化能力的損害,以達到遺忘精準度和泛化穩定性之間更好的平衡,在不同任務下的遺忘中達到了一個統一、有效且簡單的解決方案。
具體而言,對于機器遺忘更新后的權重(θu)可以經權重掩碼(ms)表示為:
其中,權重掩碼使用遺忘損失函數?f 的梯度作為顯著性預估,并基于閾值 γ 進行篩選。文中發現,當?f 使用基于梯度上升(Gradient Ascent)的遺忘損失函數時即可取得較好效果,即:
可以發現,SalUn 的一個優點便是它即插即用的能力:權重掩模對于現有的遺忘方法均可無門檻使用,并在遺忘表現上獲得一定的提升。特別是,當將權重顯著性與隨機標簽(Random Label)遺忘法相結合時,取得了目前 SOTA 的遺忘效果。隨機標簽遺忘為需遺忘的數據重分配一個隨機標簽,然后在重標簽的數據集上微調模型。因此,優化過程及損失函數可分別表示如下:
實驗結果
在圖像分類任務中,兩個主要的測試場景為類遺忘和隨機數據遺忘。類遺忘是針對特定數據集上訓練的模型,遺忘指定類的全部數據;隨機數據遺忘則隨機指定一定比例的訓練數據進行遺忘。在兩種場景中,與 Retrain 的表現誤差會越小意味著遺忘表現越好。已有文獻表明 [6],相較于類移除,隨機數據移除更有挑戰性,因此文中考慮圖像分類時主要關注于 CIFAR-10 中 ResNet-18 模型在不同比例下的隨機數據遺忘。相較于其他基線方法,SalUn 在所有實驗中與 Retrain 間的平均差距均為最小,取得了目前的 SOTA 效果。
在圖像生成任務中,主要的測試場景包含類遺忘和概念遺忘。其中,類遺忘與圖像分類中類似,旨在消除模型中針對特定類的生成能力。文中探討了將 Stable Diffusion 模型消除 ImageNette 數據集中不同類的效果。下圖展示了 SalUn 遺忘「教堂」類前后模型生成效果的比較,可以發現在遺忘后模型在保持其余類生成效果的同時,無法根據文本提示「An image of church」(一張教堂圖片)正確的生成對應圖像。
略區別于類遺忘,生成模型中的概念(concept)遺忘通常指消除更為廣泛的「概念」,如暴力、色情等。由于擴散模型訓練數據量過于龐大,從中篩選并刪除相關數據變得異常困難。如前文所述,目前 Stable Diffusion 仍然存在生成 NSFW 內容的能力,這自然成為了一種機器遺忘的應用場景。對此,文中測試了 SalUn 針對「裸體」概念的移除效果,并使用 I2P [4] 測試集對于遺忘效果進行測試。在此應用場景下,SalUn 相較于已有的概念移除的方法,能更好的消除「裸體」概念。
原論文中展示了更多研究細節以及經過 SalUn 遺忘前后的生成圖像示例,感興趣的讀者可參考。
本文轉自 機器之心 ,作者:機器之心
原文鏈接:??https://mp.weixin.qq.com/s/eTQxBIV0zD6kvXqVr4tHtg??
