成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

萬字長文解析:2024年的機器消除學習 原創 精華

發布于 2024-5-7 10:04
瀏覽
0收藏

隨著我們今天的機器學習模型變得越來越龐大,(預)訓練集的規模變得難以理解,人們對機器消除學習的概念越來越感興趣,以便在不重新訓練模型的情況下刪除不需要的內容,例如私人數據、過時的知識、受版權保護的材料、有害/不安全的內容、危險的功能和錯誤信息。

機器消除學習可以廣義地描述為從經過訓練的模型中刪除訓練數據的影響。在其核心中,目標模型的消除學習旨在產生一個與重新訓練模型等效或至少“行為類似”的消除學習模型,該重新訓練模型是在與目標模型相同的數據上進行訓練,但減去需要消除的信息。

上述描述中隱藏著許多問題。我們如何描述需要消除的信息?我們是否總是擁有重新訓練的準確模型?如果沒有,我們如何實際評估消除學習?我們是否能夠驗證和審計消除學習?像人類經常做的假裝遺忘一樣足夠嗎?消除學習是否是正確的解決方案?如果是的話,用于解決什么問題?

消除學習的精確定義、技術、保證和度量/評估將取決于:

  • 機器學習任務(例如二元分類或語言建模);
  • 需要消除的數據(例如一組圖像、新聞文章或制作凝固汽油的知識);
  • 消除學習算法(例如啟發式微調與刪除模型組件);
  • 消除學習的目標(例如用戶隱私或有害內容的移除)。

1. 歷史背景與進行消除學習的動機

人們對消除學習問題已經思考了一段時間了。最初的研究探索主要是受到歐盟《通用數據保護條例》(GDPR)第17條的驅動(通常稱為“被遺忘權”),該條例始于2014年。被遺忘權基本上是指用戶有權要求服務提供商(例如刪除您的Gmail帳戶)刪除其數據。

被遺忘權是出于善意的。當服務提供商以結構化方式存儲用戶數據時,這也是非常可行的,就像谷歌根據被遺忘權請求從其索引中刪除了一些鏈接一樣。

然而,被遺忘權在提出時并沒有真正考慮到機器學習。在2014年,政策制定者不會預測到深度學習將成為數據和計算的巨大混合體,而解析和解釋這個混合體會變得困難。從此以續的研究表明,從機器學習模型中刪除數據的難度,進一步推動了所謂的“數據刪除”和“機器消除學習”的研究。

十年后的2024年,用戶隱私不再是消除學習的唯一動機。我們已經從對面部圖像訓練小型卷積網絡轉變為對付費、受版權保護、有害和其他有害內容進行巨型語言模型訓練,這些內容我們可能希望從機器學習模型中“抹去” - 有時僅憑一小部分示例。模型的性質也發生了變化。人們不再使用許多在一個任務上表現良好的小型專用模型,而是開始使用一個單一的巨型模型,該模型幾乎了解任何任務。

目前,研究消除學習的動機可以分為兩類:

  1. 撤銷訪問權限(考慮消除私人和受版權保護的數據)。在理想的世界中,數據應該被視為“借用”(可能未經許可),因此可以“歸還”,而消除學習應該使這種撤銷成為可能。
    從這個角度來看,消除學習具有挑戰性。一個主要困難是,我們對深度學習本身的理解有限,使得訓練到模型中的數據類似于“消耗品”(在消耗后不能簡單地“退還”)。數據也可能是不可替代的(例如聊天記錄),甚至可以被視為具有自身財務和控制利益的勞動力。另一個挑戰是撤銷訪問權限可能需要證明消除學習;正如我們將在接下來的章節中探討的,這并非總是可能的。
    這些困難表明,也許值得修改《被遺忘權》等法律,并思考諸如數據市場之類的替代方案,在這些方案中,數據所有者能夠得到適當的補償,因此他們就不會首先要求進行消除學習。舉例來說,假設鮑勃吃了愛麗絲的乳酪蛋糕(數據),愛麗絲寧愿鮑勃付款或歸還等值物品(補償),而不是鮑勃恢復到吃之前的狀態(消除學習)。
    在實踐中,實現撤銷訪問權限的一種方法是通過對基礎模型進行某種形式的定期重新訓練。許多模型提供商已經在做這個,以保持他們的模型具有競爭力和最新性。例如,OpenAI可以收集一系列消除學習請求,并在每年的重新訓練中批量滿足這些請求(或者根據《被遺忘權》規定的“不合理延遲”期限來滿足請求)。更廣泛地說,這提示了消除學習的社會技術解決方案:政策制定者可以規定這種定期重新訓練,并設定經濟可行的截止日期,將成本轉嫁給模型所有者。
  2. 模型修正和編輯(例如毒性、偏見、過時/危險知識的刪除)。也就是說,模型是基于一些不可取的內容進行訓練的,我們希望進行修正。這與模型編輯的文獻密切相關。最近提出了“修正性機器遺忘”的概念,其中遺忘用于糾正不良數據的影響,以捕捉這種動機。從這個角度來看,遺忘也可以被視為用于AI安全問題的訓練后風險緩解機制(在第4節中進一步討論)。
    與撤銷訪問權限不同,對模型進行修正時我們可以更加寬容,因為這種編輯更多是出于欲望,而不是法律所要求的必要性,就像圖像分類的模型準確性或生成文本的毒性一樣(當然,這些也可能造成真正的傷害)。在這種情況下,我們不一定需要正式的保證來使遺忘對實際有用;我們有很多例子,人們愿意部署被認為“足夠安全”的模型。最近的WMDP基準測試對危險知識對模型進行了提問,是評估遺忘效果的良好示例。

2. 遺忘的形式

如果我們只是重新訓練模型而不包含不需要的數據,那么遺忘就是微不足道的。然而,我們希望得到更好的結果,因為(1)重新訓練可能很昂貴,而且(2)要找出需要從訓練數據中刪除的內容可能需要大量工作——想象一下在萬億個標記中找到所有《哈利·波特》的引用。遺忘技術主要旨在減輕或避免這種重新訓練成本,同時產生相同或相似的結果。

遺忘的文獻主要可以分為以下幾種形式:

  • 精確遺忘
  • 通過差分隱私進行“遺忘”
  • 經驗遺忘,其中需要遺忘的數據已經明確知道(訓練示例)
  • 經驗遺忘,其中需要遺忘的數據未明確指定(考慮“知識”)
  • 只需要求遺忘?

第2至第4種形式有時被稱為“近似遺忘”,因為遺忘的模型近似于重新訓練模型的行為。第5種形式非常新穎且有趣,更具體適用于遵循指令的模型。

萬字長文解析:2024年的機器消除學習-AI.x社區

圖1. 近似遺忘的示意圖。來源:NeurIPS機器遺忘挑戰

2.1. 精確遺忘

精確遺忘大致要求未遺忘模型和重新訓練后的模型在分布上完全相同;也就是說,在固定的隨機性下,它們可以完全相同。

精確遺忘的技術特點可以追溯到Cao和Yang以及SISA的早期工作。在SISA中,采用了一種非常簡單的方案,將訓練集劃分為N個非重疊的子集,并為每個子集訓練一個單獨的模型。遺忘則涉及重新訓練對應的模型,并排除需要遺忘的數據點。這樣可以通過1/N的成本來減少與普通重新訓練相比的開銷(如果保留模型檢查點,則成本更低)。然后,推斷過程涉及模型集成1。

萬字長文解析:2024年的機器消除學習-AI.x社區

圖2. SISA的示意圖:只在數據分片上訓練模型

更一般地說,精確遺忘的本質是希望學習算法中的模塊化組件對應于不同(潛在不重疊)的訓練示例集。

精確遺忘有幾個優點:

  • 算法本身就是證據。如果我們實現了類似SISA的方法,我們可以從設計上知道遺忘的數據從未對其他組件產生過貢獻。事實證明,要正式證明模型已經遺忘了某些內容是相當具有挑戰性的,否則會變得非常混亂。
  • 這將遺忘問題轉化為準確性/效率問題。由于遺忘評估的混亂和缺乏基準的問題,精確遺忘更容易實現。
  • 設計上具有可解釋性。通過提供學習結構,我們對某些數據點如何對性能產生影響有更好的理解。

主要缺點似乎很明顯:大型模型的現代擴展定律反對像SISA中那樣過分進行數據和模型分片。或者并非如此嗎?在最近的模型合并文獻中提出了在大型模型背景下重新審視分片的可能性,這表明了在權重空間合并大型模型的可行性。正如我們將在接下來的章節中了解到的,近似遺忘及其在大型模型背景下的評估的混亂性使精確遺忘非常有吸引力。

2.2. 通過差分隱私進行“遺忘”

這個研究方向大致上是這樣說的:如果模型在有或沒有特定數據點的情況下表現幾乎相同,那么我們就沒有必要從該數據點進行遺忘。更廣義地說,我們要求未遺忘模型和重新訓練后的模型在分布上接近。

對于不熟悉差分隱私(DP)在機器學習中的讀者,DP定義了在不同單個訓練示例的數據集上訓練的兩個模型M、M'之間的可量化的不可區分性保證。經典的DP-SGD過程通過裁剪每個示例梯度的L2范數,并向梯度注入一些每個坐標的高斯噪聲來工作。其思想是噪聲可以掩蓋或模糊任何單個梯度(示例)的貢獻,使得最終的模型對任何示例都不敏感。通常用(ε,δ)-DP來表示;噪聲越強,標量(ε,δ)越小,保護性越強。

這樣做的直覺是,如果攻擊者無法(可靠地)區分這些模型,那么就好像這個數據點從未被學習過,因此就不需要進行遺忘。DP可以用來實現這種形式的遺忘,但由于遺忘是單向的(我們只關心數據的刪除,而不是添加),DP是一個嚴格更強的定義。這種遺忘的概念有時被稱為“(α,β)-遺忘”,其中(α,β)的作用類似于(ε,δ),用于衡量分布上的接近程度。

這個方向上的示例技術包括:(1)存儲(DP)凸模型的檢查點,遺忘是從這些檢查點重新訓練的;(2)在前一種技術的基礎上,使用SISA進行自適應的遺忘請求(即在觀察到發布的模型后提出的請求)。

基于差分隱私的遺忘方法的好處在于它提供了某種形式的統計保證。然而,有一些重要的考慮因素限制了它在大型模型中的適用性:

  • 許多這樣的遺忘結果僅適用于凸模型或損失函數。
  • 什么水平的遺忘((ε,δ)-DP或(α,β)-遺忘的值)是足夠的?由誰來決定?
  • 對于大型模型,當前的機器學習系統與類似DP的每個示例的工作負載不太匹配。內存開銷也會成為限制因素。
  • 此外,像DP一樣,隨著遺忘請求的增加,保證會迅速減弱(根據DP組合定理,最多以O(√k)的速度下降,其中k是遵循DP組合的請求次數)。
  • 類似DP的定義默認假設我們對所有數據點都一樣關心。然而,某些示例更有可能收到遺忘請求,而某些示例根本沒有對學習產生貢獻。
  • 類似DP的過程有時也可能會嚴重損害模型的準確性,有時會不公平地損害準確性。

特別是對于大型模型,值得區分取消預訓練數據和取消微調數據的情況。后者更容易處理;例如,我們確實可以對大型模型進行差分隱私微調,但對于預訓練來說可能不太容易實現。

2.2.1. 偽造及其對類似差分隱私取消的定義的影響

有時,取消學習過程可能需要外部審計,即我們希望證明取消學習程序確實已經發生。

“偽造”的主要思想是存在兩個不同的數據集,當對其進行訓練時,會產生相同的梯度(因此)相同的模型。這在直覺上是正確的:

  • 考慮一下對一條完美直線上的點進行線性回歸;刪除任何一個點都不會改變擬合的直線;
  • 考慮一下小批量梯度下降,用幾個“偽造”的梯度的總和替換一個示例梯度會給出相同的批量梯度。

偽造意味著基于差分隱私的近似取消學習可能無法進行審計,即取消學習服務提供者無法正式證明遺忘集確實被遺忘。實際上,即使僅看模型權重,精確取消學習也可能無法進行審計。

雖然人們可以將此結果視為理論結果,但這確實意味著決策者應該仔細考慮未來版本的“被遺忘權”(如果有的話)應該是什么樣子,以及類似的政策在法律和技術上是否可執行。

的確,什么樣的“審計”可以是定義和應用相關的。如果審計員只關心取消學習模型在指定輸入集(例如一組人臉圖像)上的性能表現不佳,那么即使是經驗性取消學習也是“可審計的”(見下一節)。

2.3. 已知示例空間的經驗取消學習(“示例取消學習”)

這一研究方向本質上是“訓練取消學習”或“通過微調進行取消學習”:只需采取更多啟發式選擇的梯度步驟,將原始模型的行為塑造成我們認為重新訓練的模型會做的樣子(同時還可以選擇重置模型中的某些參數)。它也可以被稱為“示例取消學習”,因為訓練、保留和遺忘集通常是明確定義的。

NeurIPS 2023機器取消學習挑戰在這個方向上收集了許多方法。挑戰大致如下進行:

  • 給定一個人臉圖像數據集,其中訓練集有指定的保留/遺忘示例拆分,一個在全部數據上訓練的目標模型,以及一個僅在保留集上訓練的秘密模型。
  • 要求設計一個取消學習算法,從目標模型中產生“匹配”秘密模型的取消學習模型。
  • “匹配”或評估指標使用512個種子的類似差分隱私輸出空間相似性:對于每個遺忘示例,基于對手(由組織者提供)的真/假陽性率,計算512個取消學習模型的“經驗ε”,并在示例間進行聚合。
  • 所有模型都是一個小型卷積神經網絡。

為了直觀地了解經驗取消學習的表現,而不完全解釋度量標準:基準(重新訓練的模型)約為0.19,獲勝的提交約為0.12,基線(遺忘集上的簡單梯度上升)約為0.06.2。

那么獲勝的思路是什么樣的?大致如下:

  • 在遺忘集上進行梯度上升;
  • 在保留集上進行梯度下降(希望災難性遺忘能夠處理取消學習);
  • 在遺忘集上進行梯度下降,但使用均勻隨機標簽(以“混淆”模型);
  • 在保留集上最小化取消學習模型和原始模型之間輸出的KL散度(以調整取消學習模型在不相關數據上的性能);
  • 重新初始化在保留集和遺忘集上具有相似梯度的權重,并在保留集上進行微調;
  • 通過L1范數剪枝99%的權重,并在保留集上進行微調;
  • 重置前/后k層,并在保留集上進行微調;和
  • 上述方法的啟發式/任意組合。

實際上,盡管這些方法是啟發式的,但這是當前大多數經驗取消學習算法(尤其是在大型(語言)模型上)所采用的方法。

人們探索經驗方法是因為理論工具通常不切實際;例如,強制差分隱私會對準確性和效率造成過大的損失,即使對于計算能力豐富的GPU也是如此。另一方面,經驗方法通常快速且易于實現,其效果通常在定性上可見。

經驗取消學習的另一個關鍵動機是反事實的不明確性,特別是在大型語言模型上。在深度學習中,我們通常不知道重新訓練的模型在未見數據上的行為會如何。如果不是政治家,LLM應該行為如何對待拜登?取消學習的圖像分類器應該對取消學習的圖像給出均勻隨機的預測嗎?它們是否具有泛化能力?還是它們自信地給出錯誤的預測?這些都是可能的,而且可以由從業者決定。這也意味著同樣合理的行為可能導致截然不同的度量(例如,取消學習模型和重新訓練模型之間輸出分布的KL散度),從而使理論保證變得復雜。

2.4. 未知示例空間的經驗取消學習(“概念/知識取消學習”)

如果訓練、保留或遺忘集未被明確定義或根本未被定義,會怎樣?在訓練于互聯網規模數據的基礎模型中,我們可能會收到取消學習一個“概念”、“事實”或一段“知識”的請求,而這些請求很難與一組示例相對應。術語“模型編輯”、“概念編輯”、“模型手術”和“知識取消學習”與這種取消學習的概念密切相關。

取消學習請求的不明確性意味著我們現在必須處理“取消學習范圍”(或“編輯范圍”)和“蘊含”的概念。也就是說,取消學習請求可能提供規范性示例來指示要取消學習的內容,但相同的信息可能以許多不同形式存在于(預)訓練集中,并具有許多不同的下游影響,因此僅僅在這些示例上實現取消學習,即使是完全實現,也是不夠的。

例如:

  • 關聯“拜登是美國總統”分散在各種形式的文本中,包括新聞文章、書籍、非正式的短信,或者甚至是博客文章。我們能取消學習所有的出現嗎?此外,取消學習喬·拜登是否意味著取消學習拜登貓的顏色?
  • 藝術家可能會要求通過提供藝術樣本來取消學習藝術風格,但他們無法收集到互聯網上的所有內容及其衍生作品。
  • 《紐約時報》可能會要求取消學習新聞文章,但他們無法列舉這些文章的引用和二次轉載。

這種模糊性還表明,從大型模型中取消學習預訓練數據可能是經驗性的必要條件:如果我們無法明確指定在數萬億個標記中取消學習什么(以及不取消學習什么),并在不同實體之間建立清晰的信息邊界,那么很難獲得形式上的保證。實現經驗性取消學習的一個有趣含義是取消學習本身可以被取消學習。

那么,對于取消學習請求不明確的情況,現有的工作是如何處理的呢?大多數技術與之前或多或少相同,只是現在我們還需要找到用于微調的示例。例如,嘗試取消學習《哈利·波特》系列就涉及要求GPT-4提供合理的替代文本完成(例如,波特先生學習烘焙而不是魔法);而嘗試取消學習有害行為則涉及收集仇恨言論的示例。

另一組技術涉及將所需行為(或其相反)訓練到任務/控制向量中,并利用大型模型進行權重空間合并或激活調整的能力。上述方法的基本思路或多或少相同,然而,獲取這些編輯向量涉及(啟發式地)設計梯度的選擇以及在哪些數據上應用它們。也可以將取消學習問題框架化為一個對齊問題,并使用類似DPO的目標應用于遺忘示例。

2.5. 只是請求取消學習嗎?

事實證明,像GPT-4這樣的強大、遵循指令的語言模型是足夠聰明的,可以假裝取消學習。這意味著通過構建提示來誘導(足夠)安全的行為,以實現目標的取消學習應用。

這是一種有趣的方法,因為沒有涉及任何梯度(從系統的角度來看,這是一個巨大的優勢),直觀上最終的結果可能與現有的經驗性取消學習技術一樣好。在不同的提示方式中,過去的研究探索了以下兩個方向。

直接請求假裝取消學習。我們可以在系統提示中要求,比如,假裝不知道哈利·波特是誰。從設計上來說,這對于常見的實體、事實、知識或行為(例如像特朗普那樣說話的能力)效果最好,因為LLM需要充分了解它才能假裝不了解。另一方面,現在假設我們想要取消學習一個不知名人物的地址;預訓練集非常龐大,我們懷疑它是訓練數據的一部分。我們現在面臨的是一種斯特萊桑效應的變體:是否值得要求模型通過準確描述上下文來假裝取消學習,并隨后冒險在后續的模型回復中泄露它?

少樣本提示或“上下文取消學習”。假設我們現在有一組明確定義的遺忘示例及其相應的標簽。我們可以翻轉它們的標簽并將它們放入提示中,連同更多具有正確標簽的保留示例,直覺上模型會將這些錯誤標記的遺忘示例視為真實并相應地行動,就像可以通過這種方式對模型進行越獄一樣。的確,當遺忘示例和對應的反事實標簽明確定義且(在某種程度上)有限時,這種方法效果最好。通過列舉很多示例,它可能適用于事實關聯(例如,巴黎是法國的首都),但不太可能適用于取消學習有害行為(其中可能的輸出空間更大)。

從某種意義上說,這些方法是互補的,因為它們適用于不同類型的取消學習請求。

更廣泛地說,我們可以想象一個通過提示進行取消學習的封裝式LLM系統,其中:

  • 只公開輸入和輸出接口(例如ChatGPT);
  • 不同的強大LLM實例負責準確模仿所需取消學習行為的不同部分(例如,一個LLM實例專門處理通用的問答形式,而另一個處理序列完成);
  • 一個編排器/路由器LLM根據輸入決定調用哪個取消學習工作實例;和
  • 一個作曲家/總結器LLM起草符合所需取消學習行為的最終輸出;它還可以應用一些輸出過濾。

一些讀者可能會對基于提示的這種技術的啟發性質表示不滿,認為沒有證據證明取消學習。我們應該記住,基于微調的經驗性取消學習,正如最近的方法所做的那樣,也許并沒有根本區別。最終歸結為以下幾個問題:

  • 微調或提示哪個可以更好地引導模型行為?
  • 它們中哪個更不容受攻擊(暴露的面更少和/或對于對手來說需要更多的努力來恢復取消學習)?

這兩個問題都指向基于微調的取消學習,但這在很大程度上還有待討論,并且隨著我們獲得更強大的模型和更好的防御機制,這種情況可能會發生變化。例如,最近提出的指令層次結構的概念可能有助于使這樣的LLM系統對惡意提示更不容易受到攻擊。

值得注意的是,人類實際上也不真正“取消學習”某個知識。事實上,通過聲稱已經取消學習某件事,我們通常已經:(1)充分學習它,以能夠宣稱我們已經取消學習它,并且(2)有意決定不再將這個知識應用于我們當前的世界狀態,因為認為它不再有用/有益。有誰能說取消學習對于LLM來說應該有任何不同呢?

3. 評估取消學習

取消學習由于許多原因而變得混亂。但關于取消學習的最大問題之一就是評估。總體而言,我們關心以下三個方面:

  • 效率:與重新訓練相比,算法有多快?
  • 模型效用:是否損害了對保留數據或正交任務的性能?
  • 遺忘質量:實際上有多少“遺忘數據”被取消學習了?我們能多快地恢復(重新學習)它們?

評估效率和模型效用相對較容易;我們在訓練過程中已經對它們進行了衡量。關鍵挑戰在于理解遺忘質量。

如果遺忘示例是指定的,這也感覺很容易。例如,直觀地說,取消學習特定的圖像類別意味著在該類別的圖像上達到接近機會準確率。評估協議可以測量準確性(在保留集和測試集上高,在遺忘集上低)或遺忘文本序列的可能性(越低越好)。

然而,這些直觀的指標選擇未必是基于原則的或適用于LLM中的知識取消學習等設置。期望模型在未學習的圖像上表現不佳忽略了泛化能力,因為遺忘示例很可能是某些保留示例的插值/重復。而且我們并不總是擁有從未見過遺忘示例的神諭模型;例如,我們是否有從未閱讀過《紐約時報》文章的LLM?

對LLM上取消學習的評估更多是一門藝術而非科學。例如,為了取消學習“哈利·波特”作為一個實體,人們會可視化標記概率如何衰減與哈利·波特相關的文本,然后其他人會展示模型仍然能夠回答哈利·波特的問答題。關鍵問題在于缺乏數據集和用于取消學習評估的基準測試的嚴重不足。

然而自2024年以來,基準測試的危機有所改善。有兩個值得關注的最近項目:

  • TOFU:一個專注于取消學習個體(特別是書籍作者)的基準測試。它涉及要求GPT-4創建虛假的作者簡介,對它們進行微調,并使用微調后的模型作為取消學習目標模型,將原始LLM作為神諭的“重新訓練”模型。它提供了關于生成的虛假作者的問答對,以評估模型在應用取消學習之前/之后對這些作者的了解。
  • WMDP:一個專注于取消學習危險知識的基準測試,特別是生物安全、網絡安全和化學安全。它提供了4000多個多項選擇問題,以測試模型在應用取消學習之前/之后對危險知識的了解。作為報告的一部分,作者還提出了基于激活指導的經驗性取消學習方法。

TOFU和WMDP不同于先前的取消學習評估,它們都是“高級”評估,關注模型的知識保留和理解,而不是像遺忘序列困惑度這樣的示例級指標。對于LLM來說,這一點尤為重要,因為它們通常能夠以許多不同的方式給出相同的答案,而示例級指標無法捕捉到這一點。

展望未來,像TOFU和WMDP這樣的面向應用的取消學習基準測試,相對于類似NeurIPS取消學習挑戰的基于實例的評估,對于評估基礎模型更有用,這是由于這些模型的多任務性質和每個任務的“取消學習成功”的不同定義。確實,可以想象針對取消學習個人識別信息(PII)、受版權保護的內容、語音毒性甚至模型后門等的單獨基準測試。例如,對于取消學習PII,我們可能關心準確記憶的標記,而對于毒性,取消學習指標將是由ToxiGen分類器報告的分數。

4. 取消學習的實踐、陷阱和前景

取消學習是一個棘手的問題,尤其是在基礎模型的背景下。在我們積極研究如何使取消學習在實踐中起作用的同時,對取消學習的真正含義以及它是否是我們當前問題的正確解決方案進行一些思考是有幫助的。

4.1. 取消學習難度的譜系

直觀地說,取消學習LLM中罕見的文本出現,比如Palo Alto的車禍,應該比取消學習頻繁出現的情況,比如“拜登是美國總統”容易,而后者又比取消學習“太陽每天升起”這樣的基本事實更容易。

取消學習難度的譜系出現是因為隨著一個知識變得更基礎,它與其他知識的關聯會更多(例如作為前提或推論),取消學習的范圍也會呈指數級增長。事實上,一個知識可以在模型的隱式知識圖中嵌入得如此之深,以至于不可能取消學習它而不引入矛盾并損害模型的效用。

這種直覺意味著某些取消學習請求要么更難,要么根本無法滿足(任何嘗試都注定有缺陷)。確實,人類的經驗形成了他們后續行動和世界模型的基礎;對于人類能以何種能力取消學習他們形成的過去記憶,這是主觀、模糊和哲學性的。

更廣泛地說,取消學習難度的問題適用于所有類型的模型,且原因不限于嵌入于知識/蘊涵圖中。讓我們考慮取消學習難度的另外兩個看似矛盾的直覺:

  • 后期訓練中出現的示例應該容易取消學習,因為模型在權重空間中只會略微移動(例如由于衰減的學習率),可以簡單地恢復梯度或返回到先前的檢查點(如果有存儲)。相比之下,早期出現的示例會被后來的示例“建立”(以課程學習的意義),使它們更難取消學習。
  • 后期出現的示例應該更難取消學習,因為早期出現的示例會在訓練過程中逐漸(或災難性地)被遺忘;對于LLM而言,這可能特別真實。

無法解決這些直覺之間的矛盾將表明在記憶/遺忘、示例重要性(在數據選擇和核心集方面的意義)、學習難度(在預測翻轉的意義上)和取消學習難度之間的相互作用仍不清楚。

以下是一些有趣的研究問題:

  • 取消學習“易”數據(例如地方新聞事件)和“難”數據(例如貓有四條腿)之間是否存在定性/基本的差異?
  • 如果存在取消學習難度的譜系,是否存在一個閾值來區分什么是“容易”和“困難”,從而確定哪些是不可取消學習的或不應取消學習的?是否存在或可以訓練這樣一個神諭分類器?人類能否判斷?
  • 這與影響函數和數據歸因有何關系?如果某個特定知識(如其在模型輸出中的體現)可以歸因于訓練數據的較大部分,那么是否會使取消學習變得更難?
  • 我們能夠評估取消學習某個內容的難度有多大嗎?

4.2. 版權保護

表面上看,取消學習似乎是解決版權保護的一個有前途的解決方案:如果模型侵犯了某些內容的版權,我們可以嘗試取消學習這些內容。可以想象,要通過取消學習來解決版權侵權問題,可能需要可證明和準確的取消學習(可能是足夠的);另一方面,近似取消學習,沒有保證且可能被攻擊,顯然是不夠的,也可能是不必要的。

然而,在實踐中,由于當前取消學習方法的可行性受到質疑以及AI與版權交叉領域的法律環境不明確,存在著更多的細微之處。由于我不是法律專家(顯然,本節的內容不構成法律建議),我們將主要關注提出問題。核心問題似乎是:取消學習是否是版權保護的正確解決方案?

回想一下,公平使用原則允許有限地使用受版權保護的材料,前提是滿足四個因素:(1)使用的目的和性質("創造性"),(2)受版權保護作品的性質,(3)使用的數量和重要性,以及(4)對作品價值的影響。如果模型中使用的受版權保護內容符合公平使用原則,那么從模型中取消學習這些內容是不必要的。

假設模型是在某些受版權保護的內容上進行訓練的,并且存在侵犯版權的風險,就像New York Times v. OpenAI案件中的情況一樣。OpenAI是否應該在ChatGPT上投入(經驗性的)取消學習算法?還是應該專注于公平使用原則的"創造性"軸,并投入部署經驗性的約束措施,如提示、內容管理和定制對齊,以防止模型重復訓練數據?實踐中似乎更多是采用后者。

更廣泛地說,還可能存在經濟解決版權侵權問題的替代方案。例如,模型所有者可以提供準確的取消學習服務(例如定期重新訓練),同時提供對版權侵權進行賠償的保障,就像OpenAI的"版權保護"一樣。人們還開始探索如何使用Shapley值為受版權保護的數據定價。總的來說,目前還不清楚取消學習在解決與版權相關的問題中將發揮多大的作用(如果有)。準確的取消學習(擴展到基于檢索的系統,見下一節)確實有潛力,因為刪除是干凈且可證明的,但似乎首先需要建立具有法律約束力的審計程序/機制。

4.3. 基于檢索的AI系統

一個明顯的取消學習替代方案是根本不進行學習。對于LLM來說,這種方式可能是將可能收到取消學習請求的所有預訓練集內容(例如,紐約時報的文章)放入外部數據/向量存儲。在推理過程中,所有與這些內容相關的問題將通過RAG(Retrieval-Augmented Generation)進行回答,任何取消學習請求都可以通過從數據庫中刪除數據來輕松滿足。Min等人證明了這種方法在最終困惑度方面可以與(但不完全匹配)訓練基線相競爭。

基于檢索的解決方案很有前途,因為基礎模型在推理上的能力越來越強。然而,在將檢索系統作為取消學習的不加思考的解決方案之前,需要考慮以下幾點:

  • 從預訓練語料庫中刪除受保護內容可能是一個難以解決的去重問題。與去除數據污染一樣,我們如何確保受保護內容的改寫、引用/引證或其他改編被刪除?
  • 如果要取消學習的數據無法檢索怎么辦?今天,我們對模型進行了許多非文檔或知識項的微調;例如,尚不清楚人類偏好和期望行為(例如,寫作簡潔性)是否可以從數據庫中"檢索"出來。
  • 將內容放入上下文中可能會開放新的攻擊面。許多基于RAG的LLM方法通過將相關內容放入上下文中,并要求模型對其進行推理。將受保護數據放入上下文意味著它們現在更容易受到數據提取的影響(簡單的提示攻擊可能仍然有效)。
  • 檢索和訓練之間的效用差距。雖然有證據表明基于檢索的解決方案可以與競爭的訓練解決方案相媲美,但并沒有普遍共識認為僅依靠檢索就可以取代微調工作負載;事實上,它們可以是互補的。更廣泛地說,如果不可取消學習的數據空間太大,以至于如果所有數據都存儲在外部存儲中,基礎模型將不再那么有用,那該怎么辦?

4.4. AI安全性

隨著模型變得更加強大并被賦予代理能力,取消學習在AI安全性方面成為一個具體的應用領域,正在引起人們的關注。

粗略地說,安全性問題源于模型的知識(例如,制作凝固汽油的配方)、行為(例如,展示偏見)和能力(例如,黑客攻擊網站)。通過檢查當前的AI系統并推演未來,我們可以想象以下例子來應用取消學習并提高AI安全性:

  • 刪除危險知識,例如WMDP基準測試中的情況;
  • 刪除模型中的污染和后門,其中模型對對手植入的輸入觸發器做出反應;
  • 刪除操縱行為,例如進行不道德的說服或欺騙的能力;
  • 消除偏見和有害性;甚至消除追求權力的傾向。

對于以安全為導向的應用,值得注意的是,取消學習應被視為訓練后的風險緩解和防御機制,與現有的工具(如對齊微調和內容過濾器)一起使用。與其他工具相比,我們應該通過與工具箱中其他工具(例如,取消學習比內容過濾器更具適應性但更昂貴)的權衡來看待取消學習,而不是因為可能缺乏保證和效果而將其拋在一邊。

譯自(有刪改):https://ai.stanford.edu/~kzliu/blog/unlearning


本文轉載自公眾號AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/ladSpf8K_RoKKw5_iPF97w??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 99久久久久| 中文字幕在线观看一区二区 | 激情五月婷婷 | 国产色婷婷 | 亚洲第一av | 最新中文字幕 | 日韩国产高清在线观看 | 久久成人一区 | 久久一热 | 国产黄色大片在线观看 | 久久久精品高清 | 免费黄色的网站 | 亚洲精品免费视频 | 中文字幕在线第二页 | 日日干日日色 | 亚洲毛片网站 | 亚洲综合视频 | 一区二区三区精品视频 | 国产欧美一区二区三区国产幕精品 | 色男人的天堂 | 紧缚调教一区二区三区视频 | 精品一区二区三区在线观看国产 | 最新中文字幕在线 | 国产99视频精品免费播放照片 | 欧美成年人网站 | 成人免费视频7777777 | 国产一区不卡 | 日韩免费视频 | 国产成人一区二 | 国产一区二区不卡 | 亚洲三级av| 成人免费观看视频 | 福利色导航 | 91.com在线观看 | 欧美日韩在线免费 | 免费精品视频在线观看 | 天天久久| 一区二区视频在线 | 成人福利电影 | 亚洲一区中文字幕 | 亚洲精品中文字幕在线观看 |