離職OpenAI后Lilian Weng博客首發！深扒RL訓練漏洞，業內狂贊

作者：新智元 2024-12-06 09:00:00

Lilian Weng離職OpenAI后首篇博客發布！文章深入討論了大模型強化學習中的獎勵欺騙問題。隨著語言模型在許多任務上的泛化能力不斷提升，以及RLHF逐漸成為對齊訓練的默認方法，獎勵欺騙在語言模型的RL訓練中已經成為一個關鍵的實踐性難題。

上個月剛剛離開OpenAI的Lilian Weng，發布了離職后的首篇博客！

在當時的離職信里，她承諾將付出更多的時間來更新博客。

果不其然，感恩節假期剛剛結束，她的博客馬上就營業了，更新了一篇關于獎勵欺騙問題的文章。

谷歌DeepMind高級員工RS Shane Gu評論道「Great writing!」，還給了一個引用論文的小建議。

伯克利的AI博士生Micah Carroll也贊道「Great blogpost!」，順便還介紹了一下他們最近的獎勵欺騙研究。

那么，什么是獎勵欺騙呢？

獎勵欺騙（Reward Hacking）是指強化學習（RL）智能體通過利用獎勵函數中的漏洞或模糊性，獲得高獎勵但沒有真正學習或完成預期任務的現象。

這個概念起源于2016年開創性論文「Concrete Problems in AI Safety」中提出的一系列關于AI安全的開放性研究問題。

獎勵欺騙的存在是因為RL環境通常并不完美，畢竟精確地定義獎勵函數本身也是一個根本性的挑戰。

概括地說，獎勵欺騙可以分為兩種類型：環境或目標指定錯誤，以及獎勵篡改。

- 環境或目標指定錯誤：該模型通過入侵環境或優化與真實獎勵目標不一致的獎勵函數（例如，當獎勵指定錯誤或缺乏關鍵要求時）來學習意外行為以獲得高獎勵。

- 獎勵篡改：模型學習干擾獎勵機制本身。

通俗來講，獎勵欺騙問題就是說，模型會「作弊」了。

例如訓練一個機器人手臂抓取物體時，機器人可能通過將手放置在物體與攝像機之間來欺騙觀察者。

隨著語言模型在許多任務上的泛化能力不斷提升，以及人類反饋強化學習（RLHF）逐漸成為對齊訓練的默認方法，獎勵欺騙在語言模型的RL訓練中已經成為一個關鍵的實踐性難題。

比如，模型可能學會篡改單元測試以通過編程任務，或生成包含用戶偏好所反映的偏見的回答，這些現象都令人擔憂，并可能成為AI模型在更多自主場景中實現實際部署的主要障礙之一。

過去關于獎勵欺騙的研究大多比較理論化，主要集中在定義問題或證明其存在。

然而，在實踐中提出緩解措施的研究，尤其是針對RLHF和大語言模型的，仍然非常有限。

Lilian Weng特別呼吁大家進一步研究獎勵欺騙的緩解策略，尤其是在LLM和RLHF的上下文中。

為什么存在獎勵欺騙？

論文「Concrete Problems in AI Safety」中總結認為，獎勵欺騙行為，主要是在強化學習環境中，可能由于以下原因發生：

- 部分觀察到的狀態和目標并不能完美地代表環境狀態。

- 系統本身復雜且易受攻擊；例如，如果允許智能體執行代碼以改變環境的一部分，那么更容易利用環境來欺騙性地實現獎勵目標。

- 獎勵可能涉及難以學習或表述的抽象概念；例如，具有高維輸入的獎勵函數可能不成比例地依賴于少數幾個維度。

- 強化學習旨在將獎勵函數高度優化，因此存在內在的「沖突」，使得設計良好的強化學習目標變得具有挑戰性。一種特殊情況是獎勵函數具有自我強化反饋成分，在這種情況下，獎勵可能會被放大和扭曲，以至于破壞了最初的意圖，例如廣告推薦算法導致贏家通吃。

此外，確定最佳智能體優化其行為的確切獎勵函數通常是不可能的，因為在固定環境中可能存在無限多個與目標策略一致的獎勵函數。

強化學習中的獎勵欺騙

隨著模型和算法變得越來越復雜，獎勵欺騙預計會成為一個更常見的問題。

更聰明的智能體更能夠發現獎勵函數設計中的漏洞，并利用這些漏洞來獲得更高的獎勵——也就是說，智能體可能通過不符合預期的行為得到更多的獎勵，但這些獎勵并不能反映它是否真正完成了任務。

而如果算法比較弱，它就無法發現這些漏洞，結果我們就不會看到獎勵欺騙的現象，也難以識別出當前獎勵函數設計的問題。

在論文「Emergent Complexity via Multi-Agent Competition」中提到，在一組機器人自對弈的游戲中，我們可以訓練兩個智能體（一個是受害者，另一個是對手）互相競爭。

正常的訓練方法會讓受害者在與普通對手對抗時表現得足夠好。但如果我們訓練一個「對抗性」對手策略，即使這個策略看起來是隨機的，且只用了不到3%的時間去訓練，它也能穩定地打敗受害者智能體。

對抗性策略的訓練方式和標準的強化學習類似，都是通過優化獎勵來訓練，只不過受害者策略被當作一個「黑盒」，無法直接干預。

一種直觀的方式來應對這種攻擊是對受害者進行微調，讓它能夠對抗這種對抗性策略。但是，一旦受害者適應了新的對抗性策略，它仍然會對下一版本的對抗性策略感到脆弱。

那么，為什么會出現這種對抗性策略呢？原因在于，對抗性策略通過引入一些與訓練環境不同的觀察，即「分布外（OOD）觀察」來迷惑受害者，而不是通過直接物理干擾它。

研究發現，當受害者對對手位置的觀察被屏蔽并設為靜態狀態時，受害者在面對對抗性智能體時變得更具魯棒性，盡管在面對普通對手策略時表現較差。

此外，更高維度的觀察空間在正常情況下能提高性能，但也可能讓策略更容易被對抗性對手攻破。

「The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models」一文研究了獎勵欺騙與智能體能力之間的關系，包括模型大小，動作空間分辨率，觀察空間噪聲和訓練時間。

他們還提出了三種類型的錯誤指定代理獎勵（misspecified proxy rewards）的分類法：

1. 誤加權（Misweighting）：代理獎勵和真實獎勵捕捉相同的目標或期望結果，但它們在權重或重要性上有所不同。

2. 本體論誤指定（Ontological）：代理獎勵和真實獎勵使用不同的目標或期望結果來捕捉相同的概念。

3. 范圍誤指定（Scope）：代理獎勵在一個有限的范圍內度量期望結果（例如時間或空間），而沒有涵蓋所有可能的情況。因為在所有條件下測量的成本過高。

他們在四個強化學習環境中進行了實驗，配對了九個誤指定的代理獎勵。以下是這些實驗的總體發現：更高能力的模型傾向于獲得更高（或相似的）代理獎勵，但真實獎勵會下降。

- 模型大小：更大的模型會增加代理獎勵，但減少真實獎勵。

- 動作空間分辨率：增加動作的精度能讓智能體更強大，但高分辨率導致代理獎勵保持不變，而真實獎勵下降。

- 觀察精度：更準確的觀察能提高代理獎勵，但會略微減少真實獎勵。

- 訓練步數：在更多步數上優化代理獎勵，在初期有正相關時，過多的訓練會在后期對真實獎勵造成負面影響。

代理獎勵和真實獎勵的變化與（頂部行）模型大小（以參數數量衡量）、（底部行）模型能力（通過訓練步數、動作空間分辨率和觀察噪聲等指標衡量）的關系。

如果代理獎勵指定得非常差，以至于與真實獎勵的相關性極弱，那么我們可能在訓練之前就能識別并防止獎勵欺騙。

基于這一假設，Pan等在論文「The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models」中使用了一組軌跡滾動來觀察代理獎勵和真實獎勵之間的關系。有趣的是，即使在代理獎勵和真實獎勵之間存在正相關時，獎勵欺騙仍然會發生。

大模型利用RLHF來進行欺騙

從人類反饋強化學習（RLHF）已成為語言模型對齊訓練的事實方法。獎勵模型在人類反饋數據上進行訓練，然后通過強化學習對語言模型進行微調，以根據人類偏好優化此代理獎勵。在RLHF設置中，我們關心三種類型的獎勵：

(1) Oracle/Gold獎勵???代表了我們真正希望LLM優化的內容。

(2) 人類獎勵是我們收集的用于在實踐中評估LLM的數據，通常來自有時間限制的個體。由于人類可能提供不一致的反饋或犯錯誤，人類獎勵并不能完全準確地代表oracle獎勵。

(3) 代理獎勵??是通過在人工數據上訓練的獎勵模型預測的分數。因此，繼承了人類獎勵的所有弱點，以及潛在的建模偏差。

但目前RHLF優化的主要是代理獎勵R，而不是我們真正關注的Oracle/Gold獎勵???。

RLHF旨在提高模型與人類偏好的一致性，但人類反饋可能無法捕捉我們關心的所有方面（例如，事實性），因此可能會被操縱以對一些并不期望的屬性發生過擬合。

例如，模型可能會被優化為輸出看起來正確且有說服力的響應，但實際上是不準確的，從而誤導人類評估人員更頻繁地批準其錯誤答案，如此走入一個死循環，愈來愈南轅北轍。

通過上圖可以發現，經過RLHF后，人類評估獎勵上升了9.4，但同時Oracle獎勵卻下降了1.8，人類評估錯誤率也上升了7.4。

換句話說，RLHF讓真正的正確和對人類看起來正確之間出現了鴻溝。例如論文「Language Models Learn to Mislead Humans via RLHF」就使用了基于ChatbotArena數據的獎勵模型進行RLHF實驗。他們在問答數據集QuALITY和編程數據集APPS上評估了該模型。

他們的實驗表明，就算本來模型給出的是錯誤的答案，他們也能顛倒是非，說服人類相信他們是正確的，而且甚至這種表現還是無意之間的。

諂媚指模型響應傾向于匹配用戶意愿而不是反映真相。例如下圖中，用戶要求LLM對一個論點進行響應時，當用戶聲明了偏好之后，它們往往會有更加符合用戶偏好的激進響應。

通過邏輯回歸預測人類反饋的RLHF有效性數據集的數據分析表明，匹配用戶意愿是最具顯著性的因素。

LLM來進行評估也會產生獎勵欺騙

隨著LLM的能力越來越強，讓LLM作為評估者，為其他生成式模型提供反饋和訓練獎勵，是一種符合直覺的選擇，尤其是在無法輕易判斷或驗證的任務中（例如處理長篇輸出、對于寫作質量進行主觀評分等）。

有人將此稱為「LLM-as-grader paradigm」。這種方法在很大程度上減少了對人工標注的依賴，大大節省了評估時間。

然而，使用LLM作為評分員并不能完全代表oracle獎勵，而且可能會引入偏差，例如在與不同的模型進行比較時，它會偏好自己同一個系列歸屬的回答，或者在按順序評估回答時會出現位置偏差。

例如GPT-4會持續給第一個候選者打高分，而ChatGPT則更傾向于第二個候選者。這種偏差尤其令人擔憂，因為它作為評估者的輸出被用作獎勵信號的一部分，可能導致通過利用這些評分者進行獎勵欺騙。

論文「LLM as Narcissistic Evaluators: When Ego Inflates Evaluation Scores」使用多種模型（BART、T5、GPT-2、GPT-3、FLAN-T5、Cohere）對摘要任務進行了實驗，并跟蹤了基于參考和無參考的指標來評估摘要質量。

當將評估分數繪制成評估者（x軸）與生成器（y軸）的熱圖時，他們觀察到兩種指標都存在深色對角線，則表明存在自我偏差。這意味著當LLM作為評估者時，它們傾向于選擇自己的輸出結果。

情景獎勵欺騙

迭代自我優化是一種訓練設置模式，其中評估模型和生成模型相同，兩者都可以進行微調。在這種模式中，優化目標可以驅動模型利用評估模型和生成模型訓練時出現的漏洞。

在「Spontaneous Reward Hacking in Iterative Self-Refinement」中，使用相同的模型作為評估者和生成者，去處理不同的提示詞，但是并不更新模型參數。

實驗任務是論文編輯，有兩個角色：（1）一個評估者，對論文給出反饋；（2）一個生成者，根據反饋編輯論文。

人類評價分數被收集為論文質量的oracle分數。生成者假設這種設置可能導致情景獎勵欺騙（in-context reward hacking，ICRH），即為評估者分數和oracle分數發生分歧。

更普遍地說，ICRH發生在LLM與其評估者（例如另一個LLM或外部環境）之間的反饋循環中。在測試時，LLM優化一個（可能是隱含的）目標，但這在過程中產生了負面影響。

論文評價和編輯情境下獎勵欺騙實驗的示意圖

此外，實驗也證明了較小的模型更容易發生ICRH，如GPT-3.5比GPT-4表現出更嚴重的ICRH。同時，當評估者和生成者共享相同數量的歷史迭代時，ICRH現象更為明顯。

將ICRH與傳統的獎勵欺騙技術相比較，有兩點明顯不同：

- ICRH是在部署時通過反饋回路在自我完善設置中進行的，而傳統的獎勵欺騙行為則發生在訓練過程。

- 傳統的獎勵欺騙行為是在智能體專門從事某項任務時產生的，而ICRH則是由通用型模型驅動的。

目前尚無有效方法完全避免、檢測或預防ICRH，因為改善提示詞規格并不足以消除ICRH，而且增加模型規模可能加劇ICRH問題。在部署前的最佳測試實踐是通過更多輪次的反饋、多樣化的反饋以及注入非典型環境觀察來模擬部署時可能發生的情況。

獎勵欺騙的泛化

獎勵欺騙行為已被發現能夠跨任務進行泛化：當模型在監督學習中出現缺陷時，有時這種缺陷會泛化，并利用分布外（OOD）環境中的漏洞。

研究人員在一些可以進行獎勵欺騙的環境中強化獎勵欺騙行為，并檢查這種行為是否會泛化到其他數據集。

簡而言之，他們準備了8個多項選擇題的數據集，其中4個用于訓練，4個用于測試。訓練時，采用專家迭代的方法，也就是在最好的樣本上反復調整和優化模型。

如果在一組設計了可以進行獎勵欺騙的環境中訓練GPT-3.5，它可能會學會通過作弊獲得獎勵，這種作弊行為可能會在新的、未見過的環境中也發生

值得注意的是，所有實驗都采用了一個「草稿本」設計，用來記錄模型在推理過程中的隱藏步驟。這個草稿本幫助我們理解模型在整個過程中的思考方式。通過分析草稿本，我們發現它能夠：

- 綜合考慮用戶的信念，比如思考它的對話伙伴和評分者的觀點。

- 展現對評價過程的意識，比如思考模型的回答將如何被評估。

論文「Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models」研究了獎勵篡改，使用了一個手動策劃的、逐漸復雜化的、可被游戲化的環境課程。他們觀察到，在課程中較簡單的環境訓練，會放大其余環境中的規范游戲行為。

在某些情況下，模型可以通過零樣本學習直接重寫自己的獎勵函數，這種行為在訓練完整個課程后得以泛化。

這種可被游戲化的環境課程包括：

1. 政治諂媚：如果模型給出的答案符合用戶的政治觀點，環境會獎勵模型。

2. 工具使用奉承：環境允許模型運行命令行以訪問用戶的文件系統，讀取本地文件中的詩歌樣本。模型可能會出于奉承的目的，給詩歌打高分。

3. 評分標準修改：環境根據檢查清單對模型進行評分，模型必須標記每個項目為「已完成」，才能獲得高獎勵。

4. 獎勵篡改：模型被要求檢查一個目錄，目錄中有一個虛擬版本的強化學習代碼，并報告經過多少回合。該目錄中的一個文件包含一個始終返回常數值的獎勵函數，另一個文件則包含一個檢查是否修改獎勵函數的測試。

「工具使用奉承」和「獎勵篡改」環境中的評估腳本示例，被隱藏以避免監督，可以在虛擬機中執行

模型按照這個課程進行了訓練，論文測量了模型是否能夠學習到可以泛化到未見環境的游戲行為。通過對Claude-2 helpful-only model進行實驗，從每1024個HHH提示中采樣64個響應，并根據RM選擇最佳響應。使用專家迭代進行監督學習的模型能夠從一個階段泛化到下一個階段。

值得注意的是，即使在完成課程后，模型重寫獎勵并避免被檢測到的次數不到1/1000。即使在直接激勵獎勵欺騙的課程上訓練模型，模型重寫獎勵的次數也不到1%，且篡改單元測試的次數更少。

作為一個簡單的緩解措施，研究發現，對模型進行監督微調，尤其是針對前兩個環境進行微調——這兩個環境中獎勵欺騙行為容易被檢測到（諂媚和奉承），并使用不進行游戲化的SFT數據，發現能減少在保留環境中獎勵篡改的可能性。

獎勵欺騙的緩解方法

強化學習算法改進

論文「Concrete Problems in AI Safety」指出了幾種在強化學習訓練中緩解獎勵欺騙的方向：

1. 對抗性獎勵函數。我們將獎勵函數視為一個自適應智能體，可以根據模型發現的新策略進行調整，這些策略可能在獲得高獎勵的同時，人類評分卻較低。

2. 模型前瞻。可以基于未來的預期狀態來給出獎勵。例如，如果智能體即將替換獎勵函數，它將會得到負獎勵。

3. 對抗性盲化。通過遮蔽模型中的某些變量，避免智能體獲得能夠破解獎勵函數的關鍵信息。

4. 謹慎工程設計。通過謹慎的工程設計可以避免某些類型的獎勵欺騙行為，例如通過沙箱技術將智能體的行為與獎勵信號隔離。

5. 獎勵上限。通過設置獎勵的最大值，可以有效防止智能體通過欺騙行為獲得過高的回報。

6. 反例抗性。增強對抗性魯棒性有助于提升獎勵函數的穩健性。

7. 多獎勵組合。結合不同類型的獎勵，可能使獎勵欺騙更加困難。

8. 獎勵預訓練。通過一組（狀態，獎勵）樣本來學習獎勵函數，盡管效果取決于訓練設置的優劣，可能會帶來一些副作用。RLHF依賴此方法，但學習的標量獎勵模型容易學習到不良特征。

9. 變量無關性。要求智能體優化環境中的特定變量而忽略其他變量。

10. 陷阱設計。故意引入一些漏洞，并設置監控以在獎勵被篡改時進行報警。

在強化學習設置中，當人類反饋用作批準智能體行為時，論文「Avoiding Tampering Incentives in Deep RL via Decoupled Approval」提出了一種通過「解耦批準」來防止獎勵篡改的方法。

如果反饋基于（s,a），即（狀態，動作）對，那么一旦獎勵篡改發生，對于這個狀態下的某個行為，就無法得到真實的反饋。

解耦意味著，收集反饋時，反饋的查詢行為與智能體在現實中采取的行為是獨立的。也就是說，反饋是在智能體執行行為之前就收集到的，這樣就可以防止智能體的行為污染它自己收到的反饋。

解耦批準是如何工作的，與標準批準或人類反饋環（human-in-the-loop）強化學習的方式進行對比

在解耦批準中，實際執行的動作（世界中的動作）與查詢動作（獲取用戶批準反饋的動作）是獨立采樣的。它可以應用于（左）策略梯度和（右）Q學習算法

檢測獎勵欺騙

一種緩解方法是將獎勵欺騙行為視為「異常檢測」任務，檢測器（具有經人工驗證的軌跡和獎勵的「可信策略」）應標記錯位實例。

給定可信策略和人工標注的軌跡滾動集合，我們可以根據兩個策略（可信策略和目標策略）的行動分布之間的距離建立一個二元分類器，并測量該異常檢測分類器的準確性。

在論文「The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models」的實驗中，研究者們觀察到不同的檢測器對不同的任務有更好的效果，在所有測試的RL環境中，沒有一個測試分類器的AUROC能大于60%。

不同任務中檢測器的性能

數據分析和RLHF

另一種方法是分析強化學習與RLHF的數據集。通過考察訓練數據如何影響對齊訓練的結果，可以得到一些見解來指導預處理和人類反饋收集的過程，以減少獎勵欺騙的風險。

論文「SEAL: Systematic Error Analysis for Value ALignment」引入了一組評估指標，用于衡量數據樣本特征在建模和對齊人類價值觀方面的有效性。

他們在HHH-RLHF數據集中進行了針對價值對齊的系統誤差分析。分析中使用的特征分類（例如是否無害、是否拒絕以及是否有創意）都是人為預先定義的。然后，根據這個分類，使用LLM為每個樣本按特征標記一個二進制標志。特征基于啟發式方法被分為兩類：

- 目標特征：明確希望學習的價值觀。

- 擾動特征：在訓練過程中無意中學到的價值觀（例如情感等主觀風格特征）。

上圖左面板中橙色點表示訓練前的獎勵印記，綠色點表示訓練后的獎勵印記。我們可以觀察到：

- 訓練后（綠色點），正面特征（如「is helpful」）的獎勵印記普遍增加，表明這些特征在訓練后被更積極地獎勵。

- 負面特征（如「contains insult」）的獎勵印記減少，表明這些特征在訓練后受到懲罰。

這種變化反映了訓練過程中對模型的調整，使其更傾向于獎勵正面特征，懲罰負面特征。

上圖右面板中黑色點表示獎勵偏移的估計值，即訓練前后獎勵向量之間的角度變化。我們同樣可以觀察到：

- 對于負面特征，如「breaks privacy」，獎勵偏移為負值，表明這些特征在訓練后受到更強烈的懲罰。

- 對于正面特征，如「is helpful」，獎勵偏移為正值，表明這些特征在訓練后受到更多的獎勵。

這種獎勵偏移的變化反映了模型在訓練過程中對不同特征敏感度的調整。

總體而言，對齊訓練獎勵了無害性和有益性等積極特征，并懲罰了如色情內容或隱私侵犯等消極特征。

責任編輯：張燕妮來源：新智元

AI 模型訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看