老婆餅里沒有老婆,RLHF里也沒有真正的RL
老婆餅里沒有老婆,夫妻肺片里沒有夫妻,RLHF 里也沒有真正的 RL。在最近的一篇博客中,德克薩斯大學奧斯汀分校助理教授 Atlas Wang 分享了這樣一個觀點。
- 博客鏈接:https://www.linkedin.com/pulse/why-rlhf-other-rl-like-methods-dont-bring-true-rl-llmsand-atlas-wang-s1efc/
他指出,RLHF(基于人類反饋的強化學習)和其他類似的方法并沒有為大型語言模型(LLM)帶來真正的強化學習(RL),因為它們缺乏 RL 的核心特征:持續的環境交互和長期目標的追求。
RLHF 主要通過單步或幾步優化來調整模型輸出,使其符合人類偏好,而不是在一個動態環境中進行多步驟的策略調整。此外,RLHF 通常是離線或半離線進行的,缺乏實時的環境反饋和策略更新。因此,盡管 RLHF 可以改善模型的對齊性和輸出質量,但它并不能賦予 LLM 真正的目標或意圖,讓它們「想要」贏得游戲。LLM 仍然主要是一個基于上下文預測下一個 token 的統計系統。
整篇文章討論了幾個有趣的問題:
1. RLHF (及相關方法)與經典 RL 有何不同?
2. 為什么這些方法實際上無法給出 LLM 真實目標或意圖?
3. 為什么沒有人大規模地為 LLM 做「真正的 RL」?
4. 現有的最接近給 LLM 一個「目標」的方法是什么?
5. 沒有「目標驅動」的 LLM 的后果是什么?
通過了解這些細微差別,我們可以清楚地知道 LLM 能做什么、不能做什么,以及為什么。
谷歌 DeepMind 首席科學家 Denny Zhou 轉發該文章時評價說,「對于任何有 RL 知識背景的人來說,(文章中的觀點)是顯而易見的。但對于新人來說,這是一份很好的介紹。」
區分 RLHF 和經典強化學習
什么是經典強化學習?在經典強化學習設置中,你有:
- 在環境中采取行動的智能體。
- 環境會根據智能體的行動改變狀態。
- 智能體的行動會受到獎勵或懲罰,目的是在多個步驟中實現長期累積獎勵的最大化。
主要特征:持續或偶發交互。智能體探索多種狀態、做出決策、觀察獎勵,并在一個連續的循環中調整其策略。
RLHF 是一種使用根據人類偏好數據訓練的獎勵模型來完善模型輸出的工作流。常見流程包括:
- 監督微調(SFT):首先在高質量數據上訓練或微調基礎語言模型。
- 獎勵模型訓練:收集成對的輸出結果,詢問人類更喜歡哪一個,然后訓練一個「獎勵模型」,以接近人類的判斷。
- 策略優化:使用類似強化學習的算法(通常為 PPO,即「近端策略優化」)來調整 LLM 的參數,使其產生獎勵模型所喜歡的輸出結果。
與傳統 RL 不同的是,RLHF 中的「環境」基本上是一個單步文本生成過程和一個靜態獎勵模型 —— 這其中沒有擴展循環或持續變化的狀態。
為什么 RLHF(及相關方法)不是真正的 RL?
- 單步或幾步優化。在 RLHF 中,LLM 會基于給定的提示生成文本,然后獎勵模型會提供一個單一的偏好分數。RLHF 中的「強化」步驟更類似于一步式策略梯度優化,以實現人類偏好的輸出,而不是在不斷變化的環境中對狀態和行動進行基于智能體的全面循環。這更像是一種「一勞永逸」的評分,而不是讓一個智能體隨時間推移探索多步行動,并接收環境反饋。
- 大多離線或半離線。獎勵模型通常在人類標簽數據上進行離線訓練,然后用于更新 LLM 的策略。LLM 在線調整策略時,并沒有實時探索連續的環境循環。
- 缺乏基于環境的長期(Long-Horizon)目標。經典的 RL 智能體會追蹤多個狀態下的長期回報。相比之下,基于 RLHF 的 LLM 訓練側重于根據人類偏好調整即時文本輸出。LLM 并沒有在一個動態環境中導航多個時間步驟。
- 表面約束與真正的內部目標。RLHF 可以有效地影響某些輸出的概率 —— 引導模型遠離不受歡迎的文本。但模型內部并沒有形成產生這些輸出的「愿望」或「欲望」;它仍然是一個生成下一個 token 的統計系統。
請記住,不管是 RLHF、SFT 還是其他什么,LLM 都不是為了真正的目標或意圖而訓練的!LLM 的核心是根據給定上下文預測下一個 token。它們的「動機」純粹是最大限度地提高下一個 token 的正確率(由訓練數據和任何后續微調信號確定)。這個過程并不存在主觀上的愿望或意圖。我們常說 AlphaZero「想要」在國際象棋中獲勝,但這只是一種方便的簡單說法。從內部來說,AlphaZero 是在最大化數學獎勵函數 —— 沒有任何感覺上的欲望。同樣,經過 RLHF 調整的 LLM 也在最大化對齊獎勵信號,而沒有內心的渴望狀態。
RLHF vs. IRL 如何?
亞利桑那州立大學計算機科學教授 Subbarao Kambhampati 指出,「RLHF」有點名不副實,因為它將從人類判斷中學習偏好或獎勵模型(在概念上更接近于逆強化學習,即 IRL)與一步或幾步策略優化相結合,而不是經典 RL 中典型的長期迭代交互。
- IRL:在經典表述中,智能體通過觀察專家在動態環境中的演示來推斷獎勵函數。相比之下,RLHF 通常收集靜態的成對比較(例如,「你更喜歡這兩個模型輸出中的哪一個?」),并訓練一個獎勵模型來模仿人類的偏好。在不斷演化的環境中,沒有擴展的多步驟專家軌跡。
- RL 中的偏好學習:在當前的深度強化學習中,有一些方法可以從軌跡 rollout 的成對比較中學習獎勵函數(例如,「你更喜歡機器人步行者的哪種步態?」)。然而,這些方法往往存在樣本復雜度高的問題(例如,需要多次詢問人類),因此許多研究論文都采用了在受控任務中模擬人類反應的方法。
- 為什么 RLHF 也不是「經典 IRL」:即使 RLHF 在從人類數據中學習偏好模型方面讓人聯想到 IRL,它也不是分析專家行為隨時間變化的經典方案。相反,RLHF 側重于人類對最終或短序列輸出的靜態判斷。因此,RLHF 仍然主要是離線或接近離線的,這進一步限制了它與傳統 IRL 設置的相似性 —— 盡管 Subbarao Kambhampati 也評論說,從成對偏好中學習獎勵函數(已成為(I)RL 文獻的主流)!
CoT、PRM 或多智能體工作流有助于解決這個問題嗎?
基于流程的獎勵模型和思維鏈
基于流程的獎勵模型可能會對中間推理步驟(思維鏈或 CoT)提供反饋,而不是僅根據最終輸出(如問題的最終答案)提供獎勵。這樣做的目的是鼓勵模型以更易于解釋、正確率更高或更符合特定標準的方式解釋或展示其推理過程。
這就是「真正的 RL」嗎?并非如此。
即使你為中間步驟分配了部分獎勵(比如 CoT 解釋),你仍然處于這樣一種環境中:你通常會將整個輸出(包括推理)輸入獎勵模型,獲得獎勵,然后進行一步策略優化。而不是在一個動態環境中,由 LLM「嘗試」部分推理步驟、獲得反饋、進行調整,并在同一 episode 中繼續進行開放式循環。
因此,雖然 CoT / PRM 會給人一種多步驟 RL 的錯覺,因為你會對中間步驟進行獎勵或懲罰,但實際上,它仍然相當于對單一步驟(文本生成和推理)進行離線或近似離線的策略調整,而不是經典 RL 的持續智能體 - 環境循環。
多智能體工作流也不會神奇地創建意圖
你可以在工作流中協調多個 LLM(例如,「系統 A 生成計劃,系統 B 批改計劃,系統 C 完善計劃」),但從內部來看,每個 LLM 仍然是根據下一個 token 的概率生成文本。盡管這樣的多智能體設置可以表現出看起來協調或有目的的涌現行為,但它并沒有賦予任何單個模型內在或秉持的目標。
為什么我們的多智能體 LLM 工作流常常看起來有意圖?人類會自然而然地將心理狀態投射到行為看似有目的的系統上,這就是所謂的「意圖立場」。但是,每個 LLM 智能體只是對提示做出響應。每個智能體背后的思維鏈并不等同于個人欲望或驅動力;它只是一個多步驟反饋回路中更復雜的 prompt-completion。
因此,多智能體協調可以產生非常有趣的新興任務解決能力,但 LLM 本身仍然不會產生「我想要這個結果」的動機。
為什么至今還沒有人用「真正的 RL」訓練 LLM?
- 因為太貴了!大規模模型的經典 RL 需要一個穩定、交互式的環境,外加大量計算來運行重復的 episode。每個訓練周期的前向傳遞次數對于今天的十億參數 LLM 來說過于昂貴。
- 缺乏環境定義。文本生成并非天然的「狀態 - 動作轉換」環境。我們可以嘗試將其包裝成類似游戲的模擬環境,但這樣就必須為多步驟文本交互定義獎勵結構,而這并非易事。
- 性能已經足夠好了。在許多使用案例中,RLHF 或 DPO(直接偏好優化)已經能產生足夠好的對齊效果。實事求是地說,團隊會堅持使用更簡單的離線方法,而不是建立一個復雜的 RL 管道,以巨大的成本換取微不足道的收益。
最接近給 LLM 一個「目標」的現有方法是什么?
在我看來,與「給 LLM 一個目標」最接近的方法是使用提示工程或將多個 LLM 提示串聯成一個循環來構建一個元系統或「智能體」。像 Auto-GPT 或 BabyAGI 這樣的工具試圖模擬一個智能體,它能:
- 接收自然語言目標(如「研究 X,然后制定計劃」)。
- 反復計劃、推理和提示自己。
- 評估進展并完善計劃。
然而,所有這些「目標保持」都是在系統層面,在提示或鏈接邏輯中協調進行的,而不是從 LLM 的內部動機狀態出發。LLM 本身仍然是被動地對提示做出反應,缺乏內在的欲望。
多智能體是另一種「窮人的解決方案」。正如在上文所討論的,你可以協調多個 LLM 對彼此的輸出結果進行評論或驗證,從而有效地劃分子任務并組合出部分解決方案。這看起來是有目標的,但同樣,「目標」是由工作流和提示從外部協調的;LLM 不會自發生成或堅持自己的目標。
LLM 沒有「真正目標」的后果
- 簡化的對齊(在某些方面)。由于 LLM 沒有真正追逐個體目標,它們不太可能「繞過」限制或自主計劃非法行為。對齊通常相當于設置正確的提示約束和微調,將其推向可接受的產出。Anthropic 最近的博客與這一觀點有關(參見《震驚!Claude 偽對齊率竟能高達 78%,Anthropic 137 頁長論文自揭短》)
- 更難委派開放式任務。如果我們希望 AI 能夠自發地發現新問題,積極收集資源,并堅持數月來解決這些問題,我們就需要一個具有持續內驅力的系統 —— 類似于真正的 RL 智能體或高級規劃系統。目前的 LLM 無法以這種方式實現真正的自我啟動。
- 潛在的創新缺失。在豐富的 RL 環境中進行自由探索,可能會產生驚人的發現(如 AlphaZero 在國際象棋或圍棋中的突破)。如果依賴于只有表面反饋的單步文本生成,我們可能會錯過多步獎勵優化所帶來的全新策略。
不過,這也有積極的一面。例如,我認為沒有持續目標的 LLM 在某些方面更加透明。它本質上是一個由即時反饋信號引導的強大的下一個 token 預測器 —— 沒有多步驟 RL 循環中出現的復雜的隱藏目標。
明確時間跨度、目標、獎勵和行動空間
單步或幾步方法(如 RLHF 或 DPO)與「真正的」RL 的關鍵區別在于時間跨度:
- 短期優化:RLHF 和 DPO 有效地針對即時(一步)反饋進行優化。即使反饋函數是通過(從人類標記的數據中)學習獲得的,也不存在長期規劃的持續狀態 - 行動循環。
- 長期優化:在經典 RL 中,智能體會對多個步驟的累積獎勵進行優化,形成類似于「目標」的東西。獎勵模型與行動空間相結合,可驅動在動態環境中塑造多步驟行為的策略。
此外,RL 通常假定有一個定義明確的行動空間(例如,將游戲棋子向上 / 向下 / 向左 / 向右移動)。而在 LLM 微調中,「動作」的概念是模糊的,通常會被直接參數更新或生成 token 所取代。增強提示,甚至只是從固定詞匯中生成 token,都可以被視為「動作」,而「環境」則是 LLM 的內部狀態。然而,這是對 RL 循環的非標準或某種不尋常的重新解釋。
另一個專家澄清的問題是 RL 中獎勵和目標之間的區別。原則上,RL「獎勵」是指導智能體學習過程的信號,而不總是明確的最終目標。如果獎勵稀少(僅在成功 episode 結束時提供),智能體的實際「目標」可能看起來是「達到成功條件」。然而,在實踐中,好的 RL 設計通常會使用密集的獎勵信號來引導中間狀態,從而幫助智能體更有效地學習。
對于 LLM 而言,「目標」的概念意味著對某些目標的持續、多步驟的追求。由于 RLHF 通常是在單步或幾步過程中進行的,因此該模型從未真正形成長期目標的內部表征。它只是根據獎勵模型或偏好函數來優化即時文本輸出。
后記
RLHF、DPO、憲法 AI(Constitutional AI)和其他受 RL 啟發的微調方法對于使 LLM 更加一致和有用大有裨益。它們讓我們能夠利用人類的偏好來塑造輸出,減少有毒內容,并引導 LLM 響應的風格。
然而,這些技術并不能為 LLM 提供真正的長期目標、內部動機或經典 RL 意義上的「意圖」。LLM 仍然是一個復雜的下一個 token 預測器,而不是一個自主智能體。
如果未來我們希望 LLM 擁有真正的 RL 怎么辦?如果有一天,研究人員將 LLM 集成到實際的多步驟 RL 框架中(想想看:一個智能體在模擬或現實世界中導航,不斷閱讀和生成文本,接收反饋,并實時調整策略),那么我們就可能接近真正的智能體行為。這需要大量的資源、精心的環境設計和強大的安全措施。在此之前,我們所擁有的系統 —— 盡管功能強大 —— 從根本上說仍然是被動的、由離線或半離線反饋信號形成的下一個 token 預測器。
為什么這一切都很重要?
- 從業者應該意識到這些局限性,不要高估 LLM 的自主性。
- 政策制定者和倫理學家應該認識到,LLM 不可能自發地策劃或撒謊來達到隱藏的目的,除非被提示指引去模仿這種行為。
- 反過來說,如果未來的系統真的結合了具有大規模計算和動態環境的「真正 RL」,我們可能會看到更多類似智能體的突發行為 —— 這就會引發新的調整和安全問題。
未來方向?
- 更高的樣本復雜度:一個經常出現的限制因素是,基于偏好的學習可能需要大量的人類 token 比較,尤其是當任務變得越來越復雜時。研究人員通常采用模擬人的判斷來進行 RL 實驗,但這也帶來了新的問題,即這些模擬器如何忠實地模擬真實的人類偏好。
- 擴展到長期任務:許多專家懷疑,短期輸出的成對比較能否直接擴展到更復雜的多步驟任務。使用 LLM 進行真正的多步驟 RL 需要一個環境,在這個環境中,模型可以進行探索、獲得中間獎勵并進行迭代 —— 而這在目前是非常昂貴的,也無法大規模廣泛實施。
- 銜接符號與次符號方法:對于真正的長期偏好(如需要概念或符號理解的任務),純粹的「原始」配對偏好數據可能并不足夠。可能需要某種形式的結構化、符號化反饋(或「通用語言」),才能有效地將人類的細微目標傳達給人工智能系統。
最后,雖然 RLHF、DPO 和相關方法提供了一種實用的方法,可以在短期環境中使 LLM 與人類偏好保持一致,但它們無法賦予 LLM 真正、持久的目標或意圖。這些方法也只是與經典的 RL 或 IRL 范式略有對應。未來的系統若能在真正的多步驟 RL 循環中使用 LLM,就能解鎖更多自主的、類似智能體的行為,但同時也會引發新的安全和一致性問題。