LLM超越人類時該如何對齊?谷歌用新RLHF框架解決了這個問題
我們這個世界是不斷變化的開放世界。人工智能要在這個世界長久立足,就需要突破許多限制,包括可用數據和規模和質量以及有用新信息的增長率。
對基于 LLM 的 AI 來說,高質量的人類數據非常關鍵,但已有研究預計這些高質量數據將在未來幾年耗盡。
如果 LLM 保持現在的發展勢頭,預計在 2028 年(中位數)左右,已有的數據儲量將被全部利用完,來自論文《Will we run out of data? Limits of LLM scaling based on human-generated data》
此后,這類數據的質量也將停滯不前:隨著 LLM 能力越來越強,它們將能解決越來越復雜和越來越多的難題,而這些難題所需的訓練數據已經超出了人類的能力。
因此,我們就需要為 LLM 構建一種能使其實現自我提升的基本機制,讓模型可以持續地自我生成和自我求解更困難的問題。
于是,問題就來了:語言模型能否自我創建可學習的新任務,從而實現自我改進以更好地泛化用于人類偏好對齊?
為了提升語言模型的對齊能力,人們已經提出了許多偏好優化算法,但它們都默認使用固定的提示詞訓練分布。這種固定的訓練范式缺乏可擴展性,并不可避免地導致泛化問題和效率問題。
基于這些考慮,谷歌 DeepMind 和芝加哥大學一個研究團隊開發了一種可擴展的開放式 RLHF 框架 eva,即 Evolving Alignment via Asymmetric Self-Play,也就是「通過非對稱自博弈實現的演進式對齊」。
- 論文標題:Evolving Alignment via Asymmetric Self-Play
- 論文地址:https://arxiv.org/pdf/2411.00062
eva 能讓自我提升式語言模型的訓練分布自動演進,如圖 1 所示。
eva 的核心方法
在介紹 eva 的核心方法之前,我們需要先了解一些前提設置,這里截圖如下:
概述地講,eva 可通過一個創建器(creator)將經典 RLHF 擴展成開放式 RLHF,該創建器使用易于實現的估計、采樣、進化程序來調整提示詞的分布,模仿不對稱自博弈的最小最大遺憾(minimax-regret)策略。
原理:用于聯合自我提升的開放式 RLHF
直觀說明
經典 RLHF 是在一個靜態提示詞分布上執行優化,這意味著智能體僅與固定的參考點對齊,這使得它難以對應不斷變化的現實世界中的新問題。
新提出的開放式 RLHF 框架 eva 則打破了這個靜態設置,其目標是開發出一種能很好地泛化到未曾見過的新環境的智能體。為此,該團隊必須設計一個新的目標,而不僅僅是在一個固定數據集上執行優化。
形式化描述
π_φ (x) 是可優化的提示詞生成策略,其會與響應策略 π_θ (y | x) 一起被聯合優化,如下所示:
其中,p_ref (x) 表示所有可能任務(通過提示詞實例化)的理想化的可能很難處理的概率,其可作為智能體可能遇到的任務的全部多樣性和復雜性的概念參考,同時用作對齊的指導目標。此外,聯合優化可確保任務分配和智能體的響應策略同步更新,從而適應日益復雜的任務,進而促進泛化。
機制:通過創建器和求解器博弈實現非對稱自博弈
直觀說明
由于未指定的參考很難處理以及聯合微分存在不穩定問題,因此 (7) 式很難直接優化。為此,該團隊提出了一種交替式的優化方案,其做法是將該問題表述成一個非對稱的創建器 - 求解器博弈。
- 直觀地講,創建器可以通過復雜度不斷增加的提示詞例程來指導求解器,從而實現高效和一般性的學習,以處理現實任務的多樣性。
- 從數學上看,這類似于通過期望最大化進行的 RL 優化,其中提示詞分布的 φ 在每個步驟中都是固定的。
形式化描述
該團隊將這種交替優化表述成了一種非對稱博弈,如下所示:
- 創建器(Creator:提示詞博弈者 π_X,其作用是策略性地為求解器生成提示詞。
- 求解器(Solver:響應博弈者 π_{Y|X}(或 π),其作用是學習生成更符合偏好的響應。
該團隊采用了 minimax regret 策略,其中求解器的目標是最小化后悔值,而創建器則是為了最大化這個值,即當前策略和最優策略之間的獎勵之差為:
在納什均衡下,之前已有研究表明:
然而,如果無法獲得真正的最優策略,就必須近似后悔值。利用隨機策略和獎勵信號,該團隊設計了基于優勢的代理函數:
總之,eva 允許創建一個不斷演進的提示詞分布,其難度會隨智能體的演進而逐步提升。新引入的 minimax regret 可進一步增加這種不斷發展的例程的穩健性,其做法是激勵智能體在所有情況下都表現良好。他們使用了信息量代理來指導學習。
總之,eva 是將對齊視為一種非對稱博弈,其機制是創建器不斷挑戰求解器,而求解器則不斷學習提升。
實際的算法
下面說明如何實際實現算法 1 中的 eva。
1. 創建器步驟:估計,采樣,然后演進
顯然,創建器會找到最有用的提示詞并生成它們的變體,并將這些變體用于偏好優化。創建器的實現分為 3 步。
- 第 1 步:info (?)—— 估計信息量。對于提示集 X) t 中的每個 x,生成響應、注釋獎勵并通過 (10) 式估計 x 的信息量指標。
- 第 2 步:sample (?)—— 對富含信息的子集進行加權采樣。使用信息量指標作為權重,對富含信息的提示詞子集 X^info_t 進行采樣,以便稍后執行演進。
- 第 3 步:evolve (?)—— 為高優勢提示詞執行近端區域演進。具體來說,迭代 X^info_t 中的每個提示詞,讓它們各自都演化為多個變體,然后(可選)將新生成的提示詞與對 X_t 的均勻采樣的緩存混合以創建 X′_t。
2. 求解器步驟:求解然后優化
此步驟是經典的偏好優化,其中生成響應并執行梯度下降。以逐點獎勵模型設置為例,對于每個提示,采樣 n 個響應,每個響應都帶有獎勵注釋;這里采用最大和最小獎勵的響應來構建偏好對,然后進行優化。
總之,eva 可以使用新的創建器模塊統一現有的迭代優化工作流程,該模塊可以與求解器策略共享相同的網絡,也可獨立運行。
實驗結果
這里我們僅關注實驗的主要結果,實驗設置請參看原論文。
總體而言,eva 在對齊方面取得了顯著的進步,同時無需依賴任何人工數據,因此更具效率。是基礎設置,即一次迭代微調后的模型,eva 則會在此基礎上添加一個創建器,以實現初始迭代的提示詞集的自我演進,并使用一個偏好優化算法進行額外的開放式 RLHF 迭代,這會得到
。
eva 能實現自我提升
如表 1 紅色標記所示,eva 在不同優化算法中的表現顯著優于基礎設置,尤其是在更難的 Arena-Hard 基準上,該基準由于其提示詞的復雜性和更公平的評分系統而被認為更具挑戰性。
具體來說,eva 使用 SimPO 作為求解器時增益為 8.4%,使用 DPO 作為求解器時增益為 8.5%,超越了其 27B 版本并與 Arena-Hard 排行榜上報告的 claude-3-opus-240229 相當,同時還使用了全自動的提示詞生成進行對齊。
eva 可以超越人工編寫的提示詞
實驗進一步表明,使用 eva 提示詞訓練的模型的表現能夠比肩甚至超越那些使用了來自 UltraFeedback 的額外新提示詞訓練的模型
,這可被視為是人類提示詞。同時,前者還能做到成本更低,速度更快。
此外,在 MT-Bench 上,使用新的人類提示詞進行訓練通常會在第一輪中表現出性能下降,在第二輪中也只會有適度的提升。相比之下,eva 能顯著提高第二輪的表現。
針對此現象,該團隊給出了自己的假設:eva 可演化出全新的可學習的提示詞,并且其中包含第二輪問題的特征,這表明 eva 涌現出了處理后續互動等新技能。
消融研究
為了驗證 eva 各組件的有效性,該團隊也執行了消融研究,下面我們簡單給出其發現,詳細實驗過程請訪問原論文:
- 信息量指標:新提出的基于后悔值的指標優于其它替代指標;
- 采樣之后執行演化的流程:新方法優于貪婪選擇方法;
- 使用獎勵模型進行擴展:eva 的對齊增益會隨獎勵模型而擴展;
- 持續訓練:新提出的方法可通過增量訓練獲得單調增益;eva 演化得到的數據和調度可用作隱式正則化器,從而實現更好的局部最小值。