北大騰訊突破獎勵模型瓶頸!讓AI理解人類偏好,泛化能力比肩GPT-4.1
總是“死記硬背”“知其然不知其所以然”?
獎勵模型訓練也形成了學生選擇標準答案的學習模式,陷入諸如“長回答=好回答”“好格式=好答案”等錯誤規(guī)律之中。
北京大學知識計算實驗室聯(lián)合騰訊微信模式識別中心、William&Mary、西湖大學等機構提出的RewardAnything突破了這一瓶頸——通過讓獎勵模型直接理解自然語言描述的評判原則,實現(xiàn)了從”死記硬背”到”融會貫通”的范式躍遷。
圖片
RewardAnything降低了傳統(tǒng)模式針對不同場景需要收集偏好數(shù)據(jù)訓練獎勵模型再進行RL的高昂成本,能夠直接利用自然語言作為RLHF的標準。
其作為獎勵模型,僅需一句話描述的準則即可刷新傳統(tǒng)Benchmark的SOTA,在RABench上展示出了與GPT-4.1等頂尖模型相媲美的原則跟隨能力與泛化能力。
圖片
獎勵模型與偏好優(yōu)化
盡管LLM展現(xiàn)出強大的性能,一個核心挑戰(zhàn)始終存在:如何讓LLM的行為和輸出精準契合人類多樣化而細膩的偏好、多元的價值觀以及特定任務場景下的復雜需求?
獎勵模型(Reward Model)就是LLM對齊與RL訓練的關鍵組件——實現(xiàn)AI對齊(Alignment),讓AI的行為和輸出符合人類期望與價值觀。它通過學習海量的偏好數(shù)據(jù)建模人類的偏好,學會“什么是好的回答”。
但是,傳統(tǒng)獎勵模型存在致命缺陷:在學習過程中形成了嚴重的偏見,它們通常在固定的、針對特定偏好標準收集的數(shù)據(jù)集上進行訓練。這導致它們學習到的偏好分布是靜態(tài)的,難以適應真實世界中多樣化、動態(tài)變化的需求。
清華大學團隊在ICLR‘25提出的RM-Bench評測基準揭露了一個現(xiàn)狀:當前最先進的獎勵模型在抵抗格式偏見測試中,準確率僅為46.6%——甚至不如隨機猜測!
看2個例子,大家就明白了。
△問答Prompt和Response均來自RewardBench數(shù)據(jù)集
案例一:Length = Quality Bias問題:哪些熊類已經(jīng)滅絕了?回答A(事實正確,豐富且格式化),回答B(yǎng)(事實錯誤,簡潔)。人類判斷:A更好。
上述案例是來自獎勵模型的常用基準測試集RewardBench的常見情況,盡管其數(shù)據(jù)和標簽均無事實性錯誤,但使用類似的數(shù)據(jù)訓練獎勵模型,會隱含一種偏見:模型在訓練數(shù)據(jù)中觀察到“正確的答案往往比較長”,于是錯誤地將“長度”本身當作了高質(zhì)量的標志。
案例二:Format Over Substance問題:Chrome瀏覽器有哪些替代品?回答A(事實正確,結構化內(nèi)容),回答B(yǎng)(事實正確,自然表述)。人類判斷:A更好。
同樣來自RewardBench,對于事實均無錯誤的回答,帶來了另一種常見偏見:RM可能因為訓練數(shù)據(jù)中某種特定格式(如列表化的,Markdown風格的回答)與“好答案”同時出現(xiàn)的頻率較高,而對這種格式本身產(chǎn)生了不合理的偏好,忽視了內(nèi)容表達的自然性和多樣性。
在技術層面,獎勵模型的訓練過程通常是這樣的:
收集偏好數(shù)據(jù):給定一個問題(prompt),讓多個不同的AI生成多個不同的回答。
人工標注:請專業(yè)標注員對收集好的數(shù)據(jù)進行兩兩比較,判斷哪個回答更好(chosen)、哪個較差(rejected)。這些標注通常遵循一定的標注規(guī)范,但這些標注規(guī)范背后的具體原因往往不會完全傳遞給模型。
模型學習:獎勵模型通過分析大量的“問題-好回答-差回答”三元組(即偏好對)來學習人類偏好,目標是給“好回答”打高分,給“差回答”打低分(或是直接從兩個回答中選出較好的)。
指導優(yōu)化:訓練好的獎勵模型會輸出一個標量獎勵信號,用于指導大型語言模型(作為策略模型)通過強化學習算法(如PPO,GRPO)進行優(yōu)化,使其生成更符合人類期望的內(nèi)容。這個過程被稱為基于人類反饋的強化學習(RLHF),是當前主流AI對齊技術的核心。獎勵模型有時也直接用作評估指標(LLM-as-a-judge)。
而上述偏見的存在,根源在于獎勵模型的學習方式存在根本性缺陷:
訓練:只見結果,不知原因(隱式與“唯結果論”的學習):訓練數(shù)據(jù)通常只告訴模型“回答A比回答B(yǎng)好”,卻很少明確解釋“為什么A更好”的深層原因。模型只能從結果中猜測和推斷人類偏好,學習的是相關性而非因果性。這種“知其然,不知其所以然”的隱式學習,使得模型難以捕捉人類意圖的精髓,且容易導致模型學習到虛假關聯(lián)。
即便近期多個獎勵模型工作通過在獎勵學習過程中引入深度思考顯著提升獎勵效果,仍然沒有根本性改善這種學習方式帶來的缺陷,模型依然需要“猜測因果”。
評估:單一價值觀難以概括人類偏好:在許多偏好數(shù)據(jù)集中,更詳細、更長的回答往往質(zhì)量更高,這本身是合理的。但模型可能錯誤地學習到“長=好”或“列表=好”這類膚淺的規(guī)律,完全忽視了內(nèi)容本身的準確性、邏輯性或特定場景下的適用性。對于獎勵模型的評估,其評測過程與訓練過程十分相似,主要檢查模型預測的偏好是否與人類標注一致。
然而,這一過程忽略了人類偏好的多元性,嘗試通過使用一種價值觀定義人類的總體偏好,因此現(xiàn)有獎勵模型的評估指標也具有很大不足。這樣的評估方式,同樣忽視模型是通過“作弊”(例如,永遠選擇更長的回答)來達到高分的情況,與LLM的基準測試的數(shù)據(jù)泄露問題類似。這種評估方式難以衡量模型是否真正理解了多樣化和新穎的評價原則。
方法:RewardAnything
既然人類能用語言清楚地表達評判標準,為什么不直接告訴AI呢?
這正是研究團隊提出RewardAnything項目的核心理念——用自然語言定義“好”。不再讓模型從成千上萬的例子中猜測模糊的規(guī)律,而是直接用自然語言告訴它評判標準,例如:“我需要簡潔實用的回答,不要長篇大論”,“請確保事實準確性高于一切,即使回答簡短也沒關系”。
圖片
RewardAnything引入了“原則跟隨”(Principle-Following)范式,是一款新型的、專門為理解和遵循自然語言原則而設計和訓練的生成式獎勵模型,且確保其可用于下游RL訓練。這與LLM本身具備的“指令跟隨”(Instruction-Following)能力異曲同工。
圖片
它采用了多項創(chuàng)新技術來實現(xiàn)這一目標:
1.列表式評分與推理(Listwise Scoring with Reasoning)
傳統(tǒng)模型要么給單個回答打分(Pointwise),要么在兩個回答之間進行比較(Pairwise)。如果有10個候選回答,兩兩比較可能需要高達45次調(diào)用(C(n, 2)),如果采取同期工作類似的做法,每次調(diào)用都涉及數(shù)千token的輸入輸出,其計算開銷將完全成為GRPO等RL算法的瓶頸,因此實際難以將其應用于RL訓練。與之對應的,RewardAnything則能一次性評估所有候選回答。
輸入:原則P:例如,“偏好準確簡潔的回答,準確性優(yōu)先于詳細程度”問題Q:“Python中如何反轉列表?”候選回答集 X1,X2,…,Xk:例如,[10個不同的Python代碼或解釋]
輸出(一次調(diào)用完成):推理過程:模型會闡述它是如何理解給定原則,并將該原則應用于評估各個候選回復的。例如:“根據(jù)原則,我需要優(yōu)先考慮準確性…回答A雖然簡短但完全正確,回答B(yǎng)很詳細但包含錯誤信息…”打分:為每一個候選回復都賦予一個數(shù)值分數(shù) S(P,Q,Xi),以量化其對原則的遵循程度。例如:{A: 5分, B: 2分, C: 4分…}排序:將所有候選回復從最符合原則到最不符合原則進行排序。例如:A > C > D >… > B
2.群體相對策略優(yōu)化(Group Relative Preference Learning)
為了讓RewardAnything具備強大的原則跟隨能力,團隊采用了GRPO算法進行訓練。
與傳統(tǒng)工作利用GRPO(Group Relative Policy Optimization)算法激發(fā)LLM的深度思考能力不同的是,團隊直接利用現(xiàn)有的、已經(jīng)具備深度思考能力的基座模型,如Qwen3,讓RM通過GRPO的高效采樣,從一組候選評價結果之間選出其中相對最為優(yōu)秀的。RM在訓練過程中,學會的是理解在特定原則指導下,一組候選回復之間的相對優(yōu)劣,而非僅僅死記硬背孰優(yōu)孰劣,強化那些能準確反映原則遵守情況的評估,使RM更關注相對質(zhì)量的辨別,從而培養(yǎng)更好的泛化能力。
訓練過程中,RewardAnything自身作為一個策略模型,學習生成高質(zhì)量的評估輸出(包含推理、分數(shù)和排名)。其獎勵函數(shù)經(jīng)過精心設計,包含格式獎勵:激勵模型生成結構完整、邏輯一致的評估和準確性獎勵:衡量模型判斷與“真實”共識判斷的對齊程度,并懲罰對質(zhì)量差異大的回復的錯誤排序。
具體獎勵設計以及如何防止數(shù)據(jù)泄露以及合成訓練數(shù)據(jù)的構建等細節(jié),請參見文末給的論文鏈接。
效果評估與新評測基準
效果評估
RewardAnything 在近期的、具有挑戰(zhàn)性的來自清華大學的ICLR‘25基準測試 RM-Bench上進行了測試。
RM-Bench以其“困難”(hard) 設置而聞名,該設置專門用于探測獎勵模型中一個常見的偏見:無法有效區(qū)分一個事實正確但簡潔的回復與一個不正確但內(nèi)容詳盡、格式美觀的回復(即所謂的“長度偏見”或“格式偏見”)。
結果顯示,RewardAnything 取得了目前最佳的總體性能,尤其是在最具挑戰(zhàn)性的“困難”設置上表現(xiàn)突出,顯著超越了包括通用大模型(如GPT-4.1, Gemini 2.5 Pro)和一些非常近期的其他獎勵模型工作(RM-R1 32B)。
圖片
這一結果不僅驗證了RewardAnything作為通用獎勵模型的有效性,更解釋了——傳統(tǒng)獎勵模型試圖從隱含偏好數(shù)據(jù)中費力“猜測”的、可能導致偏見的因素,其實可以通過明確的自然語言原則進行更直接、更有效的規(guī)避和緩解。當我們給它一個清晰的、強調(diào)準確性的原則時,RewardAnything能夠更好地抵制表面線索的干擾,做出更符合任務本質(zhì)的判斷。
RABench:專為“原則遵循”設計的評估基準
傳統(tǒng)的獎勵模型基準大多關注模型在固定、隱含偏好下的表現(xiàn),難以有效衡量模型適應和遵循用戶明確給出的、多樣化自然語言原則的能力。
為了全面評估獎勵模型理解和遵循不同原則的能力,團隊構建了RABench(Reward Anything Benchmark)評測基準,旨在通過引入判斷原則,填補現(xiàn)有評測方法的空白。
評測設計
1.原則的多樣性
團隊從人工整理的200個原則中,專門挑選出50個與訓練集原則完全不同的、具有多樣性的原則用于基準測試。這些原則被歸納為五個與文本質(zhì)量相關的基本維度:
內(nèi)容 (Content): 規(guī)定模型應呈現(xiàn)哪些信息,例如“鼓勵包含相關例證的詳細回答”。
結構 (Structure): 定義文本的組織和布局方式,例如“重視信息組織清晰、條理分明的回答”。
語氣 (Tone): 捕捉文本所傳達的情感和態(tài)度,例如“對帶有鼓勵性和幫助性語氣的回答給予更高分數(shù)”。
邏輯 (Logic): 關系到文本的推理過程和思路流程,例如“好的回答應展現(xiàn)連貫的思考過程”。
風格 (Style): 指明對語言表達方式的偏好,例如“偏好使用清晰、簡潔、無專業(yè)術語的語言”。
2.真實場景覆蓋
為了確保評估的挑戰(zhàn)性和多樣性,測試提示(prompts)主要來源于現(xiàn)有的RewardBench數(shù)據(jù)集,覆蓋了日常對話、代碼編程、數(shù)學推理、安全相關四大領域。
3.豐富的模型覆蓋
候選回復生成:對于RABench中的每一個“原則-提示”對,團隊使用了來自6個不同家族(如GPT, Claude, Qwen, LLaMA, DeepSeek等)的10種不同的大型語言模型來生成候選回復。每個模型都被指示(通過系統(tǒng)提示)嘗試遵循給定的原則來生成回復。
多LLM初步評估與共識算法:團隊利用了四個頂尖的LLM(如Claude-3.7 Sonnet, GPT-4.1等)作為獨立的評估者,對所有候選回復進行評分和排序。然后,采用一種基于動態(tài)規(guī)劃的共識算法來綜合它們的評估結果,找到最受評委們一致認可的排序。
人工最終驗證:最后,每一個由算法生成的共識判斷(包含原則、提示、一組回復以及LLM共識得到的分數(shù)和排序)都由兩名人類標注員進行獨立驗證,確保其準確反映了對特定原則的遵守情況。只有兩名標注員都認為有效的條目才被保留。這一過程的標注員間一致率達到了89%。
最終,RABench包含1002個經(jīng)過驗證的偏好排序列表,由于每個列表包含多個回復,相當于傳統(tǒng)成對比較基準中的約31,806個偏好對。
團隊將RewardAnything與強大的通用LLM(它們本身也常被用作評估器)以及領先的判別式獎勵模型進行了比較。結果顯示,RewardAnything 在RABench上展示出了與GPT-4.1等頂尖模型相媲美的原則跟隨能力。
這意味著RewardAnything能夠很好地適應和應用在其訓練階段并未見過的、甚至是更為復雜的自然語言原則。
應用:簡單語言描述,定制AI的行為模式
基準測試的優(yōu)異表現(xiàn)固然令人鼓舞,但RewardAnything的真正價值在于其應用:它能讓任何人通過簡單的自然語言描述,就能定制AI的行為模式。
我們面臨一個復雜的挑戰(zhàn):如何讓AI既能準確識別并堅定拒絕有害的用戶請求,又不會對本身安全無害或僅輕微觸及邊界的良性查詢過度敏感地拒絕,同時還能在必要拒絕時保持溫暖、富有同情心、甚至能給出積極替代方案的交流風格?
傳統(tǒng)方法通常需要:收集數(shù)萬條專門標注的偏好數(shù)據(jù),細致區(qū)分“合理的拒絕”“過度的拒絕”“生硬的拒絕”和“溫暖的拒絕”;聘請專業(yè)團隊進行標注,確保對各種細微差別的一致理解;花費數(shù)周甚至數(shù)月時間訓練或微調(diào)特定的獎勵模型,反復調(diào)試和評估,以在安全性和實用性之間達到微妙的平衡。
使用RewardAnything,我們只需要一個精心設計的自然語言原則——這條原則是OOD的,與訓練原則沒有重疊,以及來自公開訓練數(shù)據(jù)集PKU-RLHF的大約2000個prompt。重要的是,這些提示僅為輸入文本,不包含任何人工標注的偏好數(shù)據(jù)或是來自其他模型的輸出蒸餾,也無需為這項特定任務重新訓練或定制RewardAnything模型本身。
團隊將RewardAnything作為GRPO的唯一獎勵,對Qwen3-8B進行了對齊訓練。
圖片
作為對比,團隊選擇了在RM-Bench安全領域表現(xiàn)領先的Skywork RM作為基線獎勵模型,在完全相同的GRPO設置和相同的2000個prompt下,對齊訓練了另一個Qwen3-8B模型。
評估對齊效果主要使用了兩個基準:XSTest(一個專門用于評估LLM在安全場景下是否過度拒絕的測試集)和MT-Bench(一個廣泛使用的對話模型評估基準,這里用于通過GPT-4.1進行成對文本質(zhì)量比較)。
實驗結果清晰地展示了這種由原則驅動的對齊方法的有效性:
在安全行為上: 由RewardAnything對齊的模型(圖中標注為“Ours-Aligned”)不僅在處理安全提示時,略微減少了不正確的拒絕率(相比原始Qwen3-8B和Skywork對齊的模型),更重要的是,在處理不安全提示方面表現(xiàn)出了顯著的提升。具體來說,它在保持對不安全內(nèi)容的高拒絕率的同時(Full Refusal比例仍然很高),將更多必要的拒絕轉化為了更具建設性、富有同情心、并能提供替代方案的回復(Partial Refusal,即部分拒絕但提供了有益信息或引導的比例有所增加)。這充分展現(xiàn)了一種負責任的、更接近人類理想溝通方式的應對策略。
在文本質(zhì)量上: 在MT-Bench上進行的文本質(zhì)量比較(由GPT-4.1作為裁判)顯示,“Ours-Aligned”模型生成的回復質(zhì)量顯著優(yōu)于原始的Qwen3-8B模型以及由Skywork RM對齊的模型。這表明,這種基于原則的、旨在實現(xiàn)細致入微安全行為的對齊,同時也帶來了模型整體回復質(zhì)量的提升。
這項案例研究有力地證實,RewardAnything不僅僅是在基準測試中取得高分的理論模型,它更展示了一種LLM對齊的新范式。
它賦予了用戶一種前所未有的能力——僅僅通過清晰的自然語言規(guī)范,就能靈活、直接地引導大型語言模型朝著復雜的、符合期望的行為方向演進。
這真正體現(xiàn)了“RewardAnything”(獎勵任何事物)的愿景,并顯著降低了創(chuàng)建高度定制化、深度對齊的AI系統(tǒng)的技術門檻和資源壁壘,對齊的重心從“數(shù)據(jù)驅動”轉向了更靈活、更直接的“原則驅動”。
論文鏈接:https://arxiv.org/abs/2506.03637
代碼鏈接:https://zhuohaoyu.github.io/RewardAnything