成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

萬字干貨:小紅書 hi lab 團隊關于獎勵模型的一些探索

人工智能
獎勵模型很多科學問題都充滿挑戰,小紅書 hi lab團隊過去一段時間對下列幾個問題和關鍵挑戰進行了一些探索。

獎勵模型(Reward Models,RM)在確保大語言模型(LLMs)遵循人類偏好方面發揮著關鍵作用。這類模型通過學習人類的偏好判斷,為語言模型的訓練提供重要的引導信號。

獎勵模型很多科學問題都充滿挑戰,小紅書 hi lab團隊過去一段時間對下列幾個問題和關鍵挑戰進行了一些探索:

  • 獎勵模型應該如何評估?如何獲取效果、robustness都足夠好的reward model ?(ICLR 2025 Spotlight)
  • 如何構建可泛化的多模態RM?解決多模態RM傾向于學習純文本捷徑的問題。(ICML 2025)
  • 如何面向中文場景構建大規模、高質量的中文偏好數據集和評測基準?(ACL 2025)
  • 偏好預訓練提升LLM推理偏好能力的可擴展方法;如何構建自我批評的生成式獎勵模型提升大語言模型推理能力?(ACL 2025 Findings)
  • Self Rewarding方式構建自評估框架讓大語言模型主動探索知識邊界并自我糾正幻覺行為。(ACL 2025 Findings)

01、Reward Model 應該如何評估?

論文標題:

Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree?

論文地址:

https://arxiv.org/abs/2410.05584

收錄情況:

ICLR 2025 Spotlight

1.1 問題背景

在RLHF框架中,獎勵模型(Reward Model,RM)通過學習人類偏好判斷來為模型優化提供關鍵的引導信號,對確保模型行為符合人類期望起著至關重要的作用。然而,構建一個能夠完全捕捉人類偏好的獎勵模型是極具挑戰性的。由于人類偏好的復雜性和多樣性,獎勵模型往往只能作為理想偏好的不完美代理。這種不完美性可能導致模型在針對獎勵模型優化時出現過度優化問題,即模型可能會過分迎合獎勵模型的偏差而偏離真實的人類偏好,這種現象可以被視為 Goodhart's law 在強化學習中的體現。

鑒于獎勵模型的不完美性難以完全避免,準確評估獎勵模型的質量以預測其在實際應用中可能造成的負面影響就顯得尤為重要。目前,業界主要采用兩種評估方法:一是直接評估優化后的策略表現,二是計算模型在固定數據集上的準確率。前者雖然能夠反映最終效果,但難以區分性能問題是源于策略優化過程還是獎勵學習過程;后者則存在評估指標是否能準確預測優化后策略表現的問題。因此,我們需要更加深入的關注這些問題:

(1)如何更好地評估獎勵模型?

(2)準確率指標與下游策略性能之間存在怎樣的關系?

(3)我們能否建立更有效的評估方法來預測和防范模型過度優化的風險?

1.2 實驗設置

圖片

RLHF工作流程為:(1)在偏好數據集上訓練代理獎勵模型;(2)評估代理獎勵模型與目標函數的誤差;(3)基于代理獎勵模型優化策略;(4)在測試集上評估策略效果。

圖片

1.3 實驗結果

1)準確率與策略損失的相關性分析

目前研究普遍通過在固定測試集上計算準確率來評估獎勵模型誤差。我們的實驗結果揭示了:獎勵模型的評估準確率與策略損失之間存在正相關關系,但即使具有相似準確率的模型,其優化得到的策略也可能表現出顯著不同的損失水平。通過計算準確率與NDR之間的相關性,我們發現準確率與策略損失確實存在正向關聯,但在相似準確率范圍內,策略損失可能出現較大波動。值得注意的是,在Best-of-N采樣方法中,準確率與策略損失的相關性普遍強于PPO算法,這符合預期,因為BoN是更局部化且穩定的優化算法。

圖片

2)提升準確率預測能力的優化策略

回復分布的影響 

我們構建了僅包含來自單一下游模型回復的測試數據集。發現回復的質量排序對相關性的影響比采樣模型更顯著。進一步分析不同質量區間的回復發現:BoN中,選用中等質量區間(排名5-10)正例和較低質量區間(排名15-20)負例能獲得更高相關性;PPO中,高質量區間(排名1-5)正例和中等質量區間(排名10-15)負例組合效果更好。

圖片

圖片

提示分布的影響 

通過RewardBench原有分類構建不同類別測試集,發現BoN設置下各類別的準確率與對應類別策略損失相關性更強。例如,Code類別相關性達到0.717。PPO設置中這種對應關系不明顯。使用不同改寫策略探索提示語義影響發現,BoN對提示表達變化敏感度較低,而PPO隨改寫比例增加相關性持續下降。

圖片

圖片

優化策略的探索 

為提升準確率的預測能力,我們首先探索了增加每個提示的回復數量(從2個增加到5個)的策略,并評估了不同評估指標的效果。實驗結果表明,在包含更多回復的數據集上,各類指標普遍實現了更高的相關性。其中相關系數表現最突出,在BoN和PPO設置下分別達到0.677和0.688。

圖片

我們進一步在不同約束條件下驗證這一策略:

  • 在固定樣本量情況下,增加回復數量比增加提示數量更有效,當樣本量較小時每個提示收集3-4個回復可獲得最佳性價比。

圖片

  • 考慮標注成本時,BoN設置下增加回復數量仍有優勢但收益遞減,而PPO設置下收益不顯著,這為實際應用中的數據收集策略提供了重要的成本效益參考。

圖片

3)獎勵模型誤差與策略損失的關系

圖片

圖片

圖片

通過分析不同獎勵模型組合的優化動態,我們發現即使具有相似準確率的模型對也可能表現出不同的過度優化現象,這表明僅依靠準確率可能無法充分預測潛在的過度優化風險,需要開發更全面的評估框架。

圖片

1.4 總結

研究發現,雖然獎勵模型的準確率與策略性能存在弱正相關關系,但具有相似準確率的獎勵模型可能產生表現差異顯著的策略,這表明單一準確率指標無法完整反映獎勵模型的實際效果。進一步研究表明,準確率的度量方式會顯著影響其對策略性能的預測能力。更重要的是,我們發現僅依靠準確率指標難以充分反映獎勵模型可能存在的過度優化現象。基于以上發現,我們建議在評估獎勵模型性能時采取更謹慎的態度,不應過分依賴準確率這一單一指標。同時,我們的研究凸顯了開發更全面、更可靠的獎勵模型評估方法的重要性,這對提升大語言模型的對齊效果具有重要意義。

02、構建可泛化的多模態RM

論文標題:

The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models

論文地址:

https://arxiv.org/abs/2503.03122

收錄情況:

ICML 2025

2.1 問題背景

隨著 LLMs 越來越多地以多模態的方式感知世界,例如處理圖像、文本和語音等多種類型的數據,多模態獎勵模型(Multimodal Reward Models, MM-RMs)應運而生,成為解決多模態任務中對齊問題的重要工具。盡管多模態獎勵模型在捕捉人類偏好上具有關鍵意義,關于其泛化能力的研究卻仍然處于空白。泛化能力是指模型在未見過的數據上保持性能的能力,這對于 MM-RMs 的實用性至關重要。如果一個 MM-RM 在訓練數據上表現良好,但在分布外(o.o.d.)數據上無法泛化,那么它可能會導致模型在實際應用中產生與人類意圖不一致的輸出,甚至出現獎勵黑客(Reward Hacking)的問題。因此,理解與提高 MM-RMs 的泛化能力對確保其在現實世界中的魯棒性而言至關重要。

我們發現了一個值得關注的現象:現有的 MM-RMs 在多模態數據的訓練過程中往往會過度依賴單模態的虛假關聯(Unimodal Spurious Correlations)。具體來說,這些模型傾向于學習純文本捷徑(Text-only Shortcuts),而忽視了視覺或其他模態的信息。這種現象在訓練數據中可能表現良好,但在分布外數據上則會失效,從而嚴重影響多模態獎勵模型的泛化能力。這一現象促使我們思考:如何衡量 MM-RMs 的泛化性能,并且量化單模態虛假關聯對其泛化表現的影響?我們能否建立更加有效的多模態獎勵模型構建方法,從而緩解 MM-RMs 中的單模態虛假關聯,進而提升其泛化性能?在本研究中,我們系統性地探討了上述問題,并提出了一種針對單模態虛假相關性的解決方案,構建了一個更具魯棒性的多模態獎勵建模框架。

2.2 泛化挑戰

圖片

在明確了多模態獎勵模型的泛化性能以后,我們進一步分析了純文本捷徑(Text-only Shortcuts)作為 MM-RMs 構建過程中一種不容忽視的虛假關聯,并得出一系列洞察性的見解。首先,現有的多模態偏好數據集不可避免地存在純文本捷徑,這些捷徑僅在其對應的分布中有效。具體來說,基于純文本訓練以及純文本測試的設置,我們得出了純文本獎勵模型(Text-only RM)的泛化矩陣(如圖1(b)所示)。與標準的多模態獎勵模型相比,Text-only RM 在所有數據的 i.i.d. 場景下實現了相當的準確率,然而卻在 o.o.d. 場景下嚴重失效。其次,即使在多模態偏好環境中進行訓練,MM-RMs 仍然會利用單模態虛假關聯。我們在訓練和測試過程中交替使用多模態和純文本模式,檢查獎勵模型在 i.i.d. 條件下的性能。我們發現即使在純文本測試中,在多模態偏好數據上訓練的模型仍然能夠實現相當的 i.i.d. 性能,這表明它們所學到的相關性中存在純文本捷徑。

圖片

為了系統地檢驗純文本捷徑對 MM-RMs 泛化能力的影響,我們提出了捷徑失效退化(Shortcut-Failure Degradation, SFD)指標,該指標量化了當單模態虛假相關性未能泛化到 o.o.d. 數據時 MM-RMs 的性能下降程度。我們觀察到,MM-RMs 的泛化能力受到單模態虛假相關性的嚴重限制。具體來說,在不同的分布外情景中,MM-RMs 的 SFD 值范圍從 14.2 到 57.5,平均值為 39.5。這表明 MM-RMs 的獎勵過程主要受純文本捷徑的支配,當這些捷徑未能泛化到 o.o.d. 數據時,尤其是在需要真正多模態理解的情景中,模型表現出顯著的性能下降。

圖片

2.3 方法介紹

基于對單模態虛假關聯的洞察,我們提出了一種更加魯棒的多模態獎勵模型學習算法,能夠在任何有偏數據集上學習可泛化的 MM-RM。具體來說,該方法的核心在于識別并突出單模態捷徑失效的場景,在此基礎上實現訓練分布的遷移。為了實現這一目標,我們在訓練階段提出了一個雙分支架構。每個分支都使用相同初始化的獎勵模型,但它們在模態處理上有所不同:主分支在標準的多模態偏好數據上進行訓練,作為我們的捷徑感知的多模態獎勵模型(Shortcut-aware MM-RM);輔助分支則在移除了圖像模態的偏好數據上進行訓練,作為純文本捷徑的代理。為了量化并利用這兩個分支之間的差異,我們引入了單模態虛假關聯系數(Shortcut-Failure Coefficient, SFC)。該指標從樣本層面衡量輔助分支(單模態捷徑代理)對總訓練目標損失的貢獻比例,從而表明單模態虛假相關性在多大程度上未能捕捉完整的偏好模式。基于單模態虛假關聯系數,我們將主分支的損失函數重新表述為捷徑感知(shortcut-aware)的形式,其中 SFC 值僅作為加權系數。

本質上,該訓練范式利用 SFC 值動態地重新加權訓練分布中的樣本:具有較高 SFC 值的樣本表明純文本分支難以建模偏好,這意味著多模態融合對于魯棒學習至關重要,因此會獲得更高的權重;相反,具有較低 SFC 值的樣本表明純文本分支可以輕松區分它們,從而獲得較低的權重。我們將這種加權機制視為一種適應性方法,將訓練數據分布轉向那些多模態理解至關重要的環境。在完成捷徑感知的模型訓練后,我們可以簡單地移除輔助分支,因為該分支僅在訓練期間作為純文本捷徑的代理。在推理階段,我們只需要部署主分支,這意味著推理過程與標準多模態獎勵模型完全相同,沒有任何額外開銷。

圖片

2.4 實驗結果

我們提出的捷徑感知的多模態獎勵模型(Shortcut-aware MM-RMs)在跨分布轉移測試中取得泛化性能的顯著提升,如圖1(c)所示。與標準多模態獎勵模型相比,Shortcut-aware MM-RMs 在六個 o.o.d. 場景下的平均準確率從 68.1 提高到 78.5。進一步地,我們分析了捷徑失效退化指標的變化。Shortcut-aware MM-RMs 在所有 o.o.d. 場景中均展現出穩健的魯棒性提升,與標準 MM-RMs 相比,SFD 值顯著降低。這表明捷徑感知模型較少依賴純文本捷徑進行獎勵評分,并且在單模態虛假關聯無法泛化的情景中能夠做出更準確的判斷。

圖片

我們進一步在下游任務中驗證模型的真實性能,采用最佳候選選擇(Best-of-N, BoN)策略。該過程涉及從 InternVL2-8B 為每對圖像-查詢生成 64 個候選回答,多個多模態獎勵模型隨后對這些候選回答進行評分,得分最高的回答被選中用于下游基準評估。Shortcut-aware MM-RMs 在所有基準測試中均展現出顯著的 Best-of-64 性能提升,突顯了該算法強大的泛化能力和實際應用價值。我們還發現,捷徑感知的多模態獎勵模型展現出了更好的可擴展性,在面對獎勵過度優化(Reward Overoptimization)時具有更強的魯棒性。

圖片


圖片

2.5 總結

本研究解決了多模態獎勵模型(MM-RMs)面臨的一個關鍵挑戰:單模態虛假關聯對其泛化能力的限制。我們的跨分布實驗揭示了 MM-RMs 在同分布(i.i.d.)和分布外(o.o.d.)情景之間的顯著性能差異。此外,我們發現即使在多模態訓練環境中,MM-RMs 仍然能夠利用多模態偏好數據集中存在的純文本捷徑,這對其泛化能力產生了負面影響。為了克服這一局限性,我們提出了一種捷徑感知(Shortcut-aware)的多模態獎勵模型學習算法,該算法通過動態識別并強調單模態捷徑失效的樣本,顯著增強了它們的泛化能力和實際應用的有效性。

03、從零構建中文獎勵模型

論文標題:

Cheems: A Practical Guidance for Building and Evaluating Chinese Reward Models from Scratch

論文地址:

https://arxiv.org/abs/2502.17173

收錄情況:

ACL 2025 Main

3.1 問題背景

隨著大語言模型快速發展,確保模型安全性、可靠性和價值觀一致性成為關鍵挑戰。模型可能產生有害內容、難以準確理解用戶意圖、在特定場景下表現不穩定。為應對這些挑戰,獎勵模型作為對齊優化的核心組件發揮關鍵作用,主要通過兩種方式:一是在訓練中提供獎勵信號指導參數優化,通過RLHF過程調整模型行為;二是在生成階段直接干預輸出,確保內容符合人類期望。然而,中文獎勵模型發展面臨顯著挑戰。首先是數據缺乏,缺少大規模、高質量的中文偏好數據集和評測基準。其次是標注質量問題,現有模型主要依賴AI合成數據,存在不一致性,難以準確反映真實人類偏好和文化差異。為解決這些問題,我們構建了CheemsBench全人工標注的中文評測基準和CheemsPreference大規模中文偏好數據集。這兩個數據集通過人工監督,能更準確地捕捉真實的人類價值觀,為中文獎勵模型發展提供重要支撐。

3.2 中文獎勵模型基準測試

為了全面評估中文獎勵模型的性能,我們構建了CheemsBench基準測試集。該基準具有兩個主要特點:一是覆蓋范圍廣,整合多樣化的提示和采樣模型,確保評估涵蓋各種場景;二是標注質量高,通過多輪人工三元比較和沖突解決算法,得出可靠的偏好排序。

圖片

提示收集方面,我們從多個開源數據集中采樣中文提示,包括Humaneval-XL(代碼生成)、MathOctopus(數學推理)、GAOKAO-Bench(高考題目)、HalluQA(幻覺檢測)等,并額外收集真實用戶指令用于分布外評估。最終從開源數據集選取1,146個提示,從人工指令選取1,346個提示。

回復收集方面,我們為每個提示從不同模型中采樣5個回復,采樣模型包括開源模型(Qwen2、LLaMA-3、InternLM2等)和閉源模型(GPT-4、GPT-3.5、Claude-3等),確保質量和分布多樣性。針對部分開源模型中文能力受限可能出現的亂碼,人工標注者會在標注過程中剔除無意義內容但保留不影響語義的輕微混雜。

數據標注依賴人工判斷以捕捉人類偏好。對于每個提示的5個回復,我們拆分為5個標注任務,每個任務包含對3個相鄰回復的偏好比較,由不同標注者獨立完成。為解決標注沖突問題,我們將標注結果轉換為有向偏好圖,使用深度優先搜索識別沖突并合并為更大節點,重復此過程直到無沖突,最后通過拓撲排序得到部分排序結果。

最后,在CheemsBench上,我們采用準確率和完全匹配率兩個指標全面評估獎勵模型性能。

3.3 中文偏好數據

為了支持中文獎勵模型訓練,我們構建了CheemsPreference偏好數據集。該數據集具有兩個主要特點:一是規模大且多樣化,包含2.7萬條真實人工指令,采用多層分類體系,每個提示從多個模型采樣多個回復;二是標注質量高,通過結合人工標注和GPT-4標注的遠程監督算法建立可靠的偏好排序。

圖片

指令收集方面,我們收集了27,861條真實人工指令,并開發了包含8個主要類別和數十個細分類別的全面分類體系,確保指令的多樣性和覆蓋面。

圖片


回復采樣方面,我們從廣泛的模型中采樣回復,包括開源模型(Qwen2/2.5系列、LLaMA-3系列、InternLM2、GLM4等)和閉源模型(GPT-4系列、Claude-3等)。為保證回復質量,我們實施基于規則的方法檢測異常長度或包含過多非中文符號的回復。雖然這種方法在數學或代碼相關提示時準確率可能較低,但我們優先考慮高召回率以過濾更多低質量回復。最終每個提示平均獲得5個以上回復。

偏好標注方面,考慮到人工標注成本高昂而GPT標注存在不一致性,我們采用了遠程監督策略。首先由人工標注者標注小規模數據子集,然后使用GPT-4o標注更大規模數據集,對N個回復進行成對比較,并隨機排列回復順序以減少位置偏差。接著使用在人工標注數據上訓練的獎勵模型過濾GPT標注,建立一致的偏好順序。最后采用長度去偏后處理策略,通過下采樣平衡數據集。

3.4 實驗結果

基準測試評估

我們在CheemsBench上評估了當前主流的獎勵模型,實驗結果揭示了幾個重要發現:首先,主流模型在中文場景下性能顯著下降,表明中文獎勵模型仍有很大提升空間;其次,模型在開源提示上的表現優于人工指令,因為人工指令更具分布外特性;第三,對于答案相對確定的提示,獎勵模型能更準確地評估回復質量,在"推理"類任務上表現較好,但在"理解"等其他類別上存在明顯不足。此外,我們評估了各種中英文偏好數據集的表現,結果顯示中文數據集中"活字"數據集表現最佳,英文數據集中"Ultrafeedback"領先,但整體而言中英文數據集之間存在明顯差距,凸顯了構建更好的中文偏好數據集的必要性。

圖片

圖片


圖片

下游任務相關性

為探究CheemsBench與下游任務的相關性,我們在人類勝率、MT-bench-zh和MT-bench三個任務上采用Best-of-32采樣策略進行驗證。實驗結果表明:一是我們的基準測試與下游任務表現出更強的相關性,在中英文任務中都得到驗證;二是GPT標注的基準測試顯示出次優的相關性,強調了人工判斷在實現更好下游任務泛化性方面的重要性。

圖片

數據集構建消融實驗

我們通過消融實驗評估了數據集構建策略的有效性,主要發現包括:一是單獨使用人工或GPT子集都不夠理想,GPT子集難以完全捕捉人類偏好,而人工子集由于規模限制影響分布外性能;二是長度去偏策略能提升性能;三是遠程監督策略顯著改善了性能,突顯了引入人工監督的重要性;四是結合所有策略能獲得最佳效果。

圖片

規模化趨勢

我們研究了數據量和模型規模對性能的影響,發現:一是隨著訓練數據量增加,獎勵模型在開源提示和人工指令子集上的性能都有提升,驗證了遠程監督方法的潛力;二是將模型規模從0.5B增加到72B能顯著提升性能,表明更大模型能更有效地捕捉復雜的偏好模式。此外,從預訓練模型或指令模型開始訓練并無顯著差異。

圖片


圖片

3.5 總結

本研究針對中文獎勵模型開發中的關鍵問題,提供了兩個重要貢獻:第一,我們構建了CheemsBench評測基準,這是一個全面的中文獎勵模型評估體系。第二,我們創建了CheemsPreference高質量中文偏好數據集,為模型訓練提供了可靠的數據基礎。基于這些資源,我們對中文獎勵模型的發展現狀進行了系統評估。結果顯示,盡管現有模型在部分任務上表現良好,但整體上仍存在較大改進空間。同時,我們的實驗證實了數據集構建中采用的遠程監督和長度去偏等策略確實有效。這項工作的意義在于:一方面縮小了中英文獎勵模型之間的性能差距,另一方面為后續研究提供了堅實基礎。通過開放這些研究資源,我們希望吸引更多研究者投入中文大模型對齊研究,共同推動該領域的進步。

04、生成獎勵模型Critic-Cot

論文標題:

Critic-CoT: Boosting the Reasoning Abilities of Large Language Model via Chain-of-Thought Critic

論文地址:

https://arxiv.org/pdf/2408.16326

收錄情況:

ACL 2025 Findings

4.1 問題背景

隨著大語言模型的快速發展,提升其推理能力成為實現更智能可靠AI系統的關鍵挑戰。從認知角度看,人類推理過程涉及持續的反思和修正,這啟發了在大語言模型推理過程中集成自我批判(self-critic)機制的研究。相比依賴外部反饋的傳統批判方法,自我批判僅依靠模型內部能力,能夠減少人工標注的高昂成本。然而,當前的自我批判方法面臨顯著挑戰。首先,現有批判方法過于簡化,通常僅依賴基礎提示來直接指出錯誤,缺乏逐步的思維鏈檢查或訓練過程,導致自我批判準確率相對較低。這些簡單方法往往類似于System-1的直觀"思考",而非更嚴格深思的System-2推理。其次,任務解決和自我批判能力都依賴于模型固有知識,但當前缺乏對這兩種能力在大語言模型內部關聯關系的深入探索,使得在自我批判框架內平衡這兩種能力變得困難。

4.2 Critic-CoT框架

為解決上述問題,本文提出了Critic-CoT框架,旨在將大語言模型的批判范式從類似System-1的直覺"思考"推向類似System-2的深思"推理"。該框架包含兩個核心模塊:基于弱監督的自動訓練和推理時的自我檢查。整體框架和具體例子如圖所示:

圖片

圖片

逐步思維鏈批判

采用逐步思維鏈批判方式,使批判-精化過程既可控又可形式化。給定問題和對應的黃金答案,將步嘗試表示為,相應的批判表示為,其中步驟標簽表示第步正確,表示錯誤。通過兩個核心假設自動標注過程標簽:(1)若最終答案錯誤,存在一個最早錯誤,通過精化可達到正確答案;(2)若最終答案正確,則所有中間步驟都正確。基于這些假設,系統能夠自動識別有效的批判-精化數據對。

兩階段自動訓練 

第一階段使用代表性指令跟隨模型采樣解決方案,利用GPT-4等先進模型作為批判模型,收集高質量批判數據構建模型基礎批判能力。此過程將教師模型的Pass1@N指標蒸餾到學生模型的Top1@N中。第二階段讓學到的批判模型批判和精化自己的輸出,進一步增強自我批判能力。結合兩階段數據訓練最終的批判模型。

推理 

推理階段采用兩種策略充分利用學到的批判和精化能力:

(1)迭代精化。由于單輪精化可能仍包含錯誤,采用迭代檢查機制,一旦批判發現錯誤就重新精化,直到批判認為可信或達到最大重試次數;

(2)批判過濾。結合自一致性方法,利用批判能力過濾掉預測錯誤的答案。對多個嘗試進行逐步標簽檢查,過濾出在某步檢測到錯誤的嘗試,最后對剩余結果進行多數投票。

該框架通過思維鏈批判實現了從System-1到System-2的轉變,不僅提高了批判準確性,還通過弱監督方法減少了對人工標注的依賴。

4.3 實驗結果

主要性能提升

在GSM8K數據集上,訓練模型的top-1準確率從89.6%提升至91.7%,迭代精化策略進一步提升至93.3%。結合批判過濾的Maj1@96方法達到最高準確率95.4%。在MATH數據集上:top-1準確率從51.0%提升至56.2%,迭代精化略微提升至56.6%,而批判過濾在Maj1@512上實現了從64.4%到66.4%的2.0%提升。

圖片

GSM8K上的結果

圖片

MATH上的結果

域外泛化能力

在StrategyQA和AGIEval數據集上的評估顯示,批判模型在其他領域表現出良好的泛化能力,通過迭代精化和批判過濾策略均獲得性能提升。

圖片

消融實驗分析

實驗驗證了逐步思維鏈批判的必要性,移除思維鏈中間輸出和逐步標簽會負面影響召回指標。兩階段訓練和批判-精化數據的結合對于提升模型性能都是必要的。

圖片

4.4 總結

本研究針對大語言模型自我批判能力的關鍵問題,提出了Critic-CoT框架,通過逐步思維鏈批判和弱監督數據構建,成功將模型的批判范式從System-1推向System-2。實驗證明該方法能夠有效提升模型在數學推理任務上的性能,更重要的是發現了批判能力與任務解決能力的相互促進關系。該框架通過弱監督方法顯著降低了對大量人工標注的依賴,同時在域外數據集上展現出良好的泛化能力,驗證了方法的魯棒性。本工作為未來自我批判框架的設計和大語言模型向System-2推理的轉變提供了重要啟示,有望推動該領域的進一步發展。

05、CodePMP

論文標題:

CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning

論文地址:

https://arxiv.org/abs/2410.02229

5.1 問題背景

在LLM(大語言模型)的對齊訓練中,盡管RLHF(基于人類反饋的強化學習)方法被證明是有效的,但它的效果依賴于RM(獎勵模型)的能力。然而,訓練RM需要高質量的偏好數據,在復雜推理領域(如數學和邏輯推理),這些數據的獲取成本高昂且標注困難。此類偏好數據不僅需要多樣化的prompt和響應,還需要準確的人類反饋。因此,提高復雜推理領域偏好數據的利用效率,即有限標注數據的情況下訓練出更強大的RM,具有重要意義。

幸運的是,GitHub上有大量公開的源代碼數據,經過篩選后可以獲得高質量且規模龐大的代碼片段。這些高質量代碼片段不僅數量可觀,而且具有豐富的多樣性,可以用來反向生成多樣化的code prompt(代碼描述)。此外,CodeLLM(代碼語言模型)已經得到了廣泛關注和發展,最先進的CodeLLM可以根據code prompt生成對應的代碼片段。基于此,提出了CodePMP方法——通過利用源代碼數據,合成大量、多樣的代碼偏好數據,實現可擴展的偏好模型預訓練,從而提高推理RM的微調樣本效率,并最終提升LLM在推理任務上的表現。

5.2 方法介紹

圖片

圖1 CodePMP方法圖

CodePMP方法的實現包括以下幾個步驟:

  1. 查詢生成:從GitHub中獲取高質量代碼片段,并生成相應的code prompt。
  2. 利用模型能力差異生成偏好數據:根據code prompt,分別使用強CodeLLM和弱CodeLLM生成對應的代碼片段,并將兩者組成 <chosen rejected> 偏好對。
  3. 損失函數設計:損失函數由兩部分組成:基于 <chosen rejected> 偏好對計算的偏好損失(Pairwise Ranking Loss)和基于chosen響應計算的語言建模損失(LM Loss)。
  4. 偏好預訓練:在此基礎上,利用大量代碼偏好數據對模型進行偏好預訓練,從而提升模型在下游推理RM微調的樣本效率。

偽代碼如下圖所示:

圖片

5.3 實驗結果

我們設計了一系列實驗來驗證CodePMP的效果,同時涵蓋了數學推理(GSM8K MATH)和邏輯推理。

1. RM準確率評測

在數學推理和邏輯推理任務中,通過衡量獎勵模型在區分測試集中chosen響應和rejected響應時的準確性,對比分別 經過CodePMP再微調RM 和 直接微調RM 的效果差別。實驗結果顯示,CodePMP給數學推理和邏輯推理的RM準確率帶來了顯著提升。

圖片

表1 RM準確率對比

2. Best-of-N(BoN)準確率評測

通過為每個問題生成多個候選答案,并讓RM選擇最佳答案。在數學推理上,在候選答案數量增加到256的情況下,經過CodePMP再微調的RM仍然保持高的BoN準確率,而不使用CodePMP而直接微調的RM的BoN準確率則顯著下降。在邏輯推理上,經過CodePMP再微調的RM也有著明顯的優勢。

圖片

圖2 數學領域Best-of-N準確率對比

圖片

圖3 推理領域Best-of-N(N=4)準確率對比

3. 樣本效率實驗

在不同微調樣本量下的模型效果對比。結果顯示,使用CodePMP預訓練的模型即使在微調樣本量較少的情況下,也能達到或超過不使用CodePMP模型在大樣本量下的表現,顯著提高了推理RM微調的的樣本效率。

圖片

圖4 不同微調樣本量下的模型Best-of-N準確率對比

4. 擴展性測試

分析了隨著合成數據的增多,CodePMP方法帶來的增益的變化趨勢。實驗表明,隨著合成偏好對數量的增加,模型在推理偏好任務中的表現持續提升,且未出現效果減弱的跡象,展示了CodePMP方法的高度擴展性。

圖片

圖5 經過不同規模數據的CodePMP后的模型Best-of-N準確率變化趨勢。虛線是不經過CodePMP直接進行RM微調的表現。

5.4 總結

CodePMP展示了一種可擴展、性價比高的新方法,極大地提升了LLM在推理偏好任務中的表現,并減少了對高質量人工標注數據的依賴。未來,我們還將探索如何將更多的監督信號引入到偏好預訓練中,進一步優化預訓練中的偏好建模。

06、自對齊幻覺緩解方法(self rewarding)

論文標題:

On-Policy Self-Alignment with Fine-grained Knowledge Feedback for Hallucination Mitigation

論文地址:

https://arxiv.org/pdf/2406.12221

收錄情況:

ACL 2025 Findings

6.1 問題背景

大語言模型在生成流暢合理回復的同時,偶爾會在回答中編造事實,這種現象被稱為幻覺。幻覺的核心問題是模型生成內容與其內部知識之間的不匹配。這種不匹配主要表現為三種類型:(1)誤導性回答:模型在其知識邊界內錯誤回答問題;(2)魯莽嘗試:模型對超出其知識范圍的查詢進行回答;(3)回避式無知:模型盡管擁有相關知識卻拒絕提供答案。現有的學習型方法面臨幾個關鍵挑戰:首先,由于離策略數據采樣導致分布偏移,產生次優模型;其次,粗粒度的實例級反饋無法精確定位幻覺,因為單個回答可能包含正確和錯誤的事實;最后,現有知識檢測技術可能產生不一致結果,無法準確反映模型的知識邊界。

6.2 RLFH框架

為解決上述問題,本文提出了強化學習幻覺緩解(RLFH)框架,這是一種在線策略自對齊方法,通過細粒度反饋實現幻覺緩解。該框架使大語言模型能夠通過細粒度的在線策略反饋主動探索自身知識邊界。其包含三個核心步驟:(1)從調優模型采樣回復;(2)策略作為判斷模型執行自評估收集細粒度知識反饋;(3)將語言形式反饋轉換為token級密集獎勵用于強化學習。

圖片

策略作為判斷者的細粒度反饋

RLFH的核心創新是讓策略作為自己的判斷者,在語句級別提供關于真實性和信息量的細粒度反饋。

其包含如下三個步驟:

  1. 語句提取:策略模型首先將回復分解為原子事實語句。采用層次化方法,先將回答分解為句子,再從每個句子中提取有效的事實性語句。

  2. 事實驗證:策略模型通過與外部知識源比較來評估提取的事實性語句的真實性。每個語句被分類為:(1)正確:有證據支持的正確語句;(2)含糊正確:具有不確定性的準確語句;(3)模糊:真實性不確定的語句;(4)含糊錯誤:具有不確定性的錯誤語句;(5)錯誤:被證據否定的語句。

  3. 信息量評估:策略模型進一步評估語句的信息量,采用五分制評分,從提供關鍵信息(+5)到包含最少相關細節(+1)。

基于token級獎勵的在線策略優化

圖片

RLFH通過層次化結構和最長公共子序列算法將語句級評估映射回原始回答的token序列,為每個token分配相應的獎勵值。

其中真實性獎勵計算方式為,其中函數對正確語句給予正獎勵,對錯誤語句給予負獎勵;函數根據信息量調整獎勵重要性;為平衡系數。

而信息量獎勵計算方式為

其中為句子中語句總數,和構成最小獎勵閾值,為信息量系數。對數函數確保獎勵隨語句數量和信息量增加,但增長率遞減。

最后以上信息會通過最長公共子序列算法映射回原回復的token,將獎勵值分配給對應的token位置,實現精確的token級反饋優化。

在線強化學習

在得到精確的獎勵信號以后,即可使用近端策略優化(PPO)算法,通過最大化獎勵期望來優化策略模型。

6.3 實驗結果

主要實驗

在HotpotQA、SQuADv2和Biography三個數據集上進行了全面評估,使用FactScore管道進行評估。實驗結果顯示,RLFH在所有數據集上都獲得了最高的FactScore,證明了該方法在幻覺緩解方面的顯著有效性。特別值得注意的是,盡管只在HotpotQA數據集上訓練,該算法在兩個域外數據集上都表現出改進的準確性,展現了良好的泛化能力。

圖片

圖片

訓練后的模型呈現出保守但準確的特點:回復比例有所下降但FactScore更高,在其能力范圍內提供更準確的信息。上圖比較了基礎模型和RLFH調優模型的語句準確性與數量分布,顯示聯合分布向右下方向移動,表明模型生成回復更加保守但提高了信息可靠性。

詳細分析結果

通過對不同真實性類別語句分布的分析發現,RLFH有效減少了錯誤和不可驗證的語句。以下分別展示了正確語句、模糊語句和錯誤語句的分布變化。

圖片

進一步的,下圖顯示RLFH顯著增加了高準確性回復的比例,減少了低準確性回復,特別是準確性超過0.7的回復有顯著增加。同時,信息量分析表明模型在訓練后能夠提供更有價值的信息,下圖顯示回復分布向更高信息量方向移動,表明模型的回復通常在訓練后提供更關鍵的信息,證明了該方法不僅提高了準確性,還保持了信息的有用性。

圖片

圖片

消融實驗

為了深入理解RLFH各組件的貢獻,進行了詳細的消融實驗分析。首先探究了獎勵粒度對模型性能的影響,比較了響應級、句子級和語句級三種不同粒度的獎勵信號。如下表所示,語句級獎勵在所有設置中始終獲得最高的FactScore,證明了細粒度反饋的重要性。這一結果表明,越精細的反饋信號越能幫助模型準確識別和糾正特定的錯誤內容。關于判斷模型的選擇,實驗比較了在線策略設置與多種固定外部判斷模型的效果。實驗結果表明,讓策略模型作為自己的判斷者(在線策略方法)表現最優,同時消除了訓練過程中對額外獎勵模型的需求。這一發現不僅驗證了自對齊方法的有效性,還顯著降低了實際部署的復雜性和資源消耗。

圖片

圖片

6.4 總結

本研究提出了RLFH,一種創新的在線策略自對齊方法,通過構建自評估框架讓大語言模型主動探索知識邊界并自我糾正幻覺行為。該方法的核心創新是策略模型作為自己的判斷者,通過原子事實驗證自動提供細粒度反饋,生成token級密集獎勵信號用于在線強化學習優化,從而消除了對外部獎勵模型的依賴。實驗結果表明,該方法在多個基準數據集上顯著提升了模型的事實準確性,為開發更可靠和自我感知的語言模型提供了重要基礎,有助于減輕錯誤信息傳播并保障模型在現實應用中的安全部署。

07、作者簡介

溫學儒

小紅書 hi lab 團隊算法實習生,現就讀于中國科學院軟件研究所中文信息處理實驗室;主要研究方向為大語言模型對齊。

李梓超

小紅書 hi lab 團隊算法實習生,現就讀于中國科學院軟件研究所中文信息處理實驗室;主要研究方向為大語言模型對齊、多模態對齊。

魚匯沐

小紅書 hi lab 團隊算法實習生,現就讀于中國科學院信息工程研究所,主要研究方向為大語言模型對齊和數據合成。

時墨

小紅書 hi lab 團隊算法工程師,主要研究方向為大語言模型對齊。

乘風

小紅書 hi lab 團隊算法工程師,主要研究方向為大語言模型預訓練和對齊。

連軒

小紅書 hi lab 團隊算法工程師,主要研究方向為大語言模型對齊。

責任編輯:龐桂玉 來源: 小紅書技術FEDtech
相關推薦

2025-06-10 05:00:00

2024-07-19 08:34:18

2025-06-10 03:30:00

2017-12-21 07:54:07

2015-08-20 10:34:25

2011-07-13 09:13:56

Android設計

2022-07-19 16:03:14

KubernetesLinux

2013-04-07 10:40:55

前端框架前端

2009-06-18 09:51:25

Java繼承

2020-11-30 13:33:25

Python平臺類游戲編程語言

2024-10-10 08:19:50

2012-09-25 10:03:56

JavaJava封面Java開發

2025-02-21 10:34:49

2021-06-04 07:27:24

sourcemap前端技術

2017-12-07 15:34:57

數據庫MySQL優化原理

2023-10-31 12:58:00

TypeScriptJavaScript

2021-03-16 08:21:29

Spark系統并行

2011-03-11 09:27:11

Java性能監控

2015-12-04 10:04:53

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成年网站在线观看 | 成人毛片视频免费 | 久操伊人 | 大伊人久久| 日本不卡在线视频 | 久久久久久久一级 | 亚洲精品视频在线播放 | 亚洲欧美日韩中文在线 | 男人天堂99 | 99精品欧美一区二区蜜桃免费 | 久久免费视频1 | 亚洲精品在线免费看 | 亚洲大片 | 日韩欧美在线观看视频网站 | 国产精品久久久久一区二区三区 | 日日夜夜精品免费视频 | 精品国产一区二区三区性色av | 精品日韩| 亚洲 欧美 另类 综合 偷拍 | 天天操天天摸天天爽 | a毛片| 欧美日韩精品一区 | av中文字幕在线 | 密色视频 | 日本在线播放一区二区 | 一区在线观看 | 伊人精品在线 | 丁香综合 | 免费一区二区三区 | 欧美一区二 | 四虎影视免费观看 | 亚洲精品一区中文字幕乱码 | 欧美日韩三级在线观看 | 久久久久久亚洲 | 老司机久久| 国产视频2021 | 中文字幕亚洲欧美日韩在线不卡 | 91精品国产一区 | 一级黄色录像片子 | 狠狠的操| 99爱在线|