無需數據標注:RLSC 如何用“自我信心”優化語言模型
大家好,我是肆〇柒。當下,大型語言模型(LLM)如 ChatGPT、Qwen 等展現出了卓越的推理能力,能夠在多種任務中提供高質量的解決方案。然而,盡管這些模型具有強大的基礎能力,但要使其行為與特定任務目標精準對齊,后訓練優化仍然是不可或缺的關鍵步驟。現有的強化學習(RL)方法,如 RLHF(Reinforcement Learning from Human Feedback)、TTRL(Test-Time Reinforcement Learning)等,往往依賴于昂貴的人工標注數據或復雜的外部獎勵模型,這不僅增加了成本,還限制了它們的廣泛應用。
為突破這一瓶頸,RLSC(Reinforcement Learning via Self-Confidence)被 Airi 與 Skoltech Moscow 的研究人員提出。作為一種創新的強化學習微調方法,RLSC 是利用模型自身對輸出的信心作為獎勵信號,無需借助外部標簽、偏好模型或繁瑣的手動獎勵設計,為 LLM 的優化開辟了一條高效、低成本的新路徑。這一方法在論文《CONFIDENCE IS ALL YOU NEED: FEW-SHOT RL FINE-TUNING OF LANGUAGE MODELS》中得到了詳細闡述,下面我們一起來了解一下。
為啥提出 RLSC 方法
在探索 LLM 優化方法的過程中,研究者們發現現有 RL 方法存在諸多局限。以 TTRL 為例,它需要為每個問題生成大量樣本(通常至少 64 個),并依賴多數投票機制生成偽標簽。雖然這種方法能在一定程度上提升模型性能,但其計算開銷極為龐大,且對數據預處理要求極高,需要清晰分離答案與推理痕跡,這在實際應用中往往難以實現。
鑒于此,RLSC 的提出動機便是尋找一種更高效、更經濟的微調方案。它直接利用模型自身的內部信息,摒棄對外部監督的依賴,從而在保證性能提升的同時,大幅降低成本與資源消耗,使微調過程更加簡潔、靈活,便于在不同場景和資源約束下應用。
通過增強“自信心”實現強化學習的工作流程圖
上圖展示了 RLSC 方法的工作流程,通過自我信心的強化來優化模型的輸出分布,使模型在訓練過程中逐漸集中于高置信度的答案。
RLSC 的理論基礎
RLSC 的核心思想聚焦于模型輸出分布的眾數銳化。也就是在模型針對同一問題生成的多個樣本中,通過優化使輸出更傾向于集中在最可能正確的答案上。其背后的原理在于:當兩個獨立樣本的輸出相同時,模型對這一輸出的信心最強。因此,最大化這種相同輸出概率的期望,就能提升模型對正確答案的確定性。
這一公式可以提升模型對同一問題不同樣本輸出一致性的概率,從而增強其對正確答案的信心。例如,在一個簡單的文本分類任務中,若模型對某段文本屬于 “正面情感” 類別的判斷輸出分布較為分散,經過 RLSC 優化后,其輸出將更傾向于集中在 “正面情感” 這一正確答案上,概率值顯著提高,體現出更強的自信。
訓練前后的概率分布
如上圖所示,經過 RLSC 優化后,模型的輸出概率分布更加集中于高置信度的答案,從而顯著提升了模型的推理能力和穩定性。
RLSC 的損失函數與梯度計算
平滑項 α 的引入是為了應對 Pold 出現高度尖銳或稀疏分布的情況。當 α 取較小正值(如 0.1)時,它能有效穩定優化過程,提升模型收斂的平穩性與泛化能力。以圖像分類任務中的長尾分布問題類比,某些類別樣本極少,模型對其初始判斷可能極為不自信,分布稀疏且不均勻。此時,α 的加入相當于給這些小概率類別輸出提供了一定的基礎權重,使模型在更新時不會過度忽略它們,從而有助于整體性能的均衡提升。
在梯度計算方面,通過對損失函數求梯度并利用反向傳播算法,即可實現模型參數 θ 的更新。具體推導中,借助 log-trick 技巧,將梯度表達式轉化為易于計算的形式,從而高效地指導模型優化方向。
損失函數的適用場景與選擇策略
在實際應用中,選擇合適的損失函數至關重要。當模型的輸出分布較為均勻,即各個可能輸出的概率相對接近時,L1 損失函數能夠有效地引導模型逐漸集中注意力于高置信度的輸出上。然而,在模型輸出分布已經較為尖銳,即存在少數高概率輸出的情況下,L2 損失函數的優勢便凸顯出來。平滑項 α 可以防止模型過于自信于當前的輸出分布,避免陷入局部最優,同時有助于提升模型對未見過樣本的泛化能力。
例如,在對 Qwen2.5-Math-7B 模型進行微調時,若初始階段模型對數學問題的答案輸出呈現多樣化且無明顯主導答案,此時采用 L1 損失函數能夠快速篩選出潛在的正確答案方向。隨著訓練的推進,當模型逐漸傾向于某些特定答案但尚未完全穩定時,切換至 L2 損失函數,并結合適當的 α 值(如 0.1),可進一步精細化模型的輸出分布,增強其對正確答案的穩定性。
log-trick 技巧的深入解析
log-trick 技巧是 RLSC 梯度計算中的關鍵環節。其核心思想在于將期望梯度的計算轉換為更易處理的形式。根據期望的性質:
而通過引入對數概率,可以巧妙地將梯度計算與模型的生成過程相結合:
這一轉換在數學上更加優雅,而且在實際計算中具有顯著優勢。首先,它將梯度計算轉化為對模型輸出概率的簡單加權求和,避免了直接對高維概率分布進行復雜求導。其次,利用對數概率的形式,能夠更有效地利用自動微分工具進行計算,在深度學習框架中實現高效的梯度傳播。
以一個簡單的文本生成任務為例,假設模型需要生成單詞序列作為答案。在計算梯度時,對于每個可能的單詞輸出,只需獲取其對數概率以及對應的梯度信息,然后通過加權求和的方式即可得到整體梯度。這一過程提高了計算效率,還增強了數值穩定性,避免了直接操作概率值可能導致的下溢或上溢問題。
RLSC 的訓練設置
在實際應用 RLSC 進行微調時,以 Qwen2.5-Math-7B 模型為例,訓練過程如下:首先,采用基礎模型為每個訓練樣本生成 16 個候選完成,生成溫度固定,確保多樣性與穩定性兼具。這些樣本被視為從舊模型分布 Pold 中獨立抽取的樣本點。
接下來,對于每個生成樣本,計算其在更新后模型 下的對數概率。通過對比不同樣本的對數概率,結合損失函數(L1 或 L2),評估當前模型參數的優劣。隨后,利用標準的自回歸解碼和訓練流程,包括對問題和答案對的標記化處理、應用助手掩碼鎖定答案標記、計算掩碼標記的對數概率之和以獲取響應的對數似然度等步驟,精準計算損失值并反向傳播更新模型參數。
整個訓練過程僅在 AIME2024 數據集上進行 10 或 20 步迭代,借助 8 塊 NVIDIA A100 GPU(80GB)的強大算力,并采用 AdamW 優化器,設置學習率為 1X10-5,配合常規權重衰減策略,生成序列長度上限為 3072 token。在這一輕量化、高效的訓練設置下,無需輔助數據集、指令調優或偏好模型,即可實現零標簽的強化學習微調,充分挖掘模型潛力。
RLSC 方法
上述算法展示了 RLSC 方法在 LLM 中的具體實現步驟,通過生成樣本、計算概率和更新模型參數來實現自我信心的強化。
實驗與結果
實驗設置
為全面評估 RLSC 的性能,研究者們選用了多個極具挑戰性的基準數據集,涵蓋數學推理任務,如 AIME2024、MATH500、AMC23、GSM8K,以及 GPQADiamond 問答基準等。這些數據集涵蓋了從基礎數學問題到復雜科學問題的廣泛領域,能夠充分檢驗模型在不同場景下的推理與泛化能力。
在評估指標方面,采用準確率(Acc)作為核心衡量標準,其定義為正確回答樣本數與總評估樣本數的比值。同時,也計算 Pass@1 分數,即綜合考慮多個可能答案后,模型正確回答的概率。這些指標從不同角度反映了模型的實際性能,確保評估結果的全面性與客觀性。
實驗結果對比
實驗結果顯示,RLSC 調優后的模型在各項基準測試中均取得了顯著的性能提升。以下是在不同數據集上的提升情況:
- AIME2024:從 13.3% 提升至 26.7%(+13.4%)
- MATH500:從 51.4% 提升至 72.6%(+21.2%)
- AMC23:從 45.0% 提升至 54.7%(+9.7%)
- GPQA:從 21.4% 提升至 24.1%(+2.7%)
- Olympiadbench:從 15.1% 提升至 35.9%(+20.8%)
- Minerva Math:從 10.7% 提升至 32.4%(+21.7%)
- MMLU Stem:從 52.3% 提升至 57.6%(+5.3%)
基線版本的Qwen2.5模型及其經過RLSC調整的變體在推理基準測試中的準確率
上表直觀地展示了 RLSC 調優前后模型在各個基準測試上的準確率對比,突出了 RLSC 在多個數據集上取得的顯著提升。
結果分析
RLSC 取得如此優異成果的關鍵在于其獨特的自我信心強化機制。通過直接利用模型自身的輸出分布信息,無需外部監督,便能精準地引導模型優化方向。這種內在驅動的優化方式使模型在學習過程中更加聚焦于高頻正確答案,不斷增強對這些答案的信心,從而在實際推理任務中能夠更穩定、更準確地輸出正確結果。
尤其值得一提的是,RLSC 的高效性使其在資源受限環境下表現出色。相較于依賴大規模數據和算力的微調方法,RLSC 僅需極少量的訓練樣本和計算步驟即可達成顯著性能提升,這對于在邊緣設備或計算資源有限場景中部署 LLM 具有重要意義,極大地拓展了其應用場景和實用價值。
案例分析與效果展示
案例 1:AIME2024 數學問題求解
在 AIME2024 數學問題中,給定分段函數 f(x),要求找出使得 y = f(x) 圖像與水平線 y = 2017 至少相交兩次的最小 a 值。原始 Qwen2.5-Math-7B 模型在解答時陷入了復雜的符號推導,最終得出了錯誤答案 。而經過 RLSC 調優后的模型則展現出截然不同的推理過程。
它首先對函數 f(x) 的兩部分分別進行分析:對于 x ≥ a 時的 ax2,確定其取值范圍為 [a3, ∞);對于 x < a 時的 ax + 2a,明確其取值范圍為 (?∞, a2 + 2a)。為了滿足圖像與水平線 y = 2017 至少相交兩次的條件,這兩個范圍必須存在重疊,即 a3 ≤ a2 + 2a。通過巧妙地變形和因式分解該不等式,得到 a(a ? 2)(a + 1) ≤ 0,進而求得滿足條件的 a 的區間為 (?∞, ?1] ∪ [0, 2]。由于題目要求最小的 a 值,模型精準地得出 a 的最大可能值為 2,這一結果,邏輯嚴謹、條理清晰,并且正確。
為了進一步驗證答案的正確性,調優后的模型還提供了 Python 代碼實現,通過編程計算再次確認了理論推導的準確性。這一案例生動地體現了 RLSC 在優化模型推理能力方面的顯著效果,使其能夠避開原始模型的冗長錯誤路徑,直接、準確地抵達正確答案。
案例 1:模型輸出結果的比較
上面這個用例展示了 RLSC 調優前后模型在 AIME2024 數學問題上的輸出對比,突出了調優后模型的準確性和邏輯性。
案例 2:幾何問題求解
在求解兩點 (2, ?6) 和 (?4, 3) 間距離的幾何問題中,原始模型僅給出了錯誤答案 10,未提供任何有效的推理過程。相比之下,RLSC 調優后的模型則詳細地展示了正確的解題步驟。
這一案例凸顯了 RLSC 在提升模型幾何問題求解能力方面的優勢,使其能夠正確運用公式進行計算,并以清晰的邏輯呈現完整的推理過程,避免了原始模型的盲目猜測和錯誤輸出。
案例 2: 模型輸出結果的比較
上面這個用例展示了 RLSC 調優前后模型在幾何問題上的輸出對比,突出了調優后模型的正確性和詳細推理過程。
案例 3:AIME 風格博弈論問題求解
面對一個典型的 AIME 風格博弈論問題,即 Alice 和 Bob 輪流取令牌的游戲,要求找出在 n ≤ 2024 的正整數中,Bob 有必勝策略的 n 的數量。RLSC 調優后的模型展現了卓越的復雜問題求解能力。
它首先定義了游戲中的位置狀態為 “獲勝態” 或 “失敗態”,并引入函數 f(n) 來描述這一狀態關系。根據游戲規則,遞推地構建了 f(n) 的邏輯表達式,即若 n ? 1 或 n ? 4 為失敗態,則當前 n 為獲勝態,否則為失敗態。通過迭代計算所有 1 ≤ n ≤ 2024 的狀態,模型精準地統計出失敗態的數量為 809,這直接對應了 Bob 能夠必勝的 n 的數量。
為確保結果的準確性,模型還提供了相應的 Python 驗證代碼,通過動態規劃的方法重新計算并驗證了這一結果。這一案例充分展示了 RLSC 在處理復雜博弈論問題時的推理深度和精確性,能夠將實際問題轉化為數學模型,并高效求解,體現了其在多領域問題求解中的強大適應性。
模型輸出(正確答案):Qwen2.5在AIME風格的博弈論問題上的表現
上面展示了 RLSC 調優后模型在 AIME 風格博弈論問題上的正確輸出,體現了其在復雜問題求解中的優勢。
案例 4:對數方程組求解問題
在一個涉及對數方程組的數學問題中,要求求解未知數 x、y、z 滿足的對數關系,并最終得到表達式 log?(x?y3z2) 的值。RLSC 調優后的模型靈活地運用對數性質,將原始方程組巧妙地轉化為線性方程組。
通過變量替換 a = log?(x)、b = log?(y)、c = log?(z),模型將復雜的對數方程組簡化為線性方程組:
接著,通過對方程組進行整體求和,得出 a + b + c = ?13/12。再分別求解各變量,得到 a = ?7/24、b = ?3/8、c = ?5/12。最終,模型代入這些值計算目標表達式,得出 log?(x?y3z2) = 4a + 3b + 2c = ?25/8,即其絕對值為 25/8,因此 m = 25、n = 8,m + n = 33。
整個推理過程邏輯嚴密、步驟清晰,從對數方程組的轉換到線性方程組的求解,再到最終結果的代入計算,環環相扣,毫無破綻。這一案例再次印證了 RLSC 在優化模型數學問題求解能力方面的顯著成效,使其能夠精準地處理復雜的對數運算和方程求解任務,為解決各類數學難題提供了可靠的保障。
模型輸出(正確答案),Qwen2.5-Math-7B帶強化學習自我糾正
上面展示了 RLSC 調優后模型在對數方程組求解問題上的正確輸出,體現了其在數學問題求解中的精確性和邏輯性。
與同類工作的比較
強化學習在推理任務中的應用
強化學習在提升 LLM 推理能力方面發揮了至關重要的作用。眾多前沿模型紛紛借助強化學習的力量來增強自身的推理技能。例如,DeepSeek-R1 通過分解復雜問題為多個中間步驟,并在每一步都進行深度思考與權衡,從而有效提升了模型的推理深度和準確性;ChatGPT 憑借其強大的語言理解和生成能力,在與用戶的交互過程中不斷學習和優化推理策略,能夠針對不同領域的問題給出合理且具有邏輯性的回答;QwQ 則專注于特定領域的推理任務,通過強化學習精細調優模型參數,使其在專業領域內展現出卓越的推理性能。
這些模型的共同點在于,它們都借助強化學習的框架,以不同的方式激勵模型探索更優的推理路徑,從而在復雜任務中取得突破。然而,它們大多依賴于外部的獎勵信號或大量的標注數據來指導學習過程,這在一定程度上限制了強化學習在推理任務中的廣泛應用,特別是在資源受限或難以獲取高質量標注數據的場景中。
基于人類反饋的強化學習(RLHF)
RLHF 作為一種經典的強化學習方法,其核心在于利用人類標注的數據或偏好模型來生成獎勵信號,進而引導模型行為與人類偏好相匹配。具體來說,RLHF 通常需要收集大量人類對模型生成結果的評價數據,如評分、排名等,然后訓練一個獎勵模型來預測人類對不同回答的偏好程度。在模型訓練過程中,將這個獎勵模型的輸出作為強化學習的獎勵信號,指導模型優化策略,使模型生成的回答更符合人類的期望。
然而,RLHF 的局限性也十分明顯。因為獲取人類標注數據的成本極高,這需要耗費大量的人力和時間,還可能受到標注者主觀因素的影響,導致標注數據的不一致性。另外,訓練獎勵模型本身也是一個復雜的任務,需要大量的計算資源和專業的數據處理技巧。此外,由于依賴于人類標注的靜態數據,RLHF 在面對新領域或新任務時,往往需要重新收集數據和訓練獎勵模型,缺乏靈活性和適應性。
可驗證獎勵的強化學習(RLVR)
RLVR 則另辟蹊徑,試圖擺脫對人工標注的依賴。它的核心思想是僅基于問題 - 答案對本身來計算可驗證的獎勵。例如,在數學問題求解中,可以通過將模型生成的答案與已知的正確答案進行比較,從而確定獎勵值。這種方法的優勢在于,無需額外的標注數據,只要問題本身具有明確的驗證標準,就能為模型提供即時的反饋信號。
盡管如此,RLVR 也存在一些局限。它要求問題具有明確且易于驗證的正確答案,這在許多實際場景中并不總是滿足,例如開放性問題、創造性任務等。其次,對于一些需要評估中間推理過程質量的任務,RLVR 難以提供有效的獎勵信號,因為它僅關注最終答案的正確性。此外,RLVR 仍然需要一定量的人工標注的問答對來進行初始的模型訓練和驗證,這在一定程度上限制了其完全擺脫人工干預的可能性。
測試時訓練(TTT)方法
TTT 作為強化學習領域的新興方向,聚焦于在模型推理階段進行實時優化。其中,SelfPlay Critic(SPC)和 Absolute Zero Reasoner(AZR)等方法借鑒了博弈論中的對抗學習思想。在 SPC 中,兩個模型相互對抗:一個模型負責生成可能的推理步驟或答案,另一個模型則扮演 “批評者” 角色,試圖找出其中的錯誤或薄弱環節。通過這種對抗訓練,兩個模型相互促進、共同提升。AZR 則進一步強化了這種對抗機制,使模型能夠在零樣本條件下通過自我博弈和推理,逐步構建對問題的理解和解決方案。
Test-Time Reinforcement Learning(TTRL)同樣是 TTT 領域的重要代表。它通過為每個問題生成多個候選回答,并采用多數投票機制來確定偽標簽,從而為模型更新提供獎勵信號。這種基于投票的偽標簽生成方法能夠在一定程度上減少錯誤標簽對模型訓練的影響,提高模型的魯棒性。然而,TTRL 的不足之處在于需要為每個問題生成大量的樣本(如 64 個),導致計算開銷巨大,難以在實際應用中大規模推廣,尤其對于大規模語言模型和復雜的任務來說,其計算成本更是令人望而卻步。
分析對比
RLSC 與 RLHF、RLVR、TTT 等方法的對比如下表所示:
方法 | 原理 | 依賴資源 | 優點 | 缺點 |
RLHF | 基于人類標注數據或偏好模型生成獎勵信號 | 大量人工標注數據、偏好模型訓練 | 能有效使模型行為與人類偏好一致 | 依賴人工標注,成本高、靈活性差 |
RLVR | 僅基于問題 - 答案對計算可驗證獎勵 | 問題的驗證標準、少量標注問答對 | 無需大量標注數據,降低成本 | 適用于有限場景,對問題答案可驗證性要求高 |
TTT(如 SPC、AZR) | 利用對抗學習或自我博弈在推理階段優化模型 | 可能需要外部工具(如代碼執行器)提供反饋 | 擺脫對人工監督的依賴,提升模型推理能力 | 部分方法依賴外部工具,增加系統復雜性 |
TTRL | 通過多數投票生成偽標簽進行強化學習 | 大量樣本生成(如 64 個 / 問題) | 無需人工監督,提高模型魯棒性 | 計算開銷大,難以大規模應用 |
RLSC | 利用模型自身輸出分布的眾數銳化,最大化自我信心 | 無需標注數據、偏好模型或大量樣本 | 高效、低成本,適用于資源受限環境 | 可能在某些需要多樣化輸出的任務中表現欠佳 |
上表對比可以看出,RLSC 在擺脫外部依賴、降低成本和提高效率方面具有顯著優勢,為 LLM 的微調提供了一種全新的思路。它巧妙地利用模型自身的內部信息,避免了復雜的數據標注流程和大規模的樣本生成,使得強化學習微調更加簡潔、高效,易于在各種場景下實施。
總結認知
RLSC 方法,其核心貢獻在于提出了一種無需依賴外部標簽、偏好模型或手動設計獎勵信號的強化學習微調框架。通過巧妙地利用模型自身對輸出的信心作為內在獎勵信號,RLSC 實現了在極少量訓練數據和低計算成本下對模型性能的顯著提升,為 LLM 的優化提供了一種高效、經濟且實用的新途徑。
在多個權威基準數據集上的實驗結果有力地證明了 RLSC 的有效性。它在數學推理等復雜任務中取得了性能提升,還展現出了強大的泛化能力和適應性。尤其是在資源受限的環境中,RLSC 憑借其輕量級的訓練設置和對計算資源的低需求,展現了巨大的應用潛力,有望使更多研究者和開發者能夠輕松地對 LLM 進行優化和定制。
RLSC 的創新性
RLSC 的創新性則主要體現在以下幾個關鍵方面:
1. 自我信心驅動的優化機制 :首次將模型自身對輸出的信心轉化為強化學習的獎勵信號,開創性地實現了完全基于模型內部信息的自我監督學習模式。這一機制摒棄了傳統方法對外部監督數據的依賴,從根本上降低了數據獲取和處理成本,簡化了微調流程。
2. 眾數銳化的理論突破 :通過深入分析多數投票機制的本質,首次從理論上揭示了其與模型輸出分布眾數銳化的內在聯系,并將其轉化為可微分的優化目標。這種基于數學推導的創新方法為 RLSC 提供了堅實的理論基礎,還為未來類似方法的研究提供了新的思路和方向。
3. 高效的訓練策略 :設計了簡潔高效的訓練策略,僅需少量樣本和訓練步驟即可實現顯著性能提升。例如,在 Qwen2.5-Math-7B 模型上,僅使用 16 個樣本和 10 至 20 步訓練,即可在多個基準測試中取得超過 10% 至 20% 的準確率提升。這種高效的訓練方式極大地提高了微調的可行性和實用性,特別適用于計算資源有限的場景。
RLSC 的局限性
盡管 RLSC 具備諸多優勢,但其也存在一些局限性。例如,在某些需要高度多樣化輸出的任務中,RLSC 可能會因為過度追求輸出一致性而導致模型生成結果的多樣性不足。此外,對于一些數據分布極為特殊或噪聲較大的任務,RLSC 的自我信心強化機制可能需要進一步調整和優化才能發揮最佳效果。
針對這些局限性,未來可以嘗試以下下幾個方面:
- 增強輸出多樣性 :探索在 RLSC 框架中引入多樣性正則化項或采用多模態分布建模的方法,使模型在保持高置信度的同時,能夠生成 更加豐富多樣的輸出結果,滿足不同任務對多樣性的需求。
- 適應復雜數據分布 :研究如何結合數據增強技術或自適應學習策略,提升 RLSC 在面對復雜、噪聲數據時的魯棒性和適應性。例如,通過在訓練過程中動態調整平滑項 α 或采用數據驅動的采樣策略,使模型能夠更好地應對不同類型的分布變化。
- 與其他方法的融合 :進一步探索 RLSC 與現有其他強化學習方法(如 RLHF、TTT 等)的融合方式,充分發揮各自的優勢,實現更強大的模型優化效果。例如,在 RLSC 的基礎上,結合少量人工標注數據進行微調,或與其他測試時訓練方法聯合使用,以進一步提升模型性能。
綜上,RLSC 作為一種創新的強化學習微調方法,憑借其獨特的自我信心驅動機制和高效的訓練策略,在 LLM 的優化領域展現出巨大的應用潛力。傳統的強化學習方法往往讓人聯想到復雜的標注流程、龐大的計算資源需求以及繁瑣的外部模型依賴。RLSC 通過利用模型對輸出的信心,RLSC 讓模型在自我反思和自我強化中實現成長,這種內在驅動的優化方式既優雅,又具有創新性。
RLSC 給我的感覺有點像再次強化特定任務目標的概率分布,它應該是進一步放大了特定任務的先驗概率,使模型的輸出更穩健。甚至,這個方法還激發了我對 inference-time 時 Agent 采樣的思考,通過 Repeat 采樣,其實也可以實現類似的效果,當然這會消耗 inference-time 的算力。在這里要特別注意的是所強化的任務類型。我的理解,具有強泛化、弱標準類的任務(比如創作),RLSC 方法就未必適用;如果過度使用,反而可能會降低模型的泛化能力,發生在此類任務上的過擬合現象,而導致模型性能下降。而如果任務具有確定解或者具有強標準的結果(比如數學或 SOP 等),則應該很適合用 RLSC 方法進行強化。所以,RLSC 這類方法,用對任務場景很重要,且從 RFT 的 ROI 角度來看,它很高效。