成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

UC伯克利新作顛覆認知:LLM靠「自信爆表」學會推理?無需外部獎勵超進化

人工智能 新聞
不靠外部獎勵,LLM純靠「自信爆棚」,就能學會推理了?UC伯克利的華人團隊發現,LLM居然跟人一樣!靠自信來訓練AI后,數學、編程性能提升驚人。

就在剛剛,UC伯克利CS博士后Xuandong Zhao,分享出來自己「今年參與的最鼓舞人心的工作」。

他和同事們發現,在沒有外部獎勵的情況下,LLM竟然只靠「自信爆棚」,就學會了復雜推理?

圖片

論文地址:https://arxiv.org/pdf/2505.19590

LLM靠自信心,竟能學會復雜推理

LLM不靠外部獎勵,就能自己學會復雜推理,這個結論實在很出乎意料。

團隊之所以能做出這個結果,是源于兩個關鍵的觀察。

  1. 在考試中,人們往往對自己有信心的問題,回答得更準確。這種「信心≈正確性」的模型,對LLM是否也適用呢?
  2. 在測試時推理中,長CoT或并行擴展技術(如多數投票)很常見。但在面對代碼生成這樣的開放式任務時,我們該如何在多樣化的輸出中做出選擇呢?

為此,他們探討了如何有效擴展「n選一最優」的選擇策略。

現有的一些啟發式方法,比如熵和困惑度都存在不少問題:比如對輸出長度敏感、有偏差,而且在樣本數量增加時效果變差。

然后,他們就得出了一個關鍵的洞察:衡量每個token的分布距離均勻分布有多遠。KL散度KL(U‖P) ,可以量化模型在預測每個token時的「自信程度」。可以將這一度量稱為「自我確定性」。

而它,正是熵的反面——不是覆蓋多種可能,而是傾向于聚焦在最可能的結果上。

他們發現,自我確定性是一個非常有效的信號——

  1. 當答案已知時,它通過加權投票的方式表現優于多數投票。
  2. 當答案未知時,它仍然可以隨著n的增加而穩健地擴展。

圖片

由此,在今年二月份,他們發表了第一篇論文。

圖片

論文地址:https://arxiv.org/abs/2502.18581

不過,他們的探究并未止步于此。一個后續問題自然而然出現了:如果「自我確定性」是一個良好的評估信號,它是否也可以用作訓練模型的獎勵?

也就是說,如果人類可以通過探索和反思建立起自己的信心,那LLM也能做到同樣的事嗎?

這就啟發了研究者們的新范式——RLIF。

圖片

他們采用的新方法,使用自我確定性作為強化學習的獎勵信號,而不需要外部監督。

圖片

結果,這種方法果然奏效了!

它在數學任務中的表現,可與使用規則獎勵的GRPO相媲美,在代碼生成任務中甚至有更好的泛化能力。

它能學習結構化推理——提前規劃、分解問題,甚至能夠遵循指令,而這一切都來自于內部反饋(內在獎勵)。

圖片

Xuandong Zhao表示,這個項目給了自己很大信心,尤其看到一些同期研究(TTRL、基于熵的強化學習、語義熵+答案等)時。

很明顯,RLIF是一個很有前景的方向。很顯然,目前的探索才剛剛觸及了表面。

展望未來,RLIF還提出了許多開放性問題。

  • 它為什么會有效?哪些任務最受益?
  • 它能否擴展到更大的模型?它與幻覺或記憶有何關系?
  • RLIF能否在現實世界的部署中補充RLHF或RLVR?
  • 它在智能體任務中的表現如何?

RLIF登場,打破根本局限

強化學習(RL)已經成為提升大語言模型能力的一個重要工具。

早期主要是基于人類反饋的強化學習(RLHF)上。

最近,基于可驗證獎勵的強化學習(RLVR)取得了進展,它用可自動驗證的信號(如數學題解中精確匹配的答案)取代了傳統的學習型獎勵模型,并在DeepSeek-R1等模型上展現出了更強的推理能力。

盡管取得了不少成功,RLHF和RLVR仍然面臨一些根本性的局限。

RLHF需要大量的人工標注,成本高且容易存在偏見。

而RLVR則需要特定領域的驗證器與標準答案。例如,在數學領域需要專家標注的解;代碼生成任務中,需要全面的測試用例和執行環境。

那么,大語言模型能夠否僅靠自身生成的內在信號來提升推理能力?

于是本文的研究者們提出、探索了一種新范式:基于內部反饋的強化學習(Reinforcement Learning from Internal Feedback,RLIF)。

在這種新范式下,模型通過優化自身的內部反饋來提升性能,從而無需外部獎勵或監督。

RLIF不僅適用于當前的場景,還延伸到了未來——當模型的發展超出人類能力,人類難以直接評估其表現時,模型只能通過內在機制實現自我改進。

在RLIF范式下,研究團隊提出了INTUITOR,這是一種新的強化學習方法,利用模型自身的置信度作為一種內在獎勵。

圖片

具體來說,團隊使用自我確定性作為置信度的衡量標準。自我確定性已被證明可以有效區分高質量和有缺陷的回答。

INTUITOR的實現方式簡單、高效且有效:團隊用自我確定性得分取代了現有RLVR框架(特別是GRPO)中的可驗證獎勵信號,并沿用了相同的策略梯度算法。

實驗設置

訓練設置

GRPO和INTUITOR都使用Open-R1框架在MATH數據集的訓練集上進行訓練,該數據集包含7,500道題目。

研究者采用Qwen2.5-1.5B和Qwen2.5-3B作為基礎模型,全程使用對話式提示格式。

由于這些模型最初在指令遵循能力上較弱,不強制要求它們將中間推理過程與最終答案拆分開。

每次更新處理128道題目,每題生成7個候選解,默認的KL懲罰系數為β=0.005。

為了公平比較,GRPO與INTUITOR使用完全相同的超參數,未進行額外調參。

INTUITOR在代碼生成任務中的應用(INTUITOR-Code)

為評估其在數學推理之外的泛化能力,研究者將INTUITOR應用于Codeforces代碼生成數據集。該變體在表1中被標記為INTUITOR-Code。

評估

評估階段大多采用與訓練一致的對話式提示格式。所有生成均采用貪婪解碼。

實驗在英偉達A100顯卡上進行,每張卡具有40GB顯存。

在以下基準上,研究者評估了模型性能:

數學推理任務:MATH500和GSM8K,使用lighteval庫;

代碼推理任務:CRUXEval-O,使用ZeroEval 框架,以及LiveCodeBench v6(LCB);

指令遵循任務:AlpacaEval 2.0,使用長度控制的勝率指標,由GPT-4.1進行評審。

結果與分析

表1展示了主要的評估結果,圖3則顯示了訓練過程中回答長度的變化趨勢。

在MATH和GSM8K數據集上,INTUITOR和GRPO-PV(兩者都不依賴標準答案)表現出了與GRPO(使用標準答案)相當的性能。

雖然INTUITOR整體表現略遜于GRPO,但在MATH數據集上,它的回答更長,且代碼生成能力顯著提升,顯示出更強的推理能力。

圖片

各種方法在GSM8K、MATH、LCB、CRUXEval-O、MMLU-Pro和AlpacaEval基準測試上的性能對比

圖片

訓練過程中平均響應長度。對于Qwen2.5-1.5B模型,INTUITOR和GRPO減少了無意義輸出。對于Qwen2.5-3B模型,INTUITOR和GRPO增加了推理長度,其中INTUITOR的響應長度顯著更長。GRPO-PV的長度增加最小

學會遵循指令

INTUITOR在遵循指令方面有了顯著提升。

最初,預訓練的Qwen2.5-1.5B模型在處理對話式提示時表現不佳,在所有對話模板任務上的得分低于10%(見表1),生成的回答往往重復且無意義,導致平均回答長度過長(見圖3)。

通過INTUITOR的微調,這種無意義輸出大幅減少,回答長度縮短,且在所有評估基準上都取得了非凡的性能提升。

此外,在MATH數據集上,INTUITOR顯著提高了Qwen2.5-1.5B和Qwen2.5-3B模型在AlpacaEval上的長度控制勝率,超越了相同設置下的GRPO。

這表明INTUITOR在遵循指令方面取得了穩健的進步。

培養結構化推理

快速初步學習。「自我確定性」是一種連續的、內在的獎勵信號,來自模型對所有token的內部評估,與二元獎勵形成對比。

這種內部信號可能推動大語言模型(LLMs)走上更高效的學習路徑。

考慮到GRPO和INTUITOR的最終表現不分伯仲,團隊通過對比兩者在訓練至第10步時的領域內準確率,來評估它們早期的學習能力。

如表2所示,在GSM8K和MATH基準測試中,INTUITOR在Qwen2.5-1.5B和Qwen2.5-3B模型上始終優于GRPO,凸顯了其在快速初步學習上的優勢。

圖片

跨任務泛化。圖4展示了在MATH數據集上訓練的模型在MATH500(領域內任務)和LiveCodeBench(遷移任務)上的表現變化。

無論是INTUITOR還是GRPO,模型都會先在MATH500上率先提分,而LiveCodeBench的準確率提升要到訓練后期才逐漸顯現。

更有意思的是,哪怕MATH500的成績已經進入平臺期,LiveCodeBench上的表現仍在繼續攀升。

這說明:先在MATH數據上學到的「本行」知識,為之后遷移到代碼生成任務(LiveCodeBench)提供了扎實的基礎。

圖片

長推理的涌現。雖然像Deepseek-R1這樣的大模型通過大量強化學習(RL)實現長篇推理,但INTUITOR使較小的模型在有限數據下也能發展出結構化推理能力。

在CRUXEval-O基準(圖5)上,用INTUITOR訓出來的模型常常先用自然語言隨意地想一番,再把結論濃縮進要求的JSON里——盡管提示里已經要求它直接用JSON推理。

同樣的「先自然語言推理,后寫代碼」現象,也出現在LiveCodeBench上。

這種自發出現的「預推理」過程,或許正是INTUITOR能在這些評測中表現亮眼的關鍵。

圖片

理解LLM的涌現式長鏈推理能力

當LLM遇到陌生問題時,它們會從一組可能的答案分布中進行采樣。

自我確定性反映了模型對其輸出連貫性的內部評估。通過強化高自信度的回答,INTUITOR鼓勵更具層次的推理過程,有可能提升模型對自身輸出的理解能力。

研究者通過分析使用INTUITOR訓練的代碼模型在不同訓練階段生成的結果,來觀察這一機制。

具體方法是從LiveCodeBench數據集中隨機選取10道題,觀察各訓練階段模型的輸出演變。

圖6展示了輸出類型和模型準確率的變化趨勢。

圖片

結果顯示出了清晰的演進路徑:模型首先學會生成有效的 Python 代碼(體現在準確率提升和無效輸出減少),隨后開始發展出前置推理能力,以便更好地理解自身行為。

進一步的生成樣本檢查也證實:模型在訓練過程中會逐步豐富其推理內容,驗證了我們關于「INTUITOR鼓勵模型生成自身更易理解的推理軌跡」的假設。

在線自置信防止獎勵濫用

在強化學習里,如果獎勵模型是靜態的,策略就可能一味鉆空子而不是老老實實提高能力。

為測試把「自置信」當獎勵到底穩不穩定,團隊做了兩種設置:

  • 離線自置信:獎勵來自固定的基礎模型;
  • 在線自置信:獎勵隨策略模型一同更新。

兩種情況下,我們把每次梯度更新的批大小都降到224條回答。

圖7所示,大約在第100次更新后,離線設置的策略學會了「刷分」:它在每個答案后偷偷附上一道自己早已解出的額外題目,以此抬高自置信獎勵。結果是:

  • 回答長度(虛線)突然飆升;
  • 驗證準確率(實線)卻瞬間崩盤。

    圖片

在線設置下,獎勵信號隨著策略同步進化,策略想「騙分」就難多了,訓練曲線始終平穩。

研究團隊進一步拿INTUITOR和GRPO在MATH500上生成的回答,分析自置信分布(圖8),并用Mann–Whitney U檢驗比較正確與錯誤答案的自置信差異。

  • 正確答案的平均自置信都顯著高于錯誤答案。
  • INTUITOR(在線自置信):沒有任何「刷分」跡象,在U檢驗中給出了最低p值和最大的效應量r,說明它最能用自置信區分對錯,即便整體信心更高。

圖片

這些結果表明,INTUITOR的在線自置信機制不僅防止了獎勵被濫用,還讓模型在大規模數據集上有望保持穩健訓練。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-05-30 09:05:00

AI大模型推理

2025-05-29 09:14:17

2023-12-25 09:23:07

模型技術

2025-04-18 08:42:52

模型推理AI

2024-12-18 07:20:00

2025-04-30 09:09:00

2023-06-21 13:20:14

系統模型

2023-11-14 07:47:42

IGN擴散模型

2025-01-22 15:21:00

2024-07-31 15:38:00

2023-04-07 09:28:31

模型訓練

2024-03-25 08:30:00

AI數據

2024-09-23 14:46:27

2022-03-23 10:52:07

機器人神經網絡系統

2023-12-04 18:56:03

AI模型

2023-04-04 13:17:00

GPUCMU開源

2024-11-26 13:40:00

2023-05-04 14:55:02

模型AI

2023-12-16 09:49:18

2023-08-14 08:37:54

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩欧美精品一区 | 精品动漫一区 | 欧美在线观看一区 | 午夜一级大片 | h视频在线观看免费 | 日韩欧美国产一区二区三区 | 18性欧美 | 在线免费看黄 | av免费在线观看网站 | 欧美一区二区大片 | 狠狠色网| 亚洲永久入口 | 成人午夜免费福利视频 | 日产精品久久久一区二区福利 | 欧美日韩久 | 亚洲精品一二三区 | 精品国产91乱码一区二区三区 | 91色视频在线观看 | 国产91久久久久 | 亚洲成人一区二区 | 成人深夜福利 | av国产精品| 国产精品伦一区二区三级视频 | 欧美一区免费 | 亚洲精品中文字幕 | 久久久久久久久久久国产 | 色视频在线播放 | 欧美高清dvd | 国产1区2区在线观看 | 香蕉国产在线视频 | 欧美乱大交xxxxx另类电影 | 中文字幕在线观看日韩 | 视频在线观看一区 | 国产精品精品 | 国产综合第一页 | 国产成人免费视频网站视频社区 | 成人精品在线观看 | 亚洲一区免费 | 国产精品自拍视频 | 亚洲欧美综合精品久久成人 | 亚洲情侣视频 |