成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

高端的推理模型,僅需一個訓練樣本!

發布于 2025-5-21 06:48
瀏覽
0收藏

論文分享,Reinforcement Learning for Reasoning in Large Language Models with One Training Example

這個論文看起來挺有意思,比較反常識,代碼開源:https://github.com/ypwang61/One-Shot-RLVR。

在Math500上,讓Qwen2.5-Math 1.5B 性能翻倍,從36%提升到73.6%。 讓Qwen2.5-Math 7B,從51% 提升到79.2%。

僅需要1個樣本進行強化學習訓練即可達到。如下圖,最終收斂跟藍色線(一個1000多個樣本的數據集)訓練出來的效果差不多。

高端的推理模型,僅需一個訓練樣本!-AI.x社區

那這個樣本到底是個什么神仙樣本呢?他們不是非常難的樣本,模型還是有可能答對正確步驟,并且實際正確答案可能存在一些誤差。

高端的推理模型,僅需一個訓練樣本!-AI.x社區

高端的算法往往只需要普通的選數據的方法。論文中就是看一下歷史訓練過程中,樣本準確率的波動情況,如果波動大,意味著這個樣本模型的不確定性高,就可以拿來作為 one-shot的樣本。

高端的推理模型,僅需一個訓練樣本!-AI.x社區

這個策略,在不同的模型,不同的強化學習算法上都是有效的,但是好像都是一些小模型。

高端的推理模型,僅需一個訓練樣本!-AI.x社區

訓練到最后,那個訓練樣本的推理過程有點混亂了。但是不影響評估集。


高端的推理模型,僅需一個訓練樣本!-AI.x社區

甚至只用一個entropy loss(意思是,只有一個鼓勵模型積極探索的約束。)訓練都有巨大的提升。

高端的推理模型,僅需一個訓練樣本!-AI.x社區

高端的推理模型,僅需一個訓練樣本!-AI.x社區

論文還有一些實驗,比如跨域表現也很好,模型推理過程中,會加大rethink之類的深度思考的詞匯頻率。

總的來說,沒有花里胡哨的方法。用一個訓練樣本就可以激活模型的推理能力,在各個任務上媲美大規模數據集訓練出來的模型。

本文轉載自???NLP前沿???,作者:NLP前沿

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 自拍视频国产 | 黄色毛片黄色毛片 | 激情久久网 | 久久国产婷婷国产香蕉 | 亚洲国产欧美在线 | 亚洲成人高清 | 日日操视频| 免费性视频 | 久久免费视频1 | 日本不卡一区二区三区在线观看 | 欧美综合一区 | 欧美一级二级三级视频 | 亚洲黄色高清视频 | 日韩欧美一区二区三区免费观看 | 91免费观看视频 | 日本成人三级电影 | 国产美女自拍视频 | 久久黄色网 | 国产一区二区美女 | 国产精品激情小视频 | 男人的天堂在线视频 | 欧美八区 | 91在线播 | 伦理一区二区 | 欧美日韩在线观看视频网站 | 欧洲精品在线观看 | av日韩一区 | 人人干视频在线 | 精品亚洲一区二区 | 成人在线视频网 | 亚洲国产精品va在线看黑人 | 成人高清视频在线观看 | 日本免费一区二区三区 | 国产精品不卡视频 | 日韩成人高清在线 | 最新中文字幕在线 | 成人性生交大免费 | 久久精品国产精品青草 | 超碰人人爱 | 国产二区视频 | 欧美黄色片在线观看 |