論文分享,ReinforcementLearningforReasoninginLargeLanguageModelswithOneTrainingExample這個論文看起來挺有意思,比較反常識,代碼開源:https:github.comypwang61OneShotRLVR。在Math500上,讓Qwen2.5Math1.5B性能翻倍,從36%提升到73.6%。讓Qwen2.5Math7B,從51%提升到79.2%。僅需要1個樣本進行強化學習訓練即可達到。如下圖,最終收斂跟藍色線(一個1000多個樣本的數據集)訓練出來的效果差不多。那這個樣本到底是個什么...