成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析

發(fā)布于 2024-12-12 11:02
瀏覽
0收藏

OpenAI年終大戲第二場推出了強(qiáng)化微調(diào)RFT (Reinforcement Fine-Tuning),它可以讓你用幾十到幾千個的訓(xùn)練數(shù)據(jù),為特定的復(fù)雜任務(wù)構(gòu)建專家模型,加強(qiáng)了模型如何處理類似問題的推理,微調(diào)后的o1-mini得分提高80%,反超o1正式版

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)

強(qiáng)化微調(diào)技術(shù)的一種實(shí)現(xiàn)方式:首先通過監(jiān)督式微調(diào)(Supervised Fine-Tuning)對模型進(jìn)行預(yù)熱,然后利用在線強(qiáng)化學(xué)習(xí),特別是PPO算法,進(jìn)一步微調(diào)模型。這種方法能夠自動采樣多種推理路徑,并從真實(shí)答案中自然派生出獎勵信號。

SFT和ReFT在CoT替代方案存在時的比較

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)

強(qiáng)化微調(diào)(RFT)的兩個主要階段:預(yù)熱階段和強(qiáng)化學(xué)習(xí)階段。

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)

  1. 預(yù)熱階段(Warm-up):
  • 在這個階段,模型使用包含“問題(question)”和“思維鏈(Chain-of-Thought,CoT)”元組的數(shù)據(jù)集進(jìn)行微調(diào),通常持續(xù)1-2個epoch。
  • 目的是使模型具備基本的問題解決能力,能夠生成適當(dāng)?shù)捻憫?yīng)。
  • CoT生成過程被分解為一系列預(yù)測下一個詞(token)的動作,直到生成結(jié)束符(<eos>)。
  1. 強(qiáng)化學(xué)習(xí)階段(Reinforcement Learning):
  • 在這個階段,模型通過在線自我學(xué)習(xí)的方式提高性能,使用包含“問題(question)”和“答案(answer)”元組的數(shù)據(jù)集。
  • 模型通過重復(fù)采樣響應(yīng)、評估響應(yīng)的答案正確性,并在線更新其參數(shù)。
  • 使用PPO(Proximal Policy Optimization)算法進(jìn)行訓(xùn)練,其中價值模型(value model)V?是基于預(yù)熱階段后的政策模型πθ的最后隱藏狀態(tài)構(gòu)建的。
  • 獎勵函數(shù)在終端狀態(tài)時直接比較從狀態(tài)的CoT提取的答案和真實(shí)答案y,正確則返回1,否則返回0。對于數(shù)值型答案的數(shù)據(jù)集,還可以應(yīng)用部分獎勵(partial reward)0.1。
  • 總獎勵是獎勵函數(shù)得分和學(xué)習(xí)到的RL政策與初始政策之間的Kullback-Leibler(KL)散度的和。

GSM8K中的一個問題(x)、思維鏈(CoT)(e)和答案(y)的示例。SFT過程在訓(xùn)練數(shù)據(jù)上迭代多個周期。提出的ReFT從SFT預(yù)熱并在同一數(shù)據(jù)上執(zhí)行RL訓(xùn)練。

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)

實(shí)驗表明,RFT在GSM8K、MathQA和SVAMP等數(shù)據(jù)集上的性能顯著優(yōu)于SFT,并且可以通過多數(shù)投票和重新排名等策略進(jìn)一步提升性能

ReFT和基線模型在所有數(shù)據(jù)集上微調(diào)后的價值準(zhǔn)確度

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)

SFT和ReFT在GSM8K數(shù)據(jù)集中第1、3和5周期的P-CoT響應(yīng)對同一個問題的反應(yīng)。綠色框架內(nèi)的反應(yīng)是正確的,而紅色框架內(nèi)的反應(yīng)是錯誤的。

被OpenAI帶火的強(qiáng)化微調(diào)RFT技術(shù)解析-AI.x社區(qū)


https://arxiv.org/pdf/2401.08967
Code: https://github.com/lqtrung1998/mwp_ReFT

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 欧美极品少妇xxxxⅹ免费视频 | 国产成人精品一区二区 | 一级黄色片网站 | 91亚洲国产 | 亚洲性在线 | 国产精品久久777777 | 中文字幕在线免费 | 爱爱视频在线观看 | 国产电影一区二区 | 色偷偷噜噜噜亚洲男人 | www.天天干.com | 国产特级毛片aaaaaa | 日本国产精品视频 | 九九热在线视频免费观看 | 久草视频在线播放 | 日本视频在线播放 | 欧美日韩一区在线 | 亚洲国产精品精华素 | 91免费电影 | 免费在线观看成人 | 亚洲日产精品 | 国产成人jvid在线播放 | 亚洲精品粉嫩美女一区 | 日韩久久久久 | 亚洲小视频在线播放 | 81精品国产乱码久久久久久 | 日本久久精品视频 | 中文字幕亚洲无线 | 久久久蜜臀国产一区二区 | 在线视频一区二区三区 | 一级毛片免费看 | 免费看国产一级特黄aaaa大片 | dy天堂| 日本一区二区在线视频 | 午夜影院污 | 五月激情六月婷婷 | 欧美一区二区免费电影 | 99免费在线视频 | 精品视频在线观看 | 免费成人高清 | 国产高清一区二区 |