成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM實(shí)現(xiàn)自回歸搜索!MIT哈佛等提出「行動(dòng)思維鏈」COAT,推理能力大提升

人工智能 新聞
本研究提出了一種創(chuàng)新的自回歸搜索方法,通過(guò)兩階段訓(xùn)練框架,小規(guī)模格式調(diào)優(yōu)和大規(guī)模自我優(yōu)化,開發(fā)出了Satori,一個(gè)在數(shù)學(xué)推理和跨領(lǐng)域任務(wù)中均表現(xiàn)優(yōu)異的7B參數(shù)模型。Satori通過(guò)自我反思和探索策略,展現(xiàn)了強(qiáng)大的遷移能力和自我糾錯(cuò)能力。

OpenAI o1發(fā)布后,為提升LLM的推理能力,研究者嘗試了多種方法。

比如用強(qiáng)大的教師模型進(jìn)行知識(shí)蒸餾、采用蒙特卡洛樹搜索(MCTS),以及基于獎(jiǎng)勵(lì)模型的引導(dǎo)搜索。

近日,來(lái)自MIT、新加坡科技設(shè)計(jì)大學(xué)、哈佛大學(xué)等機(jī)構(gòu)的華人研究者探索了全新的方向:讓LLM擁有自回歸搜索能力。通過(guò)自我反思和探索新策略,提升LLM推理能力。

研究者引入了行動(dòng)-思維鏈(COAT)機(jī)制,使LLM在解決問(wèn)題時(shí)能夠執(zhí)行多種元?jiǎng)幼鳎⑻岢隽艘环N創(chuàng)新的兩階段訓(xùn)練框架:

  • 小規(guī)模格式調(diào)優(yōu)階段:讓LLM熟悉并掌握COAT推理格式。
  • 大規(guī)模自我優(yōu)化階段:運(yùn)用重啟與探索(RAE)技術(shù),通過(guò)RL進(jìn)行優(yōu)化。

通過(guò)這種方法,成功開發(fā)出Satori,在數(shù)學(xué)推理任務(wù)中,成績(jī)優(yōu)異。

Satori具有以下核心特點(diǎn):

  • 無(wú)需外部指導(dǎo),即可自我反思與探索。
  • 主要依靠自我改進(jìn)(RL),實(shí)現(xiàn)了最先進(jìn)的推理性能。
  • 展現(xiàn)出強(qiáng)大的遷移能力,可應(yīng)用于數(shù)學(xué)以外的領(lǐng)域。

論文地址:https://arxiv.org/pdf/2502.02508

開源項(xiàng)目:https://github.com/satori-reasoning/Satori

Satori關(guān)鍵設(shè)計(jì)

研究者把LLM的推理過(guò)程看作一個(gè)順序決策問(wèn)題,其中推理就是逐步構(gòu)建并完善答案的過(guò)程。

具體來(lái)說(shuō),LLM從輸入上下文(初始狀態(tài))開始,生成一個(gè)推理步驟(動(dòng)作),并更新上下文(下一個(gè)狀態(tài))。

LLM會(huì)重復(fù)這個(gè)過(guò)程,直到得出最終答案。根據(jù)最終答案與真實(shí)答案的匹配程度,給予LLM獎(jiǎng)勵(lì)。

通過(guò)這種方式,用RL來(lái)訓(xùn)練LLM進(jìn)行推理,旨在讓LLM生成一系列推理步驟,以最大化期望獎(jiǎng)勵(lì)。

行動(dòng)-思維鏈推理(COAT)

實(shí)現(xiàn)自回歸搜索時(shí),關(guān)鍵挑戰(zhàn)在于讓LLM能夠在沒(méi)有外部干預(yù)的情況下,判斷何時(shí)進(jìn)行反思、繼續(xù)推理,或是探索替代方案。

為解決這個(gè)問(wèn)題,研究者引入了幾種特殊的元行動(dòng)tokens,來(lái)引導(dǎo)LLM的推理過(guò)程:

  • 繼續(xù)推理(<|continue|>):鼓勵(lì)LLM依據(jù)當(dāng)前的推理思路,生成下一個(gè)中間步驟。
  • 反思(<|reflect|>):提醒模型暫停下來(lái),驗(yàn)證之前的推理步驟是否正確。
  • 探索替代解決方案(<|explore|>):提示模型識(shí)別推理中的關(guān)鍵漏洞,并探索新的解決方案。

這種推理方式稱為行動(dòng)-思維鏈(COAT)推理。每個(gè)COAT推理步驟都是一個(gè)tokens序列,并從其中一個(gè)元行動(dòng)tokens開始。

標(biāo)準(zhǔn)LLM無(wú)法執(zhí)行COAT推理,將RL應(yīng)用于推理面臨兩個(gè)關(guān)鍵挑戰(zhàn):

  1. 對(duì)元?jiǎng)幼鱰okens缺乏認(rèn)知:如果沒(méi)有經(jīng)過(guò)訓(xùn)練,LLM在遇到特殊的元?jiǎng)幼鱰okens時(shí),不會(huì)意識(shí)到需要反思或者尋找替代解決方案。
  2. 長(zhǎng)期決策與獎(jiǎng)勵(lì)稀疏:推理涉及長(zhǎng)期決策,而獎(jiǎng)勵(lì)僅在最終階段給出。這意味著LLM必須在得到獎(jiǎng)勵(lì)之前,連續(xù)做出多個(gè)正確的推理步驟,一旦出錯(cuò),就只能從初始狀態(tài)重新開始。因?yàn)楠?jiǎng)勵(lì)非常稀缺,而獎(jiǎng)勵(lì)對(duì)于RL至關(guān)重要,這大大增加了學(xué)習(xí)難度。

一開始,模型對(duì)元?jiǎng)幼鱰okens沒(méi)有認(rèn)知。為解決這個(gè)問(wèn)題,研究者設(shè)置了一個(gè)格式調(diào)優(yōu)階段。

具體做法是,在一個(gè)有少量推理軌跡示例的小數(shù)據(jù)集上對(duì)預(yù)訓(xùn)練的LLM進(jìn)行微調(diào)。通過(guò)這一步,模型就能熟悉元?jiǎng)幼鱰okens的使用,并且做出相應(yīng)反應(yīng)。

另外,推理存在決策時(shí)間長(zhǎng)、獎(jiǎng)勵(lì)少的問(wèn)題。為解決這個(gè)難題,借鑒Go-Explore的思路,提出重啟與探索(RAE)策略。

模型會(huì)從之前推理過(guò)程中的中間步驟重新開始,包括那些推理失敗的節(jié)點(diǎn),這樣它就能專注于改正錯(cuò)誤,而不用每次都從頭開始。

同時(shí),還增設(shè)了探索獎(jiǎng)勵(lì),鼓勵(lì)模型進(jìn)行更深入的思考,從而提高得出正確答案的可能性。

通過(guò)模仿學(xué)習(xí)進(jìn)行格式調(diào)優(yōu)

這個(gè)階段的目的是對(duì)預(yù)訓(xùn)練的基礎(chǔ)LLM進(jìn)行微調(diào),讓它能模仿符合COAT推理格式的示范推理軌跡。

為了合成包含試錯(cuò)過(guò)程的COAT推理軌跡,研究者提出多代理數(shù)據(jù)合成框架,通過(guò)三個(gè)LLM來(lái)完成這項(xiàng)任務(wù):

  • 生成器:給定一個(gè)輸入問(wèn)題,生成器會(huì)運(yùn)用經(jīng)典的鏈?zhǔn)剿季S(CoT)技術(shù),生成多個(gè)推理路徑。
  • Critic:負(fù)責(zé)評(píng)估生成器生成的推理路徑是否正確,同時(shí)提供反饋以優(yōu)化推理過(guò)程,修正不合理的步驟。
  • 獎(jiǎng)勵(lì)模型:對(duì)優(yōu)化后的推理路徑打分,挑選出最有效的路徑,作為最終的示范軌跡。

這三個(gè)模型相互配合,共同構(gòu)建出高質(zhì)量的示范軌跡。僅需10K條示范軌跡,就能讓基礎(chǔ)LLM學(xué)會(huì)遵循COAT推理格式。

通過(guò)RL進(jìn)行自我提升

通過(guò)格式調(diào)優(yōu),LLM已經(jīng)掌握了COAT推理風(fēng)格,但遇到新問(wèn)題時(shí),仍然很難泛化。

RL階段的目標(biāo),就是讓LLM通過(guò)自我反思,提升推理能力。

以完成格式調(diào)優(yōu)的LLM為基礎(chǔ),用經(jīng)典的PPO算法進(jìn)一步優(yōu)化,同時(shí)引入兩個(gè)關(guān)鍵策略:

重啟與探索(RAE):受Go-Explore算法啟發(fā),訓(xùn)練LLM時(shí),不僅讓它從問(wèn)題本身出發(fā)進(jìn)行推理,還讓它從過(guò)去的推理過(guò)程中,采樣中間步驟來(lái)進(jìn)行推理。

此外,增設(shè)了探索獎(jiǎng)勵(lì),鼓勵(lì)LLM進(jìn)行更深入的自我反思,從而增加它找到正確答案的可能性。

迭代自我提升:訓(xùn)練過(guò)程中,LLM的策略可能會(huì)陷入局部最優(yōu)解。

借鑒Kickstarting的思路,在每一輪RL訓(xùn)練結(jié)束后,通過(guò)監(jiān)督微調(diào),把當(dāng)前教師策略的知識(shí)傳遞給基礎(chǔ)模型。以微調(diào)后的LLM為起點(diǎn),再開展下一輪RL訓(xùn)練。

評(píng)估結(jié)果

大量實(shí)驗(yàn)結(jié)果顯示,Satori在數(shù)學(xué)推理基準(zhǔn)測(cè)試中取得了最佳成績(jī),在不同領(lǐng)域的任務(wù)上也有很強(qiáng)的泛化能力。

研究者選擇Qwen-2.5-Math-7B作為基礎(chǔ)模型,因?yàn)樗跀?shù)學(xué)方面能力很強(qiáng)。訓(xùn)練數(shù)據(jù)來(lái)源于公開的數(shù)學(xué)指令數(shù)據(jù)集,包括OpenMathInstruct-2和NuminaMathCoT。

在多智能體數(shù)據(jù)合成框架中,生成器需生成高質(zhì)量的逐步推理軌跡,因此選用Qwen-2.5-MathInstruct。而評(píng)論者需要有很強(qiáng)的指令跟隨能力,于是選了Llama3.1-70B-Instruct。

表中展示了數(shù)學(xué)基準(zhǔn)測(cè)試的結(jié)果,Satori-Qwen-7B在所有小規(guī)模基線模型中表現(xiàn)最佳。

盡管Satori-Qwen-7B使用了與Qwen-2.5-Math-7B-Instruct相同的基礎(chǔ)模型,其性能明顯優(yōu)于后者,所需的SFT數(shù)據(jù)顯著減少,并更多依賴于自我改進(jìn)。

同時(shí)在數(shù)學(xué)領(lǐng)域之外的廣泛基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估,包括邏輯推理(FOLIO、BGQA)、代碼推理(CEUXEval)、常識(shí)推理(StrategyQA)、表格推理(TableBench)以及特定領(lǐng)域推理(MMLUPro的STEM子集),覆蓋物理、化學(xué)、計(jì)算機(jī)科學(xué)、工程學(xué)、生物學(xué)和經(jīng)濟(jì)學(xué)。

盡管Satori-Qwen-7B只在數(shù)學(xué)領(lǐng)域的數(shù)據(jù)集上訓(xùn)練過(guò),但它的推理能力同樣適用于其他領(lǐng)域。

表中展示了Satori-Qwen-7B在跨領(lǐng)域基準(zhǔn)測(cè)試中的表現(xiàn)。

和在數(shù)學(xué)領(lǐng)域的表現(xiàn)類似,Satori-Qwen-7B在多個(gè)基準(zhǔn)測(cè)試?yán)锍煽?jī)優(yōu)異,超過(guò)了Qwen-2.5-Math-7B-Instruct。

特別是在難度較高的BoardgameQA推理基準(zhǔn)測(cè)試中,Satori-Qwen-7B的表現(xiàn)優(yōu)于所有同規(guī)模的基線模型。

這些結(jié)果表明,Satori-Qwen-7B不僅掌握了數(shù)學(xué)解題技能,還具備了通用的推理能力。

最后一行展示了Satori第二輪訓(xùn)練的結(jié)果。與Satori-Qwen-7B相比,Satori-Qwen-7B(Round 2)在大多數(shù)領(lǐng)域表現(xiàn)出持續(xù)的性能提升。

這表明迭代自我改進(jìn)在提升LLM推理性能方面具有顯著的潛力。

Satori展現(xiàn)自我糾錯(cuò)能力

研究者觀察到Satori在推理過(guò)程中經(jīng)常自我反思,主要出現(xiàn)這兩種情形:一是在推理的中間步驟,二是完成問(wèn)題后,通過(guò)自我反思發(fā)起第二次常識(shí)。

對(duì)第二種情況做定量評(píng)估,以衡量Satori的自我糾錯(cuò)能力。

具體做法是,找出那些自我反思前后最終答案不一樣的回答,然后計(jì)算其中正向(從錯(cuò)誤修正為正確)自我糾錯(cuò)或負(fù)向(從正確改為錯(cuò)誤)的比例。

表中呈現(xiàn)了Satori在領(lǐng)域內(nèi)數(shù)據(jù)集(MATH500和Olympiad)以及領(lǐng)域外數(shù)據(jù)集(MMLUPro)上的評(píng)估結(jié)果。

與沒(méi)有經(jīng)過(guò)RL訓(xùn)練階段的Satori-Qwen-FT相比,Satori-Qwen的自我糾錯(cuò)能力更強(qiáng)。

這種自我糾錯(cuò)能力在領(lǐng)域外任務(wù)(MMLUPro-STEM)中同樣存在。

這些結(jié)果說(shuō)明,RL對(duì)于提升模型實(shí)際的推理能力起著關(guān)鍵作用。

RL使Satori具備測(cè)試時(shí)擴(kuò)展能力

接下來(lái),討論RL如何激勵(lì)Satori進(jìn)行自回歸搜索。

首先,從圖中可以看到,隨著RL訓(xùn)練計(jì)算量的增多,Satori策略的準(zhǔn)確率不斷上升,同時(shí)生成內(nèi)容的平均token長(zhǎng)度也在增加。這表明Satori學(xué)會(huì)了花更多時(shí)間去推理,從而更準(zhǔn)確地解決問(wèn)題。

一個(gè)有趣的現(xiàn)象是,響應(yīng)長(zhǎng)度在前0到200步時(shí)先減少,然后再增加。

通過(guò)深入分析模型的響應(yīng),發(fā)現(xiàn)在早期階段,Satori還未學(xué)會(huì)自我反思能力。

在這個(gè)階段,RL優(yōu)化可能會(huì)先引導(dǎo)模型尋找捷徑來(lái)解決問(wèn)題,減少不必要的思考,所以響應(yīng)長(zhǎng)度會(huì)暫時(shí)變短。

到了后期,模型慢慢學(xué)會(huì)通過(guò)反思來(lái)自我糾錯(cuò),找到更好的解法,因此響應(yīng)長(zhǎng)度隨之增加。

此外,研究人員在不同難度的MATH數(shù)據(jù)集上,對(duì)Satori的測(cè)試準(zhǔn)確率和響應(yīng)長(zhǎng)度做了評(píng)估。

經(jīng)過(guò)RL訓(xùn)練,Satori在測(cè)試時(shí)會(huì)自動(dòng)把更多計(jì)算資源,用在解決更難的問(wèn)題上。與只經(jīng)過(guò)格式調(diào)優(yōu)的模型相比,Satori的性能不斷提高。

蒸餾實(shí)現(xiàn)從弱到強(qiáng)的泛化能力

最后,我們探究能否借助蒸餾更強(qiáng)的推理模型,提升較弱基礎(chǔ)模型的推理能力。

具體做法是,用Satori-Qwen-7B生成24萬(wàn)條合成數(shù)據(jù),以此訓(xùn)練Llama-3.1-8B和Granite-3.1-8B這兩個(gè)基礎(chǔ)模型。

作為對(duì)比,研究者還合成了24萬(wàn)條格式調(diào)優(yōu)(FT)數(shù)據(jù),用于訓(xùn)練同樣的兩個(gè)模型。

之后,在所有數(shù)學(xué)基準(zhǔn)測(cè)試數(shù)據(jù)集上,對(duì)這些模型的平均測(cè)試準(zhǔn)確率進(jìn)行評(píng)估,結(jié)果如圖所示。

實(shí)驗(yàn)表明,經(jīng)過(guò)蒸餾訓(xùn)練的模型,性能比僅經(jīng)過(guò)格式調(diào)優(yōu)的模型更好。

這為提升較弱基礎(chǔ)模型的推理能力,提供了一種新的高效方法:

  1. 通過(guò)小規(guī)模的格式調(diào)優(yōu)與大規(guī)模RL相結(jié)合,訓(xùn)練出像Satori-Qwen-7B這樣的強(qiáng)推理模型。
  2. 運(yùn)用蒸餾的方式,將這個(gè)強(qiáng)推理模型的能力轉(zhuǎn)移到較弱的基礎(chǔ)模型中。

由于RL訓(xùn)練只需答案標(biāo)簽作為監(jiān)督信號(hào),所以這種方法合成數(shù)據(jù)的成本很低,既不需要多智能體數(shù)據(jù)合成框架,也無(wú)需昂貴的人工標(biāo)注。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-02-13 09:34:13

2024-12-23 07:20:00

LLM逆向思維語(yǔ)言模型

2021-12-01 10:05:12

模型人工智能計(jì)算

2024-11-11 11:05:00

大語(yǔ)言模型系統(tǒng)

2023-06-20 13:44:49

清華推理

2025-02-17 14:43:51

2025-05-21 13:52:39

LLM模型

2025-06-04 08:35:00

2020-03-13 09:30:39

區(qū)塊鏈安全應(yīng)用程序

2021-12-14 15:59:38

數(shù)據(jù)模型推理

2023-05-22 15:17:02

谷歌AI

2023-06-05 10:01:18

模型測(cè)評(píng)

2024-05-06 08:00:00

AILLM

2025-01-14 13:52:56

2023-11-03 13:07:00

AI模型

2024-04-15 11:48:09

2025-01-20 13:08:25

2023-08-05 12:50:18

AI技術(shù)

2025-03-12 09:48:19

2024-08-06 11:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品视频入口 | 一区二区三区在线播放 | 亚洲欧美日韩精品久久亚洲区 | 一区二区三区精品在线视频 | 国产乱一区二区三区视频 | www.com久久久 | 久久久久久久av麻豆果冻 | 日本人爽p大片免费看 | 欧美理论片在线 | 亚洲精品久久久一区二区三区 | 欧洲一区二区视频 | 国产精品久久久久久久久久久久冷 | 在线免费观看日本 | 欧美性网 | 日本高清视频网站 | 精品av | 国产99视频精品免视看9 | 日韩在线视频观看 | 亚洲欧美日韩电影 | 成人二区 | 成人中文网 | 日本精品久久久久久久 | 国产精品入口麻豆www | 国产精品久久久久无码av | 成人国产精品久久久 | 99在线国产 | 嫩草黄色影院 | 精国产品一区二区三区四季综 | 中文在线а√在线8 | 人人亚洲| 欧美在线观看一区 | 亚州毛片 | 伊人中文字幕 | 99精品欧美一区二区三区 | 午夜精品一区二区三区免费视频 | 91黄色免费看 | 亚洲国产偷 | 91 在线| 波多野结衣一区二区三区在线观看 | 国产精品久久久亚洲 | 欧美精品久久久久久 |