成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AlphaGo核心算法增強(qiáng),7B模型數(shù)學(xué)能力直逼GPT-4,阿里大模型新研究火了

發(fā)布于 2024-5-9 09:18
瀏覽
0收藏

把AlphaGo的核心算法用在大模型上,“高考”成績(jī)直接提升了20多分。


在MATH數(shù)據(jù)集上,甚至讓7B模型得分超過了GPT-4。


一項(xiàng)來自阿里的新研究引發(fā)關(guān)注:


研究人員用蒙特卡洛樹搜索(MCTS)給大語言模型來了把性能增強(qiáng),無需人工標(biāo)注解題步驟,也能生成高質(zhì)量數(shù)據(jù),有效提升大模型的數(shù)學(xué)成績(jī)

AlphaGo核心算法增強(qiáng),7B模型數(shù)學(xué)能力直逼GPT-4,阿里大模型新研究火了-AI.x社區(qū)

論文發(fā)布,讓不少網(wǎng)友重新關(guān)注到了蒙特卡洛樹搜索這個(gè)在前大模型時(shí)代的明星算法。

有人直言:

蒙特卡洛樹搜索+LLM是通往超級(jí)智能之路。

AlphaGo核心算法增強(qiáng),7B模型數(shù)學(xué)能力直逼GPT-4,阿里大模型新研究火了-AI.x社區(qū)

因?yàn)椤皹渌阉鞅旧砀咏祟愃季S”。

用蒙特卡洛樹搜索增強(qiáng)大模型

具體來說,阿里的研究人員提出了一種名為AlphaMath的方法,用大語言模型+MCTS來自動(dòng)生成數(shù)學(xué)推理數(shù)據(jù),并提升大模型在完成數(shù)學(xué)推理任務(wù)時(shí)的性能表現(xiàn)。


嗯,名字就很有蒙特卡洛樹搜索內(nèi)味兒了。


這里有個(gè)前情提要:


思維鏈(CoT)、思維程序(PoT)等方法已經(jīng)被證明能夠有效提高大模型的數(shù)學(xué)能力,但問題在于,它們都需要人類手動(dòng)喂詳細(xì)的解題步驟,即訓(xùn)練當(dāng)中需要用到人工標(biāo)注的高質(zhì)量數(shù)學(xué)推理數(shù)據(jù)。


AlphaMath的一個(gè)核心目的就在于,在這個(gè)步驟中去人工化——數(shù)據(jù)格式就是簡(jiǎn)單的數(shù)學(xué)問題-答案對(duì)。

AlphaGo核心算法增強(qiáng),7B模型數(shù)學(xué)能力直逼GPT-4,阿里大模型新研究火了-AI.x社區(qū)

AlphaMath的技術(shù)路線主要涵蓋三個(gè)階段:


首先,研究人員收集了一個(gè)數(shù)學(xué)數(shù)據(jù)集,其中包含數(shù)學(xué)問題及其對(duì)應(yīng)的正確答案。


然后,利用預(yù)訓(xùn)練的大模型(即策略模型)根據(jù)問題生成初始的解題路徑,并通過MCTS對(duì)解題路徑進(jìn)行探索和改進(jìn),搜索更優(yōu)的解題思路。


在MCTS過程中,同時(shí)訓(xùn)練一個(gè)價(jià)值模型來預(yù)測(cè)解題路徑的質(zhì)量,引導(dǎo)搜索方向。


最后,第二階段獲得的數(shù)據(jù)會(huì)被用來優(yōu)化策略模型和價(jià)值模型。

AlphaGo核心算法增強(qiáng),7B模型數(shù)學(xué)能力直逼GPT-4,阿里大模型新研究火了-AI.x社區(qū)

這三個(gè)階段會(huì)通過迭代優(yōu)化地方式執(zhí)行,以實(shí)現(xiàn)無需人工標(biāo)注的自動(dòng)數(shù)據(jù)生成和模型數(shù)學(xué)能力優(yōu)化。


另外,研究人員還基于價(jià)值模型提出了Step-level Beam Search方法,以提高大模型的數(shù)學(xué)推理效率,平衡推理時(shí)的解題質(zhì)量和運(yùn)行時(shí)間。


簡(jiǎn)單來說,Step-level Beam Search是將MCTS推理過程做了個(gè)簡(jiǎn)化:

  • 利用價(jià)值模型對(duì)候選路徑進(jìn)行評(píng)估,以更準(zhǔn)確地選擇高質(zhì)量的解題路徑。
  • 通過逐步擴(kuò)展和剪枝,在搜索過程中動(dòng)態(tài)調(diào)整候選路徑集合,提高搜索效率。
  • 搜索過程中考慮了完整的解題路徑,而不僅僅是局部的下一步動(dòng)作,可以得到更全局優(yōu)化的解題方案。

MATH成績(jī)超GPT-4

為了驗(yàn)證AlphaMath的效果,研究人員設(shè)計(jì)了這樣的實(shí)驗(yàn):


對(duì)開源的數(shù)學(xué)大模型DeepSeekMath-Base-7B,用AlphaMath方法進(jìn)行訓(xùn)練,并在GSM8K、MATH和Gaokao2023基準(zhǔn)上,與GPT-4為代表的閉源模型、Llama2為代表的開源模型,以及專門做過數(shù)學(xué)SFT的MathCoder等模型進(jìn)行對(duì)比。


結(jié)果顯示,不依賴于人類(或GPT-4)標(biāo)注的高質(zhì)量數(shù)據(jù),AlphaMath調(diào)教下的7B數(shù)學(xué)大模型,已經(jīng)能在MATH上取得63%的分?jǐn)?shù),超過了GPT-4原版的42.5%和外掛代碼解釋器版的51.8%。

AlphaGo核心算法增強(qiáng),7B模型數(shù)學(xué)能力直逼GPT-4,阿里大模型新研究火了-AI.x社區(qū)

另外,在執(zhí)行3輪MCTS并訓(xùn)練策略模型和價(jià)值模型的情況下,AlphaMath能讓大模型在涵蓋小學(xué)數(shù)學(xué)題的GSM8K上提升10多分,在MATH和Gaokao2023上提升20多分。


還可以看到,Step-level Beam Search在MATH數(shù)據(jù)集上取得了良好的效率和準(zhǔn)確率平衡。

AlphaGo核心算法增強(qiáng),7B模型數(shù)學(xué)能力直逼GPT-4,阿里大模型新研究火了-AI.x社區(qū)

論文的共同一作是Guoxin Chen、Mingpeng liao、Chengxi Li和Kai Fan。


通訊作者Kai Fan本碩畢業(yè)于北京大學(xué),2017年從杜克大學(xué)博士畢業(yè),2018年加入阿里巴巴達(dá)摩院。


論文地址:
???https://arxiv.org/abs/2405.03553??


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/0LevzAVD8EzVmNI2m-87Tw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 99亚洲精品视频 | 国产a视频 | 九九热久久免费视频 | 日韩中文在线 | 成在线人视频免费视频 | 91精品国产777在线观看 | 欧美高清免费 | 久久国产亚洲 | 在线观看中文字幕 | 国产伦精品一区二区 | 久久久www成人免费精品张筱雨 | 国产精品一区二区在线免费观看 | 欧美淫片 | 欧美日韩国产欧美 | 999精品视频 | 中文字幕第一页在线 | 久久精品久久综合 | 日韩精品成人一区二区三区视频 | 狠狠做深爱婷婷综合一区 | 天天干夜夜拍 | 成人av高清在线观看 | 一区二区三区视频在线观看 | 午夜av在线| 日韩一区二区三区在线视频 | 中文字字幕一区二区三区四区五区 | 超碰在线免费公开 | 福利精品 | 三级成人在线观看 | 久久精品亚洲国产 | 欧洲亚洲精品久久久久 | 中文字幕精品一区久久久久 | 神马九九| 精品不卡| 久久国产精品99久久久大便 | 一区二区日韩 | 亚洲www啪成人一区二区 | 91视频日本| 第一色在线 | 成人一区二区三区在线观看 | 国产精品美女久久久 | www.国产精品 |