成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AlphaGo核心算法增強,7B模型數學能力直逼GPT-4,阿里大模型新研究火了

人工智能
研究人員用蒙特卡洛樹搜索(MCTS)給大語言模型來了把性能增強,無需人工標注解題步驟,也能生成高質量數據,有效提升大模型的數學成績。

把AlphaGo的核心算法用在大模型上,“高考”成績直接提升了20多分。

在MATH數據集上,甚至讓7B模型得分超過了GPT-4。

一項來自阿里的新研究引發關注:

研究人員用蒙特卡洛樹搜索(MCTS)給大語言模型來了把性能增強,無需人工標注解題步驟,也能生成高質量數據,有效提升大模型的數學成績。

圖片

論文發布,讓不少網友重新關注到了蒙特卡洛樹搜索這個在前大模型時代的明星算法。

有人直言:

蒙特卡洛樹搜索+LLM是通往超級智能之路。

圖片

因為“樹搜索本身更接近人類思維”。

用蒙特卡洛樹搜索增強大模型

具體來說,阿里的研究人員提出了一種名為AlphaMath的方法,用大語言模型+MCTS來自動生成數學推理數據,并提升大模型在完成數學推理任務時的性能表現。

嗯,名字就很有蒙特卡洛樹搜索內味兒了。

這里有個前情提要:

思維鏈(CoT)、思維程序(PoT)等方法已經被證明能夠有效提高大模型的數學能力,但問題在于,它們都需要人類手動喂詳細的解題步驟,即訓練當中需要用到人工標注的高質量數學推理數據。

AlphaMath的一個核心目的就在于,在這個步驟中去人工化——數據格式就是簡單的數學問題-答案對。

圖片

AlphaMath的技術路線主要涵蓋三個階段:

首先,研究人員收集了一個數學數據集,其中包含數學問題及其對應的正確答案。

然后,利用預訓練的大模型(即策略模型)根據問題生成初始的解題路徑,并通過MCTS對解題路徑進行探索和改進,搜索更優的解題思路。

在MCTS過程中,同時訓練一個價值模型來預測解題路徑的質量,引導搜索方向。

最后,第二階段獲得的數據會被用來優化策略模型和價值模型。

圖片

這三個階段會通過迭代優化地方式執行,以實現無需人工標注的自動數據生成和模型數學能力優化。

另外,研究人員還基于價值模型提出了Step-level Beam Search方法,以提高大模型的數學推理效率,平衡推理時的解題質量和運行時間。

簡單來說,Step-level Beam Search是將MCTS推理過程做了個簡化:

  • 利用價值模型對候選路徑進行評估,以更準確地選擇高質量的解題路徑。
  • 通過逐步擴展和剪枝,在搜索過程中動態調整候選路徑集合,提高搜索效率。
  • 搜索過程中考慮了完整的解題路徑,而不僅僅是局部的下一步動作,可以得到更全局優化的解題方案。

MATH成績超GPT-4

為了驗證AlphaMath的效果,研究人員設計了這樣的實驗:

對開源的數學大模型DeepSeekMath-Base-7B,用AlphaMath方法進行訓練,并在GSM8K、MATH和Gaokao2023基準上,與GPT-4為代表的閉源模型、Llama2為代表的開源模型,以及專門做過數學SFT的MathCoder等模型進行對比。

結果顯示,不依賴于人類(或GPT-4)標注的高質量數據,AlphaMath調教下的7B數學大模型,已經能在MATH上取得63%的分數,超過了GPT-4原版的42.5%和外掛代碼解釋器版的51.8%。

圖片

另外,在執行3輪MCTS并訓練策略模型和價值模型的情況下,AlphaMath能讓大模型在涵蓋小學數學題的GSM8K上提升10多分,在MATH和Gaokao2023上提升20多分。

還可以看到,Step-level Beam Search在MATH數據集上取得了良好的效率和準確率平衡。

圖片

論文的共同一作是Guoxin Chen、Mingpeng liao、Chengxi Li和Kai Fan。

通訊作者Kai Fan本碩畢業于北京大學,2017年從杜克大學博士畢業,2018年加入阿里巴巴達摩院。

論文地址:https://arxiv.org/abs/2405.03553。

責任編輯:姜華 來源: 量子位
相關推薦

2024-02-07 12:39:00

AI數據

2024-06-11 14:30:18

2024-04-02 09:17:50

AI數據開源

2024-04-19 14:52:13

MetaGPT-4模型

2023-05-15 15:38:59

AI模型

2023-09-23 12:50:39

AI訓練

2024-07-08 08:38:00

模型推理

2023-10-21 12:42:06

數據模型

2024-04-19 09:17:33

AI模型

2024-04-01 12:41:55

2024-12-25 20:01:13

2024-01-30 21:18:57

模型智能CMMLU

2023-09-07 13:25:00

AI模型

2024-06-03 10:43:34

2023-06-01 12:46:46

GPT-4數學OpenAI

2023-06-19 08:19:50

2024-08-09 12:50:02

2023-07-09 14:50:48

模型調優

2023-06-27 13:37:17

谷歌AI

2023-12-09 14:30:50

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄视频在线网站 | 日韩精品在线视频免费观看 | 艹逼网| 亚洲国产成人精品女人 | 国产精品视频偷伦精品视频 | 亚洲欧美精品 | 国产精品福利网站 | 国产精品久久亚洲 | 日韩国产欧美 | 玖玖国产 | 青青草国产在线观看 | 在线视频91 | 99在线免费观看 | 国产a视频| 99re在线| 9191成人精品久久 | 亚洲视频 欧美视频 | 日批的视频 | 国产高清久久 | 久久久久久久一区 | 欧美日韩精品国产 | 国产一区二区三区在线 | 亚洲欧美成人在线 | 香蕉视频一区二区 | 久久久日韩精品一区二区三区 | 精品国产乱码久久久久久88av | 日韩激情视频一区 | 中文字幕av在线播放 | 欧美在线视频一区二区 | 亚洲精品美女 | 久久久精品综合 | 国产精品久久久久无码av | 日韩视频精品在线 | 天天影视网天天综合色在线播放 | 天堂一区| 在线免费国产视频 | 成人h动漫亚洲一区二区 | 久草新在线 | 欧美日韩高清一区 | 日日久| 成人免费一区二区三区牛牛 |