成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Llama版o1來了,來自上海AI Lab,強化學習代碼已開源,基于AlphaGo Zero范式

人工智能 新聞
LLaMA版o1項目剛剛發布,來自上海AI Lab團隊。

復刻OpenAI o1推理大模型,開源界傳來最新進展:

LLaMA版o1項目剛剛發布,來自上海AI Lab團隊。

簡介中明確:使用了蒙特卡洛樹搜索,Self-Play強化學習,PPO,以及AlphaGo Zero的雙重策略范式(先驗策略+價值評估)。

圖片

在2024年6月,o1發布之前,團隊就開始探索蒙特卡洛樹搜索提高大模型數學能力,積累了一些關注。

這次最新開源代碼,也在開發者社區引起熱議。

圖片

OpenAI o1系列發布后,團隊開始升級算法,專注于數學奧賽問題,作為OpenAI草莓項目的開源版本。

10月初,團隊上傳新論文,使用成對優化(不直接給出絕對分數,而是比較兩個答案的相對優劣)提高Llama模型數學奧賽能力。

在最難的AIME2024基準測試30道題中,原版LLaMA-3.1-8B-Instruct做對2道,優化后做對8道,超過了除o1-preview和o1-mini之外的其他商業閉源方案。

圖片

10月底,團隊宣布在基于AlphaGo Zero架構復刻OpenAI o1的努力中取得了重大進展:

已成功使模型在學習過程中通過與搜索樹交互獲得高級思維能力,無需人工標注

不到一周時間,項目便開源了。

圖片

LLaMA版o1最新進展

目前已開源內容包括:預訓練數據集、 預訓練模型、強化學習訓練代碼

OpenLongCoT-Pretrain數據集,包含10萬+條長思維鏈數據。

圖片

每條數據包含一個完整的數學問題推理過程,包含思考內容和評分結果。

例如一個幾何問題,包含了問題描述、圖形坐標、計算過程和結論推導等完整的推理鏈路,以及對各個推理步驟的批評和驗證內容,對推理過程進行評價和指導。

圖片

在此數據集繼續預訓練后,模型可讀取和輸出類似o1的長思維鏈過程。

預訓練代碼尚未發布,目前推薦使用LLaMaFactory代替。

有意思的是雖然項目名為LLaMA-O1,但目前官方給的預訓練模型基于谷歌Gemma 2。

圖片

目前在預訓練模型基礎上,可以繼續進行強化學習訓練,從代碼中可以看出訓練過程如下:

  • 使用蒙特卡洛樹搜索進行自我對弈(self-play)以生成經驗
  • 將經驗存儲在優先經驗回放緩沖區中
  • 從緩沖區采樣批次數據進行訓練
  • 更新模型參數和經驗優先級

論文中也給出了訓練過程的圖示。

圖片

圖片

同時訓練代碼中使用了以下關鍵技術點:

  • 使用LoRA進行參數高效微調
  • 使用PPO算法作為策略優化方法
  • 實現了GAE(Generalized Advantage Estimation)算法用于計算優勢函數
  • 使用優先經驗回放提高訓練效率

最后,LLaMA-O1代碼發布在名為SimpleBerryGitHub賬號下,并沒有特別簡介,還比較神秘。

其他與SimpleBerry有關的賬號和官網中,只能看出性質是一個研究實驗室,也并未透露更多研究方向信息。

圖片

其他o1復刻項目進展

除LLaMA-O1之外,另一個公開進展的o1復刻項目O1-Journey來自上交大團隊。

團隊在十月初發布了第一份進展報告,其中介紹了創新Journey Learning范式,以及第一個成功將搜索和學習整合到數學推理中的模型。

圖片

O1-Journey核心開發團隊主要由上交大大三、大四本科生,以及上交大GAIR實驗室(生成式人工智能研究實驗室)的一年級博士生組成。

指導教師包括上交大副教授劉鵬飛,姚班校友、斯隆獎得主李遠志等。

圖片

LLaMA-O1:https://github.com/SimpleBerry/LLaMA-O1
相關論文:https://arxiv.org/abs/2406.07394
https://arxiv.org/abs/2410.02884

O1-Journey:https://github.com/GAIR-NLP/O1-Journey/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-01-21 09:00:00

2024-11-25 08:30:00

2024-09-18 10:37:00

強化學習AI模型

2024-09-23 15:40:00

2024-12-17 12:30:00

2025-01-08 13:08:55

2025-02-03 00:00:01

Ai2o1LLM

2025-02-13 09:10:00

2024-12-09 12:10:07

2024-09-13 06:32:25

2024-09-14 14:00:00

AI模型

2024-10-17 14:10:00

模型訓練

2025-04-25 09:20:00

數據模型AI

2025-02-03 14:17:27

2021-11-10 15:24:25

AI 數據人工智能

2025-01-06 08:30:00

3D模型數據

2020-11-16 08:54:05

Google 開源技術

2024-11-28 13:40:00

模型訓練

2025-05-30 09:03:00

模型數據評測

2024-08-14 14:30:00

AI訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品美女久久久 | 日本三级在线网站 | 国内自拍偷拍 | 中文字幕1区 | 在线观看日韩精品视频 | 成人高清在线 | 国产精品久久久久久久久久三级 | 精品久久久久久久久久久久久 | 成人免费视频观看 | 国产精品久久久 | 亚洲欧美激情四射 | 一区二区精品视频 | 99reav| 五月香婷婷 | 亚洲人成在线播放 | 亚洲激情av | 农夫在线精品视频免费观看 | 欧美日韩黄色一级片 | 日本三级全黄三级三级三级口周 | 欧美精品日韩精品国产精品 | 亚洲国产精品精华素 | 91看片视频 | 日韩欧美亚洲 | 天天射美女 | 搞av.com| 精品国产一区二区三区久久 | 日本视频免费 | 欧美日韩在线一区 | 蜜臀久久99精品久久久久久宅男 | 久久综合久色欧美综合狠狠 | 午夜视频一区二区 | 一本在线 | 红桃成人在线 | 亚洲美女一区 | 毛片在线看看 | 中文字幕一区二区三区精彩视频 | 一区二区三区免费在线观看 | 国产精品久久久久久久久久尿 | 精品视频 免费 | www国产成人免费观看视频 | 男人天堂免费在线 |