成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

普林斯頓開源34B數學大模型:性能媲美谷歌Minerva,參數少一半!550億token專業數據訓練

人工智能 新聞
在數學領域,一個全新的時代即將到來。LLEMMA,一個強大的數學專用語言模型,正在帶來革命性的性能、數據集和解決方案。它不僅超越了現有開源模型,還為數學研究者們提供了開放的共享和合作機會。讓我們一起探索這個數學界的巨大突破。

數學,作為科學的基石,一直以來都是研究和創新的關鍵領域。

最近,普林斯頓大學等七家機構聯合發布了一個專門用于數學的大語言模型LLEMMA,性能媲美谷歌Minerva 62B,并公開了其模型、數據集和代碼,為數學研究帶來了前所未有的機會和資源。

論文地址:https://arxiv.org/abs/2310.10631

數據集地址:https://huggingface.co/datasets/EleutherAI/proof-pile-2

項目地址:https://github.com/EleutherAI/math-lm

LLEMMA承襲了Code Llama的基礎,在Proof-Pile-2上進行了預訓練。

Proof-Pile-2,一個龐大的混合數據集,包含著550億token的信息,其中包括科學論文、富含數學內容的網頁數據以及數學代碼。

這個數據集的一部分,Algebraic Stack,更是匯集了來自17種語言的11B數據集,覆蓋了數值、符號和數學證明。

圖片

擁有7億和34億個參數,在MATH基準測試中表現卓越,超越了所有已知的開源基礎模型。

圖片

在與Google Research開發的專門用于數學的封閉模型相比,參數量只有Minerva 62B一半的條件下,Llemma 34B獲得了幾乎相同的性能。

Llemma在等參數基礎上超越了Minerva的問題解決性能,通過應用計算工具和進行形式定理證明,為數學問題的解決提供了無限可能。

它能輕松使用Python解釋器和形式定理證明器,進一步展示了其解決數學問題的能力。

由于Algebraic Stack中對形式證明數據的特別重視,Llemma是第一個展示出少樣本定理證明能力的開放基礎模型。

圖

研究人員還開放共享了LLEMMA的所有訓練數據和代碼。與以往的數學模型不同,LLEMMA是一個開源的、開放共享的模型,為整個科研社區敞開大門。

研究人員試圖量化模型記憶的效果。令人驚訝的是,他們發現Llemma對于訓練集中出現的問題并沒有變得更加準確。由于代碼和數據是開源的,研究人員鼓勵其他人復制和擴展他們的分析。

訓練數據和實驗配置

LLEMMA是一個專門用于數學的大型語言模型,它在Code Llama的基礎上繼續在Proof-Pile-2上進行預訓練,Proof-Pile-2是一個包含科學論文、含有數學內容的網頁數據和數學代碼的包含了550億token的混合數據集。

其中的代碼部分AlgebraicStack包含了17種語言源代碼的11B數據集,涵蓋數值、符號和形式數學,并已開源。

LLEMMA的每個模型均從Code Llama初始化。Code Llama模型是從Llama 2初始化的decoder-only的語言模型。

作者使用標準的自回歸語言建模目標在Proof-Pile-2上繼續訓練Code Llama模型,對7B模型進行了200B token的訓練,對34B模型進行了50B token的訓練。

評估方法和實驗結果

作者使用Proof-Pile-2對Code Llama進行繼續預訓練,并且在MATH和GSM8k等多個數學問題解決任務上對LLEMMA進行few-shot評估。

研究人員發現LLEMMA在這些任務上都有顯著的提升,并且能夠適應不同的問題類型和難度。

即便是在極高難度的數學題中,LLEMMA 34B也能夠展示出與其他開放式基礎模型相比更強大的數學能力。

在數學基準測試上,LLEMMA在Proof-Pile-2上的持續預訓練改善了五個數學基準測試的few-shot性能。

LLEMMA 34B在GSM8k上的改進比Code Llama高出20個百分點,在MATH上高出13個百分點。LLEMMA 7B也優于相似大小的專有的Minerva模型,這證明了在Proof-Pile-2上進行預訓練能有效提高大模型的數學解題能力。

在利用計算工具,如Python等解決數學問題方面,在MATH+Python和GSM8k+Python任務上,LLEMMA都比Code Llama更勝一籌。

在使用工具的 MATH 和 GSM8k 數據集上,LLEMMA 的性能也高于不使用工具時的性能。

在數學證明任務上,LLEMMA也表現優異。

非正式到正式證明的任務目標是在給定一個正式陳述、一個非正式的LATEX陳述和一個非正式的LATEX證明的情況下,生成一個正式證明,然后通過證明助手進行驗證。

正式到正式證明則是通過生成一系列證明步驟(策略)來證明一個正式陳述。結果表明,LLEMMA在Proof-Pile-2上的持續預訓練改善了這兩個正式定理證明任務的few-shot性能。

LLEMMA不僅擁有令人矚目的性能、還開放了革命性的數據集、展現了驚人的問題解決能力。

開源共享的精神,標志著數學界進入了一個新的時代。數學的未來在這里,而我們每一個數學愛好者、研究者和教育者都將從中受益。

LLEMMA的出現為我們提供了前所未有的工具,讓數學問題的解決變得更加高效和創新。

此外,開放共享的理念也將促進全球科研社區更加深入的合作,共同推動科學的進步。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-10-21 12:42:19

模型訓練

2023-09-19 14:56:00

模型訓練

2024-05-20 15:19:25

訓練模型

2025-05-06 00:45:00

2022-07-26 09:56:48

模型AI

2023-05-19 10:26:01

谷歌模型

2024-05-20 08:50:00

模型神經網絡

2023-07-26 12:58:32

數據分析運營策略

2025-02-14 10:23:00

LLM模型谷歌

2020-09-22 15:17:59

谷歌Android技術

2023-07-18 15:05:00

開源大模型

2024-01-12 17:25:45

MoE模型開源人工智能

2012-08-02 16:18:10

普林斯頓結構哈佛結構架構

2024-04-01 12:43:40

模型訓練開源

2025-05-09 08:20:37

數據類Kotlin代碼

2024-10-28 22:14:05

2025-06-10 03:30:00

2022-06-25 21:17:15

人工智能訓練

2025-04-09 10:40:32

2023-11-06 11:26:55

模型開源
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久久久国产精品三区 | 国产精品1区 | 精品久久久久久久 | 成人午夜精品一区二区三区 | 亚洲成人中文字幕 | 欧美亚洲国产日韩 | 精品欧美乱码久久久久久 | 99热国产在线播放 | 亚洲视频一区在线观看 | 国产精品久久久久久久久 | 欧美一区二区三区国产 | 三级成人在线 | 亚洲精品九九 | 久久久蜜臀国产一区二区 | 午夜大片 | 日韩不卡在线观看 | 精品久久久久久久 | 欧美一区两区 | 亚洲精品久久久蜜桃网站 | 黄色免费在线观看网站 | 免费在线观看一级毛片 | 国产精品jizz在线观看老狼 | 国产在线中文字幕 | 久久九七 | 国产精品91视频 | 成年精品| 欧美午夜视频 | 成人日韩| 久久99精品久久久久 | 国产成人免费视频网站高清观看视频 | 欧美日韩视频网站 | 麻豆国产精品777777在线 | 久久久久se| 欧美a√ | 国产日韩精品在线 | 国产精品久久久久久久久免费软件 | 久久激情视频 | 国产精品污www一区二区三区 | 久久91精品国产 | 亚洲欧美中文日韩在线v日本 | 欧美一二三 |