普林斯頓開源34B數學大模型：性能媲美谷歌Minerva，參數少一半！550億token專業數據訓練

作者：新智元 2023-11-17 23:05:18

在數學領域，一個全新的時代即將到來。LLEMMA，一個強大的數學專用語言模型，正在帶來革命性的性能、數據集和解決方案。它不僅超越了現有開源模型，還為數學研究者們提供了開放的共享和合作機會。讓我們一起探索這個數學界的巨大突破。

數學，作為科學的基石，一直以來都是研究和創新的關鍵領域。

最近，普林斯頓大學等七家機構聯合發布了一個專門用于數學的大語言模型LLEMMA，性能媲美谷歌Minerva 62B，并公開了其模型、數據集和代碼，為數學研究帶來了前所未有的機會和資源。

論文地址：https://arxiv.org/abs/2310.10631

數據集地址：https://huggingface.co/datasets/EleutherAI/proof-pile-2

項目地址：https://github.com/EleutherAI/math-lm

LLEMMA承襲了Code Llama的基礎，在Proof-Pile-2上進行了預訓練。

Proof-Pile-2，一個龐大的混合數據集，包含著550億token的信息，其中包括科學論文、富含數學內容的網頁數據以及數學代碼。

這個數據集的一部分，Algebraic Stack，更是匯集了來自17種語言的11B數據集，覆蓋了數值、符號和數學證明。

擁有7億和34億個參數，在MATH基準測試中表現卓越，超越了所有已知的開源基礎模型。

在與Google Research開發的專門用于數學的封閉模型相比，參數量只有Minerva 62B一半的條件下，Llemma 34B獲得了幾乎相同的性能。

Llemma在等參數基礎上超越了Minerva的問題解決性能，通過應用計算工具和進行形式定理證明，為數學問題的解決提供了無限可能。

它能輕松使用Python解釋器和形式定理證明器，進一步展示了其解決數學問題的能力。

由于Algebraic Stack中對形式證明數據的特別重視，Llemma是第一個展示出少樣本定理證明能力的開放基礎模型。

圖

研究人員還開放共享了LLEMMA的所有訓練數據和代碼。與以往的數學模型不同，LLEMMA是一個開源的、開放共享的模型，為整個科研社區敞開大門。

研究人員試圖量化模型記憶的效果。令人驚訝的是，他們發現Llemma對于訓練集中出現的問題并沒有變得更加準確。由于代碼和數據是開源的，研究人員鼓勵其他人復制和擴展他們的分析。

LLEMMA是一個專門用于數學的大型語言模型，它在Code Llama的基礎上繼續在Proof-Pile-2上進行預訓練，Proof-Pile-2是一個包含科學論文、含有數學內容的網頁數據和數學代碼的包含了550億token的混合數據集。

其中的代碼部分AlgebraicStack包含了17種語言源代碼的11B數據集，涵蓋數值、符號和形式數學，并已開源。

LLEMMA的每個模型均從Code Llama初始化。Code Llama模型是從Llama 2初始化的decoder-only的語言模型。

作者使用標準的自回歸語言建模目標在Proof-Pile-2上繼續訓練Code Llama模型，對7B模型進行了200B token的訓練，對34B模型進行了50B token的訓練。

作者使用Proof-Pile-2對Code Llama進行繼續預訓練，并且在MATH和GSM8k等多個數學問題解決任務上對LLEMMA進行few-shot評估。

研究人員發現LLEMMA在這些任務上都有顯著的提升，并且能夠適應不同的問題類型和難度。

即便是在極高難度的數學題中，LLEMMA 34B也能夠展示出與其他開放式基礎模型相比更強大的數學能力。

在數學基準測試上，LLEMMA在Proof-Pile-2上的持續預訓練改善了五個數學基準測試的few-shot性能。

LLEMMA 34B在GSM8k上的改進比Code Llama高出20個百分點，在MATH上高出13個百分點。LLEMMA 7B也優于相似大小的專有的Minerva模型，這證明了在Proof-Pile-2上進行預訓練能有效提高大模型的數學解題能力。

在利用計算工具，如Python等解決數學問題方面，在MATH+Python和GSM8k+Python任務上，LLEMMA都比Code Llama更勝一籌。

在使用工具的 MATH 和 GSM8k 數據集上，LLEMMA 的性能也高于不使用工具時的性能。

在數學證明任務上，LLEMMA也表現優異。

非正式到正式證明的任務目標是在給定一個正式陳述、一個非正式的LATEX陳述和一個非正式的LATEX證明的情況下，生成一個正式證明，然后通過證明助手進行驗證。

正式到正式證明則是通過生成一系列證明步驟（策略）來證明一個正式陳述。結果表明，LLEMMA在Proof-Pile-2上的持續預訓練改善了這兩個正式定理證明任務的few-shot性能。

LLEMMA不僅擁有令人矚目的性能、還開放了革命性的數據集、展現了驚人的問題解決能力。

開源共享的精神，標志著數學界進入了一個新的時代。數學的未來在這里，而我們每一個數學愛好者、研究者和教育者都將從中受益。

LLEMMA的出現為我們提供了前所未有的工具，讓數學問題的解決變得更加高效和創新。

此外，開放共享的理念也將促進全球科研社區更加深入的合作，共同推動科學的進步。

責任編輯：張燕妮來源：新智元

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看