成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

普林斯頓團(tuán)隊(duì)領(lǐng)銜發(fā)布最強(qiáng)開源數(shù)學(xué)定理證明模型:32B性能大幅超越前代SOTA DeepSeek 671B

人工智能 新聞
由普林斯頓大學(xué)牽頭,聯(lián)合清華大學(xué)、北京大學(xué)、上海交通大學(xué)、斯坦福大學(xué),以及英偉達(dá)、亞馬遜、Meta FAIR 等多家頂尖機(jī)構(gòu)的研究者共同推出了新一代開源數(shù)學(xué)定理證明模型

近日,由普林斯頓大學(xué)牽頭,聯(lián)合清華大學(xué)、北京大學(xué)、上海交通大學(xué)、斯坦福大學(xué),以及英偉達(dá)、亞馬遜、Meta FAIR 等多家頂尖機(jī)構(gòu)的研究者共同推出了新一代開源數(shù)學(xué)定理證明模型——Goedel-Prover-V2。

該項(xiàng)目的 32B 旗艦?zāi)P驮诙鄠€(gè)自動(dòng)數(shù)學(xué)定理證明的主要基準(zhǔn)測試上均大幅超過之前的最先進(jìn)開源模型 DeepSeek-Prover-V2-671B;而 8B 小尺寸模型在特定基準(zhǔn)上,性能表現(xiàn)與 DeepSeek-Prover-V2-671B 持平,展示了其在效率和能力上的新突破。

圖片

  • 項(xiàng)目主頁:http://blog.goedel-prover.com
  • HuggingFace 模型下載:https://huggingface.co/Goedel-LM/Goedel-Prover-V2-32B

主要成果

MiniF2F 性能新高:其 32B 旗艦?zāi)P驮?MiniF2F 測試中,Pass@32 (每道測試題目嘗試 32 次;pass 數(shù)越小,計(jì)算開銷越小)的正確率相較于之前的 SOTA 模型 DeepSeek-Prover-V2-671B 提升了 8.0%。

小而強(qiáng):8B 參數(shù)模型的性能表現(xiàn)與之前 671B 參數(shù)的 SOTA 模型持平。

登頂 PutnamBench:在極具挑戰(zhàn)性的 PutnamBench (普特南數(shù)學(xué)競賽基準(zhǔn))上,該模型排名第一。

圖片

項(xiàng)目簡介

Goedel-Prover-V2 立足于形式化推理,即以精確、無歧義的形式語言(Formal Language)來進(jìn)行數(shù)學(xué)推理,完整數(shù)學(xué)定理證明,整個(gè)推理和證明過程可被機(jī)器自動(dòng)驗(yàn)證。目前,最主流的形式化證明語言 Lean 已經(jīng)被廣泛的數(shù)學(xué)家群體接受。

Goedel-Prover-V2 的開發(fā)流程基于標(biāo)準(zhǔn)的專家迭代(expert iteration)與強(qiáng)化學(xué)習(xí),并引入了三項(xiàng)關(guān)鍵創(chuàng)新:

  • 分層式數(shù)據(jù)合成 (Scaffolded data synthesis):通過自動(dòng)合成難度漸進(jìn)遞增的證明任務(wù)來訓(xùn)練模型,讓模型能夠循序漸進(jìn)地處理更復(fù)雜的定理。
  • 驗(yàn)證器引導(dǎo)的自我修正 (Verifier-guided self-correction):模型通過利用 Lean 編譯器的反饋,學(xué)習(xí)迭代地修正自身生成的證明,模擬人類自我修正的過程。
  • 模型平均 (Model averaging):融合不同訓(xùn)練節(jié)點(diǎn)的模型權(quán)重,以提升模型的魯棒性與綜合性能。

基于這些方法,該項(xiàng)目的較小模型 Goedel-Prover-V2-8B 在 MiniF2F 測試集上(Pass@32)達(dá)到了 83.3% 的通過率,甚至超越此前模型參數(shù)量超過 80 倍的 SOTA 模型 DeepSeek-Prover-V2-671B 的性能。其旗艦?zāi)P?Goedel-Prover-V2-32B 更是將此項(xiàng)指標(biāo)提升至 88.1% (標(biāo)準(zhǔn)模式)和 90.4% (自我修正模式),大幅超越了所有先前的 SOTA 模型。

在 PutnamBench 上,開啟自我修正模式的旗艦?zāi)P蛢H使用 Pass@64 就解決了 64 個(gè)問題,用遠(yuǎn)遠(yuǎn)更小的計(jì)算開銷超過了 DeepSeek-Prover-V2-671B 在 Pass@1024 下解決 47 個(gè)問題的記錄。

性能表現(xiàn)

基準(zhǔn)測試結(jié)果

自我修正模式:模型先生成初始證明,再利用 Lean 編譯器的反饋進(jìn)行兩輪自我修正。這一過程仍然保持了高效:總的輸出長度(包括初始證明和兩輪修正)僅僅從標(biāo)準(zhǔn)的 32K tokens 略微增加到 40K tokens。

圖片

圖 1: 在 MiniF2F、PutnamBench、以及新發(fā)布的 MathOlympiadBench (包含 360 道數(shù)學(xué)奧林匹克競賽級(jí)別題目)上的 Pass@32 性能對(duì)比。橫軸為不同模型表現(xiàn),縱軸為模型性能(解決題目的百分比或者個(gè)數(shù))

上圖展示了 Goedel-Prover-V2 在 MiniF2F、PutnamBench 和 MathOlympiadBench 三個(gè)基準(zhǔn)測試中的性能。所有數(shù)據(jù)在 Pass@32 下測得:

  • 在三個(gè)數(shù)據(jù)集中,32B 旗艦?zāi)P驮跇?biāo)準(zhǔn)模式和自我修正模式下的性能均顯著超過了之前的 SOTA 模型 DeepSeek-Prover-V2-671B 和 Kimina-Prover-72B。
  • 在 MiniF2F 上,8B 模型的性能與模型尺寸大近 100 倍的 DeepSeek-Prover-V2-671B 相當(dāng)。

PutnamBench 排行榜

下表為 PutnamBench 的最新排名。Goedel-Prover-V2-32B 在相對(duì)更少的計(jì)算開銷(pass 數(shù))下取得了領(lǐng)先成績。

圖片

表 1: PutnamBench 排行榜。

推理時(shí)的計(jì)算擴(kuò)展性

推理時(shí)的計(jì)算擴(kuò)展性曲線顯示,在不同的推理采樣預(yù)算下,Goedel-Prover-V2-32B 模型的性能均穩(wěn)定超過了之前的同類模型。

圖片

圖 2: 在不同采樣預(yù)算下,模型在 MiniF2F 測試集上的性能表現(xiàn)。橫軸為 pass 數(shù)(采樣預(yù)算),縱軸為解決題目的百分比

技術(shù)方法

Goedel-Prover-V2 的性能主要基于以下四種核心技術(shù):

  • 專家迭代與強(qiáng)化學(xué)習(xí) (Expert Iteration & RL):項(xiàng)目遵循標(biāo)準(zhǔn)的訓(xùn)練流程:形式化問題、生成并驗(yàn)證證明、利用新證明訓(xùn)練下一代模型,并結(jié)合強(qiáng)化學(xué)習(xí)進(jìn)行優(yōu)化。
  • 分層式數(shù)據(jù)合成 (Scafforded Data Synthesis):該技術(shù)自動(dòng)生成中等難度的問題,用以彌合已解決的簡單問題與尚未解決的復(fù)雜問題之間的鴻溝,從而實(shí)現(xiàn)更平滑的難度遞進(jìn),并為模型提供更密集且更具信息量的訓(xùn)練信號(hào)。
  • 驗(yàn)證器引導(dǎo)的自我修正 (Verifier-Guided Self-Correction):模型被訓(xùn)練以使用 Lean 編譯器的反饋來迭代修正自身證明,這一能力被整合到監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)流程中。
  • 模型平均 (Model Averaging):為避免訓(xùn)練后期模型多樣性下降,研究者將訓(xùn)練好的模型與基礎(chǔ)模型進(jìn)行權(quán)重平均,此方法有助于提升在需要更多采樣次數(shù)時(shí)的 Pass@K 性能。

模型與數(shù)據(jù)集下載

為了促進(jìn)相關(guān)領(lǐng)域的研究,團(tuán)隊(duì)已公開發(fā)布了 Goedel-Prover-V2 模型及全新的 MathOlympiadBench 基準(zhǔn)。

模型下載

  • Goedel-Prover-V2-32B:https://huggingface.co/Goedel-LM/Goedel-Prover-V2-32B
  • Goedel-Prover-V2-8B:https://huggingface.co/Goedel-LM/Goedel-Prover-V2-8B

數(shù)據(jù)集下載

  • MathOlympiadBench:https://huggingface.co/datasets/Goedel-LM/FoMOBench

MathOlympiadBench 是一個(gè)收錄了奧林匹克級(jí)別數(shù)學(xué)競賽問題形式化版本的數(shù)據(jù)集,來源包括 Compfiles 和 IMOSLLean4 等代碼庫。數(shù)據(jù)集共包含 360 個(gè)問題,覆蓋了 IMO (International Math Olympiad,國際數(shù)學(xué)奧林匹克競賽)、IMO 候選短名單及其他區(qū)域性競賽題。

研究團(tuán)隊(duì)表示,發(fā)布此模型旨在支持開源社區(qū)的研究,包括為 IMO 等數(shù)學(xué)競賽做準(zhǔn)備的相關(guān)項(xiàng)目。包含完整技術(shù)細(xì)節(jié)的論文將在未來幾周內(nèi)發(fā)布。

項(xiàng)目骨干:

圖片

林勇(Yong Lin),普林斯頓大學(xué)博士后,與金馳、陳丹琦、Sanjeev Arora 教授合作,研究方向?yàn)榇竽P偷男问交瘮?shù)學(xué)推理與后訓(xùn)練。相關(guān)成果曾獲 NAACL 杰出論文獎(jiǎng),入選 2023 年蘋果 AI 學(xué)者。 

個(gè)人主頁:https://linyongver.github.io/Website/

圖片

唐山茖(Shange Tang),普林斯頓大學(xué)博士生,導(dǎo)師是金馳和范劍青教授。他的研究領(lǐng)域包括大模型的形式化數(shù)學(xué)推理、分布外泛化等。 

個(gè)人主頁:https://shangetang.github.io/

項(xiàng)目負(fù)責(zé)人:

圖片

金馳(Chi Jin),普林斯頓大學(xué)電子與計(jì)算機(jī)工程系教授。他的研究專注于機(jī)器學(xué)習(xí)的決策制定,致力于開發(fā)具備復(fù)雜決策與高級(jí)推理能力的智能體。其團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)、博弈論及最優(yōu)化等領(lǐng)域奠定了堅(jiān)實(shí)的理論基礎(chǔ)。近期,他們正積極將研究拓展至大語言模型(LLM),重點(diǎn)提升其推理能力。金馳教授曾榮獲多項(xiàng)重要榮譽(yù),如斯隆研究學(xué)者獎(jiǎng)(Sloan Research Fellowship)、美國國家科學(xué)基金會(huì) CAREER 獎(jiǎng)(NSF CAREER Award)等。 

個(gè)人主頁:https://sites.google.com/view/cjin/home

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-07-18 10:12:00

2025-03-10 07:00:00

阿里開源QwQ-32B

2024-08-19 08:45:00

開源模型

2025-02-12 12:04:54

2025-02-13 12:23:28

2025-02-13 08:30:00

2025-03-06 08:11:25

2025-03-07 08:30:00

2024-11-12 14:00:00

AI編程

2025-05-01 10:33:59

2025-04-03 06:30:00

2025-04-14 09:27:00

2025-03-27 10:28:32

2024-05-20 15:19:25

訓(xùn)練模型

2024-04-10 08:15:17

模型語言模型GPT

2025-04-11 12:10:33

2012-08-02 16:18:10

普林斯頓結(jié)構(gòu)哈佛結(jié)構(gòu)架構(gòu)

2025-04-03 15:57:48

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 成人综合网站 | 日本成人一区二区三区 | yy6080午夜| 日韩一级二级三级 | 欧美成人高清 | 伊人久久网站 | 亚洲一级大片 | 性做久久| 影音先锋在线视频 | 91中文字幕在线 | 国产激情网| 成人免费黄色片 | 色天堂影院 | 一级黄色小视频 | 日韩视频免费大全中文字幕 | av在线天堂网 | 欧美色影院 | 国产成人综合在线 | 国产伦精品一区二区三区视频我 | 黄色免费网站 | 午夜视频网站 | 中文字幕在线一区 | 久久久久久一区 | 亚洲视频一区二区三区四区 | 午夜精品视频 | 久久免费高清视频 | 日本不卡中文字幕 | a级片免费在线观看 | 狼人色 | 在线免费国产 | 丁香综合网 | 亚洲色欧美 | 一区二区三区视频 | 国产69精品久久久久久 | 国产三级午夜理伦三级 | 日韩免费在线 | av老司机在线 | 中文字幕高清在线 | 青草网 | 波多野结衣之双调教hd | 天天综合天天 |