成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全球最強開源「定理證明器」出世!十位華人核心,8B暴擊671B DeepSeek

人工智能 新聞
迄今為止最強大的開源定理證明器登場!Goedel-Prover-V2僅用8B參數擊敗671B的DeepSeek-Prover,并再次奪下數學PutnamBench冠軍。十位核心貢獻者,八大頂尖機構,讓AI形式化證明再破紀錄。

全球最強的開源「定理證明器」誕生了!

來自普林斯頓、清華、英偉達、斯坦福等八大頂尖機構聯手,祭出了第二版Goedel-Prover-V2模型。

圖片

項目地址:https://blog.goedel-prover.com/

初代Goedel-Prover已被COLM 2025頂會錄用,曾在miniF2F Pass@32刷新SOTA,位列PutnamBench榜首。

這一次,新版模型一共有兩個參數版本:32B和8B。

歷經數月迭代,Goedel-Prover-V2再次在PutnamBench上奪冠,用更少的算力,解決了64道數學難題。

而且,在IMO級別的基準——MathOlympiadBench,新模型刷爆SOTA,一舉攻克了73個問題。

相比之下,DeepSeek-Prover-671B僅解決了50個問題。

另外,在匯集三大國際奧數競賽難題的MiniF2F基準上,32B在Pass@32上拿下90.4%成績,擊敗了DeepSeek-Prover-V2-671B(82.4%),8B模型與之實力相當。

圖片

它的出世,標志著AI又在在自動形式化證明生成領域實現了全新技術突破。

對此,有網友期待地表示,「當前,IMO 2025正在激烈比拼中,不知接下來Goedel-Prover-V2的實戰表現如何」?

圖片

8B模型一舉擊敗671B DeepSeek Prover

目前,研究團隊暫未放出arXiv論文。

不過,在項目主頁和Hugging Face,對最新Goedel-Prover-V2模型背后技術和性能基準,展開了詳實的介紹。

圖片圖片

那么,小參數的模型是如何超越了671B?

這里,Goedel-Prover-V2以Qwen3?8B?和Qwen3?32B?作為基座模型,采用了標準的「專家迭代與強化學習」框架。

具體來說,研究團隊在一個完整流程中——形式化問題、生成并驗證證明,再利用新發現的正確證明訓練下一代模型,并通過RL進一步提升性能。

接下來,他們還融入了三大創新技術:

1. 分層式數據合成(Scaffolded data synthesis)

生成難度逐步遞增的合成證明任務,對模型進行漸進式訓練,使其能夠掌握愈發復雜的定理;

自動生成介于已解決簡單問題與未解復雜問題之間的中級難度題目,形成更平滑的難度遞進,為訓練提供更密集、信息量更高的信號。

2. 驗證器引導的自我修正(Verifier-guided self-correction)

訓練模型有效利用?Lean?編譯反饋,反復修訂自身證明,高度模擬人類完善證明的過程,并將這一任務融入監督微調與強化學習階段。

3. 模型平均(Model averaging)

為防止后期訓練導致多樣性喪失,將已訓練的檢查點與基座模型進行平均。

這一簡潔技術能夠恢復多樣性,并在更大的?K?值下顯著提升?Pass@K?表現。

簡言之,融合多個模型檢查點,提升魯棒性與整體性能。

圖片

極少算力刷爆SOTA,Scaling超強

Goedel-Prover-V2首先會生成一個初始候選證明,再借助?Lean?編譯器的反饋進行迭代修正,以提高證明質量。

研究中,模型進行了兩輪自我修正,但計算開銷依然可控——總輸出長度(包含初始證明及兩次修正)僅從標準的?32K? token適度增加到40K? token。

如下表所示,展示了Goedel-Prover-V2在Pass@32下的所有結果。

首先,在全部三個數據集中,旗艦32B?模型均顯著超越此前SOTA模型,即DeepSeek?Prover?V2?671B與Kimina?Prover?72B。

其次,在miniF2F數據集上,8B模型在性能上與DeepSeek?Prover?V2?671B相當,但模型規模僅為其?1/100。

圖片

如下成績是,Goedel-Prover-V2在PutnamBench基準上,用更少的算力,擊敗所有SOTA位居榜首。

圖片

下面的Scaling曲線表明,在整個推理計算范圍內,Goedel-Prover-V2-32B始終優于所有的頂尖模型。

也就意味著,新模型具備了出色的Scaling能力。

圖片

論文核心貢獻者之一Chi Jin稱,Goedel-Prover只用了高校實驗室里的GPU,就實現了超強性能。

圖片

十位核心作者,清北上交在列

Yong Lin

圖片

Yong Lin是普林斯頓大學語言與智能(PLI)的博士后研究員,導師是Chi Jin、Sanjeev Arora和Danqi Chen。

此前,他在香港科技大學獲得博士學位,師從張潼教授;在浙江大學獲得學士和碩士學位,專業排名1/207。

在攻讀博士學位之前,他于2017年至2021年在阿里擔任高級機器學習工程師。

他的研究聚焦于機器學習和LLM的后訓練技術。主要研究方向包括:

  • 形式化數學推理:讓大語言模型能夠使用可驗證的語言(即形式化語言,如 LEAN)進行推理。
  • LLM后訓練:提升模型的有益性、無害性與誠實性等特質。

Shange Tang

圖片

Shange Tang是普林斯頓大學運籌學與金融工程系的博士生,導師是Jianqing Fan教授與金馳教授。

此前,他在北京大學數學科學學院獲得學士學位。

他的研究興趣為統計學和機器學習的理論與應用。

Bohan Lyu

圖片

Bohan Lyu目前在普林斯頓大學PLI,從事基于大語言模型與形式化語言的自動化數學定理證明研究,師從金馳教授。

此前,他在清華大學獲得學士學位。并曾在清華大學NLP實驗室(導師是劉知遠教授)和加州大學圣地亞哥分校Rose-STL-Lab(導師是虞琦教授)進行科研實習。

他的研究興趣為機器學習(ML)和自然語言處理(NLP)。

Ziran Yang(楊子然)

圖片

楊子然是普林斯頓大學電子與計算機工程系的博士生,師從金馳教授。

此前,他在北京大學元培學院獲得學士學位,到時是朱毅鑫教授、朱松純教授。

Jui-Hui Chung(鐘瑞輝)

圖片

鐘瑞輝是普林斯頓大學應用與計算數學項目的博士生,師從Jacob Shapiro教授。

他本科及碩士畢業于臺灣大學物理系,師從Ying-Jer Kao教授,期間主要從事計算物理研究。

他的研究方向是拓撲絕緣體的數學物理特性。近期在Chi Jin教授指導下,開展基于LLM的自動定理證明研究。

Haoyu Zhao

圖片

Haoyu Zhao是普林斯頓大學的博士生,師從Sanjeev Arora教授。

此前,他在清華大學計算機科學實驗班(姚班)獲得學士學位,導師是陳衛教授。

他的研究興趣橫跨數學、算法與學習的交叉領域。

Lai Jiang

圖片

上海交通大學。

Yihan Geng

圖片

北京大學。

Hongzhou Lin

圖片

Hongzhou Lin是亞馬遜應用研究科學家,隸屬于AGI基礎團隊。

此前,他在法國INRIA格勒諾布爾中心獲得了博士學位,師從Zaid Harchaoui和Julien Mairal教授。期間,他首創了一階優化算法的通用加速框架,為后續應用科學研究奠定了重要理論基礎。

隨后在MIT的Stefanie Jegelka教授指導下完成機器學習方向的博士后研究。

目前,他主要從事LLM開發工作,專注于數學推理與問題解決能力的研究,涵蓋非形式化與形式化(如LEAN)兩大方向。

Chi Jin(金馳)

圖片

金馳是普林斯頓大學電氣與計算機工程學系助理教授,計算機科學系聯合聘任教員。

此前,他在加州大學伯克利分校獲得計算機科學博士學位,在北京大學獲得物理學學士學位。

他的研究方向包括,大模型推理與智能體、博弈論與多智能體學習、強化學習、統計學習理論、優化方法。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-07-18 09:55:11

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-04-14 09:17:00

2025-04-03 06:30:00

2025-06-17 08:45:00

模型智能工具

2025-03-07 08:30:00

2025-04-11 12:10:33

2024-02-22 10:09:00

開源模型

2025-05-01 10:33:59

2025-04-03 15:57:48

2025-03-27 10:28:32

2025-04-07 08:50:00

模型AI數據

2024-12-27 11:13:16

2025-02-25 09:13:16

2025-02-03 13:55:20

2025-03-06 08:11:25

2020-11-26 09:35:00

人工智能機器學習技術

2025-02-10 13:35:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲怡春院 | 国产一区二区影院 | 日日舔 | 欧美日韩国产在线播放 | 97人人艹 | 亚洲免费精品视频 | 成人自拍视频在线观看 | 欧美在线免费 | 日韩高清国产一区在线 | 五月天婷婷综合 | 国产精品成人一区二区三区 | 欧美一区二区三区在线视频 | 999久久久 | av在线播放网址 | 亚洲三区在线 | 亚洲一区中文 | 久久久二区 | 久久精品国产一区二区 | 91av免费观看 | 18视频在线观看男男 | 日韩在线一区二区三区 | 秘密爱大尺度做爰呻吟 | 在线观看日韩av | 性做久久久久久久免费看 | 国产精品久久久久久久久久 | 亚洲观看黄色网 | 日产毛片 | 97在线视频观看 | 欧美一级欧美三级在线观看 | 黄色激情视频网站 | 黄色免费网站在线观看 | 91爱爱爱| 99在线免费视频 | 亚洲久久视频 | 久久久久久网 | 成人高潮片免费视频 | 国产成人午夜 | 国产精品美女在线观看 | www.三级| 日韩视频中文字幕 | 国产天堂网 |