成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

12.1萬(wàn)高難度數(shù)學(xué)題讓模型性能大漲,覆蓋FIMO/Putnam等頂級(jí)賽事難度,騰訊上海交大出品

人工智能 新聞
“特訓(xùn)題”為DeepTheorem,是首個(gè)基于自然語(yǔ)言的數(shù)學(xué)定理證明框架與數(shù)據(jù)集,由騰訊AI Lab與上海交大團(tuán)隊(duì)聯(lián)合推出。

12.1萬(wàn)道IMO級(jí)難度數(shù)學(xué)“特訓(xùn)題”,讓AI學(xué)會(huì)像人類(lèi)一樣推導(dǎo)數(shù)學(xué)證明!

“特訓(xùn)”過(guò)后,模型定理證明性能大漲,7B模型性能比肩或超越現(xiàn)有的開(kāi)源模型和Claude3.7等商業(yè)模型。

“特訓(xùn)題”為DeepTheorem,是首個(gè)基于自然語(yǔ)言的數(shù)學(xué)定理證明框架與數(shù)據(jù)集,由騰訊AI Lab與上海交大團(tuán)隊(duì)聯(lián)合推出。

圖片

團(tuán)隊(duì)表示,定理證明是數(shù)學(xué)前沿的重要組成部分,但當(dāng)前大語(yǔ)言模型(LLM)在數(shù)學(xué)推理,特別是通過(guò)強(qiáng)化學(xué)習(xí)(RL)進(jìn)行訓(xùn)練時(shí),往往需要可以自動(dòng)驗(yàn)證的答案,導(dǎo)致大模型無(wú)法像數(shù)學(xué)家那樣通過(guò)自然語(yǔ)言進(jìn)行定理證明。

而當(dāng)前研究者通常通過(guò)使用大模型生成Lean、Coq、Isabelle等形式語(yǔ)言,配合外部定理證明引擎進(jìn)行定理證明,無(wú)法充分利用LLM在自然語(yǔ)言預(yù)訓(xùn)練過(guò)程中獲得的能力。

為解決這一問(wèn)題,DeepTheorem框架橫空出世,包含了從數(shù)據(jù)、訓(xùn)練、測(cè)試到評(píng)估的完整四部分:

  • 121K大規(guī)模、高難度、嚴(yán)格去污染的自然語(yǔ)言定理與o3-mini生成的配套證明過(guò)程
  • 首個(gè)使用強(qiáng)化學(xué)習(xí)進(jìn)行數(shù)學(xué)定理證明的方法
  • 分別基于FIMO、HMMT、PutnamBench構(gòu)建的三個(gè)自然語(yǔ)言定理證明測(cè)試集
  • 涵蓋結(jié)果監(jiān)督與過(guò)程監(jiān)督的全面評(píng)價(jià)指標(biāo)

如下圖(a)所示,DeepTheorem數(shù)據(jù)在規(guī)模和難度上均顯著超越目前已有的公開(kāi)定理數(shù)據(jù)集。

圖(b)展示經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的DeepTheorem-7B模型性能,比肩或超越現(xiàn)有的開(kāi)源模型和商業(yè)模型(Gemini2.0-flash, Qwen2.5-72B-Instruct, Claude3.7等),僅次于o1、o3以及Gemini2.5-pro強(qiáng)推理模型。

圖片

DeepTheorem-121K

1、規(guī)模與難度:專(zhuān)為“極限挑戰(zhàn)”而生

DeepTheorem訓(xùn)練集的顯著特點(diǎn)是其大規(guī)模與高難度。其包含121K精心構(gòu)造的數(shù)學(xué)定理,難度等級(jí)為5-9級(jí),規(guī)模顯著大于現(xiàn)有數(shù)學(xué)定理數(shù)據(jù)且難度更高,與FIMO等國(guó)際數(shù)學(xué)奧賽級(jí)別的測(cè)試集難度分布相似。

圖片

2、嚴(yán)格去污染:確保評(píng)估“純凈”

DeepTheorem訓(xùn)練集的構(gòu)建過(guò)程堪稱(chēng)“匠心獨(dú)運(yùn)”,通過(guò)一個(gè)細(xì)致的五階段流程構(gòu)造:

圖片

來(lái)源分析與收集:分析現(xiàn)有數(shù)據(jù)來(lái)源,選擇難題比例高的數(shù)據(jù)源。

數(shù)據(jù)去污染:使用嵌入相似性搜索和LLM-Judge來(lái)識(shí)別并消除與MATH、AIME、GPQA等14個(gè)通用數(shù)學(xué)和STEM基準(zhǔn)以及miniF2F、PutnamBench、FIMO等四個(gè)數(shù)學(xué)定理證明基準(zhǔn)的重疊,確保評(píng)估的完整性并防止數(shù)據(jù)泄露。

證明生成與質(zhì)量控制:使用o3-mini生成定理證明過(guò)程,并使用GPT-4o對(duì)定理完整性進(jìn)行評(píng)估,保留定理與證明過(guò)程完整的樣本。

難度過(guò)濾:使用GPT-4o對(duì)定理進(jìn)行難度評(píng)估,保留難度等級(jí)5或更高的定理。

單命題過(guò)濾:根據(jù)定理中的子命題個(gè)數(shù)進(jìn)行篩選,保留僅含一個(gè)自命題的定理。

3、獨(dú)特結(jié)構(gòu):兼顧SFT與RL

DeepTheorem訓(xùn)練集中的每條數(shù)據(jù)都包含豐富的信息,支持多種數(shù)學(xué)推理研究和應(yīng)用:

  • 問(wèn)題:核心的數(shù)學(xué)定理陳述。
  • 最終答案:定理的真值(真或假),這對(duì)于在可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)中基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)至關(guān)重要,是自動(dòng)化評(píng)估和反饋的基礎(chǔ)。
  • 難度:數(shù)值難度標(biāo)注,支持難度感知訓(xùn)練。
  • 主題:分層主題分類(lèi),涵蓋從初等代數(shù)到抽象代數(shù)、微積分的廣泛數(shù)學(xué)主題。
  • o3-mini證明過(guò)程:由o3-mini模型生成的證明過(guò)程,對(duì)于監(jiān)督微調(diào)和模型蒸餾等多種訓(xùn)練范式都具有巨大價(jià)值。

圖片

將RL-Zero引入數(shù)學(xué)定理證明

1、數(shù)據(jù)增強(qiáng):定理可以被證明,也可以被證偽

為將可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)引入自然語(yǔ)言數(shù)學(xué)定理證明,DeepTheorem通過(guò)自動(dòng)化的方法來(lái)對(duì)每個(gè)原始定理進(jìn)行擴(kuò)展,衍生出多個(gè)可被證明或證偽的變體。

圖片

以定理“x>1”為例,若該定理成立,則變體一“x>0”也一定成立,而變體二“x<1”則一定不成立。通過(guò)這種方式,DeepTheorem僅基于定理本身(而不需要接觸證明過(guò)程)使用大模型對(duì)訓(xùn)練集中的所有定理進(jìn)行擴(kuò)展,獲得242K定理及變體。

2、二值獎(jiǎng)勵(lì)激發(fā)定理證明能力

在獲得定理變體后,DeepTheorem使用基于GRPO的RLVR進(jìn)行定理證明訓(xùn)練。對(duì)于訓(xùn)練集中的每一個(gè)定理,模型的任務(wù)是將其證明或證偽,并在最終答案中給出判斷(證明或證偽)。

基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)根據(jù)模型最終答案進(jìn)行打分,若答案正確則得一分,若無(wú)法提取答案或答案錯(cuò)誤則得0分。

DeepTheorem評(píng)估框架

1、DeepTheorem測(cè)試集

在經(jīng)過(guò)對(duì)問(wèn)題難度、污染程度、數(shù)據(jù)可用性等多方面因素的綜合考慮后,作者們選擇了兩個(gè)現(xiàn)有的定理證明測(cè)試集FIMO與PutnamBench,并從當(dāng)前污染較少的HMMT測(cè)試集中手工篩出了定理證明相關(guān)題目,構(gòu)成三個(gè)自然語(yǔ)言定理證明測(cè)試集。

模仿對(duì)訓(xùn)練數(shù)據(jù)中的定理進(jìn)行數(shù)據(jù)增強(qiáng)的方式,DeepTheorem的作者們對(duì)這三個(gè)測(cè)試集中的每個(gè)定理手工擴(kuò)展出了多個(gè)變體,構(gòu)成最終測(cè)試集:

圖片

最終測(cè)試集中,平均每個(gè)定理包含約三個(gè)變體,三個(gè)測(cè)試集總變體數(shù)658個(gè)。

2、結(jié)果與過(guò)程評(píng)價(jià)指標(biāo)

在DeepTheorem測(cè)試集上,模型性能由兩部分評(píng)價(jià)指標(biāo)構(gòu)成:結(jié)果評(píng)價(jià)與過(guò)程評(píng)價(jià)。

結(jié)果評(píng)價(jià)的指標(biāo)定義為:對(duì)每一個(gè)原始定理,若模型成功將其全部變體證明或證偽則得1分,否則得0分。基于此定義,我們可以對(duì)每個(gè)變體隨機(jī)賦予“證明”或“證偽”的答案獲得隨機(jī)基線。此基線在三個(gè)測(cè)試集上的性能如上表Random Acc.列所示。

過(guò)程評(píng)價(jià)使用LLM-as-Judge,由GPT-4o從邏輯正確性、完整性、最終答案正確性以及過(guò)程清晰性四個(gè)維度對(duì)證明過(guò)程進(jìn)行打分。

DeepTheorem模型性能達(dá)到SOTA

實(shí)驗(yàn)結(jié)果表明,在DeepTheorem數(shù)據(jù)集上使用RL-Zero基于Qwen2.5-7B訓(xùn)練的模型擁有同規(guī)模模型中的SOTA性能。

圖片

顯著優(yōu)于DeepSeek-Prover等參數(shù)量相近的現(xiàn)有定理證明模型以及Qwen2.5-Math-72B等更大的模型,甚至比肩Claude3.7-Sonnet等閉源模型,在所評(píng)測(cè)的18個(gè)模型中性能排名第五,僅次于o1系列、o3-mini以及Gemini 2.5 Pro。

圖片

以下為DeepTheorem-RL-7B在測(cè)試集上隨機(jī)挑選的輸出樣本。模型在證明過(guò)程中展現(xiàn)出了清晰準(zhǔn)確的邏輯性,且僅使用Latex,簡(jiǎn)潔易懂。

圖片

團(tuán)隊(duì)表示,DeepTheorem框架的發(fā)布,無(wú)疑為人工智能在數(shù)學(xué)推理領(lǐng)域的應(yīng)用開(kāi)辟了全新的思路,它不僅突破了使用形式語(yǔ)言進(jìn)行定理證明的傳統(tǒng)范式限制,更通過(guò)其大規(guī)模、高質(zhì)量的訓(xùn)練數(shù)據(jù)提升了AI在前沿?cái)?shù)學(xué)方面的卓越性能。

我們期待,在DeepTheorem的推動(dòng)下,AI能夠真正學(xué)會(huì)定理證明,從封閉的計(jì)算、簡(jiǎn)答題目走向更廣闊的數(shù)學(xué)殿堂,最終邁向更強(qiáng)大、更具通用性、認(rèn)知上更復(fù)雜的智能系統(tǒng)。

團(tuán)隊(duì)簡(jiǎn)介

本文通訊作者徐嘉豪, 騰訊AI Lab高級(jí)研究員,研究方向?yàn)橥评泶竽P停贜IPS,ACL,EMNLP等國(guó)際頂級(jí)會(huì)議上發(fā)表多篇論文。

共同通訊作者涂兆鵬,騰訊混元數(shù)字人專(zhuān)家研究員,研究方向?yàn)樯疃葘W(xué)習(xí)和大模型,在國(guó)際頂級(jí)期刊和會(huì)議上發(fā)表學(xué)術(shù)論文一百余篇,多次擔(dān)任ACL、EMNLP、ICLR等國(guó)際頂級(jí)會(huì)議領(lǐng)域主席。

共同通訊作者王瑞,上海交通大學(xué)副教授,研究方向?yàn)橛?jì)算語(yǔ)言學(xué)。

第一作者為上海交通大學(xué)博士生張子殷。

論文地址:https://arxiv.org/abs/2505.23754

數(shù)據(jù)地址:https://huggingface.co/datasets/Jiahao004/DeepTheorem

代碼地址:https://github.com/Jiahao004/DeepTheorem

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2013-05-06 09:48:38

數(shù)據(jù)遷移

2014-06-13 11:25:41

WiFi華為

2025-04-01 09:25:00

2024-12-23 10:20:00

數(shù)據(jù)訓(xùn)練模型

2012-10-23 17:04:44

2019-08-13 16:40:14

2014-06-19 14:57:40

網(wǎng)絡(luò)·安全技術(shù)周刊

2025-06-08 14:15:42

2024-10-28 07:20:00

AI模型

2024-08-15 15:20:00

模型生成

2024-09-23 13:41:05

2009-05-18 09:25:00

2017-08-07 17:09:46

GAN信息檢索 IR

2019-11-17 22:45:12

谷歌Android開(kāi)發(fā)者

2014-04-15 15:49:19

博世2014

2021-06-03 12:16:18

騰訊云機(jī)器人Robotics X

2025-05-30 09:17:00

2025-05-27 15:28:11

模型訓(xùn)練AI

2023-09-21 10:30:05

AI開(kāi)源

2025-01-17 11:10:05

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 中文字幕一区在线观看视频 | 久久久久久久久久久久亚洲 | 成人一级黄色毛片 | 好姑娘高清在线观看电影 | 一区二区精品在线 | 先锋av资源网 | 亚洲精品天堂 | 欧美一区二区三区在线观看视频 | 欧美老少妇一级特黄一片 | 日韩在线播放一区 | 日韩中文字幕高清 | 免费观看一级视频 | 国产精品99久久久久久宅男 | 亚洲精品一区国语对白 | 亚洲三级视频 | 中文字幕一区在线 | 久精品视频 | 国产一区二区电影 | 成人一级视频在线观看 | 天天草天天 | 综合精品 | 久草a√ | 国内久久| 日韩高清成人 | 日本黄色大片免费看 | 中文字幕人成乱码在线观看 | 色综合久久天天综合网 | 91精品国产日韩91久久久久久 | 国产精品美女久久久久aⅴ国产馆 | 成人欧美一区二区三区1314 | 欧美日韩一区二区电影 | 一区二区三区视频在线观看 | 国产亚洲一区精品 | www国产成人免费观看视频,深夜成人网 | 亚洲精品日韩在线观看 | 亚洲啊v在线 | 男女在线免费观看 | 不卡av电影在线播放 | 国产ts人妖另类 | 久久久久中文字幕 | 国产欧美日韩一区二区三区在线 |