成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

挑戰(zhàn)AI數(shù)學(xué)推理極限!大規(guī)模形式化數(shù)學(xué)基準(zhǔn)FormalMATH發(fā)布,最強(qiáng)模型成功率僅16%

人工智能 新聞
盡管大語言模型(LLM)在自然語言處理和代碼生成等領(lǐng)域取得顯著進(jìn)展,但面對需要嚴(yán)格邏輯推導(dǎo)的數(shù)學(xué)定理證明任務(wù)時,其能力仍面臨嚴(yán)峻挑戰(zhàn)。

最強(qiáng)AI模型面對5560道數(shù)學(xué)難題,成功率僅16.46%?背后真相大揭秘。

香港中文大學(xué)、西湖大學(xué)、MAP、浙江大學(xué)、馬克斯·普朗克智能系統(tǒng)研究所等機(jī)構(gòu)聯(lián)合推出FormalMATH形式化數(shù)學(xué)推理基準(zhǔn)測試,含5560道經(jīng)過嚴(yán)格驗(yàn)證的數(shù)學(xué)題,覆蓋從奧數(shù)到大學(xué)水平的代數(shù)、微積分、數(shù)論等領(lǐng)域。

圖片

形式化數(shù)學(xué)推理是人工智能領(lǐng)域公認(rèn)的核心難題之一。

盡管大語言模型(LLM)在自然語言處理和代碼生成等領(lǐng)域取得顯著進(jìn)展,但面對需要嚴(yán)格邏輯推導(dǎo)的數(shù)學(xué)定理證明任務(wù)時,其能力仍面臨嚴(yán)峻挑戰(zhàn)。

FormalMATH基準(zhǔn)測試首次系統(tǒng)性評估了當(dāng)前LLM驅(qū)動的定理證明器的真實(shí)水平。

結(jié)果顯示:即便是表現(xiàn)最佳的模型Kimina-Prover ,在實(shí)際計(jì)算資源限制下(Pass@32采樣量),成功率也僅為16.46% ;而多數(shù)模型在微積分等領(lǐng)域的表現(xiàn)接近「隨機(jī)猜測」

FormalMATH:「超大規(guī)模」的形式化數(shù)學(xué)推理基準(zhǔn)

規(guī)模突破:22.8倍于現(xiàn)有基準(zhǔn)

FormalMATH包含5560個經(jīng)過Lean4編譯器驗(yàn)證的數(shù)學(xué)命題,涵蓋代數(shù)、數(shù)論、微積分、離散數(shù)學(xué)等12個子領(lǐng)域,問題難度從國際數(shù)學(xué)奧林匹克(IMO)競賽級延伸至本科課程,規(guī)模是經(jīng)典基準(zhǔn)MiniF2F的22.8倍。

構(gòu)建創(chuàng)新:人類在循環(huán)中的自動化流程用于自動形式化和語義一致性檢測

為解決傳統(tǒng)形式化數(shù)據(jù)依賴專家手動標(biāo)注的瓶頸,研究團(tuán)隊(duì)提出了一套「三階段過濾」框架:

  1. 多LLM協(xié)同翻譯 :通過微調(diào)后的Qwen2.5-7B-Coder、Deepseek-Prover-V1.5-Base等模型將自然語言問題轉(zhuǎn)為多個候選的形式化命題;
  2. 自動化驗(yàn)證 :利用Lean4編譯器篩選語法正確命題,并通過多LLM語義一致性校驗(yàn)(如o1-mini、Claude-3.5)過濾錯誤;
  3. 否定反證過濾 :調(diào)用LLM證明器嘗試「證偽」命題,排除無法成立的陳述。該流程在人工審核前保留了72.09%的高質(zhì)量命題,大幅降低專家工作量。

最后,團(tuán)隊(duì)召集了12名人類奧賽金牌級別的專家花了22天檢測自然語言數(shù)學(xué)命題與Lean4形式化命題之間的語義一致性。

圖片

現(xiàn)有LLM證明器表現(xiàn):代數(shù)尚可,微積分「翻車」

整體低迷:16%成功率暴露能力斷層

在FormalMATH全量數(shù)據(jù)集上,主流LLM證明器的表現(xiàn)遠(yuǎn)低于預(yù)期:

  • 最佳模型Kimina-Prover(Pass@32):16.46%;
  • 次優(yōu)模型STP(Pass@32):13.87%

圖片

領(lǐng)域偏見:代數(shù)強(qiáng),微積分弱

現(xiàn)有模型在代數(shù)等領(lǐng)域表現(xiàn)較好,但在微積分等其他領(lǐng)域表現(xiàn)較差,顯示出明顯的領(lǐng)域偏差。

圖片

錯誤模式:濫用「捷徑戰(zhàn)術(shù)」

分析顯示,LLM證明器頻繁濫用自動化策略(如aesop、linarith),試圖用單一步驟替代多步推理,導(dǎo)致以下典型錯誤(以DeepSeek-RL為例):

  1. 冗余假設(shè)(34%): 引入無關(guān)前提條件
  2. 不完整證明(62%): 缺失關(guān)鍵推導(dǎo)步驟, 無法形成完整構(gòu)造證明
  3. 自動化策略誤用 (65.0%):錯誤調(diào)用自動化工具(如用integral_mono_on跳過控制收斂定理驗(yàn)證)
  4. 無法正確應(yīng)對不等式 (13.0%):錯誤地(例如在指數(shù)爆炸的情況)過度依賴linarith或者nlinarith等自動化不等式計(jì)算策略

突破方向:讓LLM學(xué)會「嚴(yán)謹(jǐn)思考」

技術(shù)瓶頸:自然語言引導(dǎo)反拖后腿

研究團(tuán)隊(duì)發(fā)現(xiàn)一個反直覺現(xiàn)象:在鏈?zhǔn)剿季S(CoT)場景中,提供自然語言解題思路反而會降低證明成功率。

例如,DeepSeek-V1.5-RL模型在普通的CoT提示時表現(xiàn)優(yōu)于引入人為自然語言引導(dǎo)的情況。

圖片

未來路徑:從「戰(zhàn)術(shù)依賴」到「戰(zhàn)略規(guī)劃」

未來,提升LLM形式化推理能力需從三方面突破:

  1. 強(qiáng)化多步規(guī)劃 :減少對aesop等單步戰(zhàn)術(shù)的依賴,設(shè)計(jì)分層推理架構(gòu);
  2. 跨領(lǐng)域泛化 :通過課程學(xué)習(xí)(Curriculum Learning)平衡代數(shù)/微積分等領(lǐng)域的訓(xùn)練數(shù)據(jù);
  3. 人機(jī)協(xié)同驗(yàn)證 :開發(fā)交互式證明輔助工具,讓LLM與人類專家協(xié)同完成復(fù)雜定理證明。

開源開放:數(shù)據(jù)、代碼與模型已全面公開

研究團(tuán)隊(duì)呼吁學(xué)術(shù)界與工業(yè)界共同推進(jìn)形式化數(shù)學(xué)推理技術(shù)的發(fā)展,助力AI在數(shù)學(xué)發(fā)現(xiàn)、形式化驗(yàn)證等領(lǐng)域?qū)崿F(xiàn)更可靠的應(yīng)用。

FormalMATH基準(zhǔn)測試的代碼、訓(xùn)練數(shù)據(jù)及評估模型已向公眾開放:

論文鏈接 :https://arxiv.org/pdf/2505.02735

項(xiàng)目倉庫 :https://github.com/Sphere-AI-Lab/FormalMATH-Bench

基準(zhǔn)數(shù)據(jù)集 :https://huggingface.co/SphereLab

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-04 09:00:00

2023-12-06 13:44:00

模型訓(xùn)練

2025-02-25 14:46:59

2024-12-24 14:10:00

數(shù)據(jù)模型訓(xùn)練

2022-07-18 10:05:16

AI挑戰(zhàn)方案

2022-11-21 10:18:24

AI谷歌

2025-02-13 12:23:28

2024-11-11 13:12:03

2025-06-18 08:49:00

模型系統(tǒng)AI

2025-06-04 13:53:22

代碼模型AI

2025-04-14 00:10:00

人工智能AIAI 模型

2012-10-23 14:27:55

無奈大裁員濾鏡拍照

2025-01-23 16:25:23

2023-11-10 15:36:10

2025-05-12 09:05:00

AI大模型開源

2023-06-30 17:59:27

Ray離線推理

2023-11-13 18:19:35

AI訓(xùn)練

2025-06-25 09:28:38

2010-11-18 10:59:00

求職

2024-01-03 17:39:23

云計(jì)算混合云
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产一区二区视频在线观看 | 国产精品视频yy9299一区 | 国产1区2区 | 精品国产欧美一区二区三区成人 | 国产精品v | 找个黄色片 | 国产成人99久久亚洲综合精品 | 一区二区三区免费 | 国产亚洲二区 | 免费a级毛片在线播放 | 国产精品色av | 日韩av.com | 久久免费国产视频 | 国产三级在线观看播放 | 亚洲一区二区视频在线观看 | 午夜精品久久久久久久久久久久久 | 91精品国产91久久久久久不卞 | 色综合天天天天做夜夜夜夜做 | 一区二区三区免费在线观看 | 国产黄色免费网站 | 成人h免费观看视频 | 天天拍天天射 | 国产精品久久国产精品 | 蜜桃精品在线 | 91久久精品一区二区二区 | 久久男人天堂 | 欧美一区二区成人 | 欧美精品tv| 国产精品视频网址 | 免费a级毛片在线播放 | 久久av一区二区三区 | 综合久久久 | 欧美成人精品一区二区三区 | av网站免费观看 | 狠狠视频 | 亚洲成人精品在线 | 久久成人国产精品 | 亚洲欧美中文日韩在线v日本 | 亚洲毛片在线观看 | 国产中文字幕网 | 国产高清久久久 |