成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

2025美國最新奧數(shù)題,讓大模型集體翻車,DeepSeek R1平均分也不到5%

人工智能 新聞
注于評估大模型數(shù)學(xué)能力的 MathArena 平臺的研究人員,首次全面評估了模型解決復(fù)雜數(shù)學(xué)問題的完整推理和證明構(gòu)建能力。

當(dāng) AI 翻開奧數(shù)題,CPU 也燒了!

還記得那些被奧數(shù)題折磨得徹夜難眠的日子嗎?

當(dāng)你在凌晨三點(diǎn)對著一道幾何證明題抓耳撓腮、懷疑人生的時(shí)候,你可能會想:「要是有個(gè)超級大腦能幫我解決這些問題該多好啊!」

圖片

好消息:大模型解數(shù)學(xué)題的能力很強(qiáng)!壞消息:它們好像也被奧數(shù)折磨得不輕。

很多針對大型語言模型(LLMs)的數(shù)學(xué)基準(zhǔn)測試已經(jīng)表明,最先進(jìn)的推理模型在美國數(shù)學(xué)邀請賽(AIME)等數(shù)學(xué)競賽中表現(xiàn)出色,O3-MINI 模型甚至達(dá)到了與頂尖人類參賽者相當(dāng)?shù)乃?。然而,這些測試僅僅評估了最終答案,而忽略了推理和證明過程。

為彌補(bǔ)這一不足,專注于評估大模型數(shù)學(xué)能力的 MathArena 平臺的研究人員,首次全面評估了模型解決復(fù)雜數(shù)學(xué)問題的完整推理和證明構(gòu)建能力。

美國數(shù)學(xué)奧林匹克競賽(USAMO)是全球最具挑戰(zhàn)性的中學(xué)生數(shù)學(xué)競賽之一。首先,該賽事強(qiáng)調(diào)嚴(yán)格證明與邏輯嚴(yán)謹(jǐn)性,題目均為證明題,要求選手通過嚴(yán)密的邏輯推導(dǎo)和完整的數(shù)學(xué)語言呈現(xiàn)解答,而非僅給出數(shù)值答案(如 AIME)。其次,題目難度極高,涉及數(shù)論、組合數(shù)學(xué)、代數(shù)、幾何等核心領(lǐng)域,常需運(yùn)用高級技巧(如生成函數(shù)、不等式放縮、圖論構(gòu)造等)。而且題目設(shè)計(jì)具有「門檻效應(yīng)」:部分問題看似簡單,但需洞察隱藏結(jié)構(gòu)或非標(biāo)準(zhǔn)解法(如構(gòu)造性證明、反證法)。

他們在 2025 年美國數(shù)學(xué)奧林匹克競賽(USAMO)試題發(fā)布后立即測試了多個(gè)熱門模型,結(jié)果令人失望:所有模型都表現(xiàn)欠佳,平均得分不到 5%。

圖片

通過深入分析模型的推理過程,研究人員識別出了多種常見失敗模式,并發(fā)現(xiàn)模型訓(xùn)練中的某些優(yōu)化策略反而產(chǎn)生了負(fù)面影響。

圖片

  • 論文標(biāo)題:PROOF OR BLUFF? EVALUATING LLMS ON 2025 USA MATH OLYMPIAD
  • 論文鏈接:https://arxiv.org/pdf/2503.21934v1
  • 項(xiàng)目主頁:https://matharena.ai
  • 項(xiàng)目代碼:https://github.com/eth-sri/matharena

結(jié)果表明,當(dāng)前的 LLM 在嚴(yán)格的數(shù)學(xué)推理方面,尤其是在形式化證明生成方面,仍然非常吃力。在未來的研究中,有必要改進(jìn)訓(xùn)練方法,如納入重證明的數(shù)據(jù)集、整合形式驗(yàn)證工具或開發(fā)優(yōu)先考慮邏輯一致性而非答案優(yōu)化的架構(gòu),彌合數(shù)值正確性與逐步證明能力之間的差距。

方法

評估基準(zhǔn)與問題準(zhǔn)備

研究團(tuán)隊(duì)選擇了 USAMO 2025 作為基準(zhǔn)測試,這是一個(gè)權(quán)威數(shù)學(xué)競賽,包含六道需要證明的題目,為期兩天。這個(gè)競賽非常適合作為評估基準(zhǔn),因?yàn)轭}目具有挑戰(zhàn)性,需要詳細(xì)證明才能得滿分,且數(shù)據(jù)未被污染.

圖 1 展示了兩個(gè)競賽題目。在評估過程中,研究人員要求各模型提供全面詳細(xì)的證明,并使用 LaTeX 格式。

圖片

為降低結(jié)果的變異性,每個(gè)模型對每道題目進(jìn)行了四次獨(dú)立解答。所有解答均經(jīng)過匿名化處理并轉(zhuǎn)換為 PDF 格式進(jìn)行評分,評分過程中不考慮思考過程部分。

評審團(tuán)隊(duì)

評分團(tuán)隊(duì)由四位資深數(shù)學(xué)專家組成,他們都曾是國家 IMO 隊(duì)成員或進(jìn)入過國家隊(duì)最終選拔。評審前,他們接受了詳細(xì)說明評估目標(biāo)和方法的指導(dǎo)(可在 GitHub 查閱)。團(tuán)隊(duì)通過 USAMO 2024 三道題目的試評分熟悉了評分標(biāo)準(zhǔn)并解決歧義。

評分流程

USAMO 2025 的六個(gè)問題均由兩名評審員獨(dú)立評分,每位評審員負(fù)責(zé)三個(gè)不同問題。這種借鑒 IMO 的雙重評分方法確保了評分的一致性并減少了主觀偏見。由于官方不發(fā)布標(biāo)準(zhǔn)答案,研究團(tuán)隊(duì)從可靠的數(shù)學(xué)社區(qū)資源(尤其是 AoPS 論壇)收集整理了標(biāo)準(zhǔn)化評分方案,并驗(yàn)證了所有解法的準(zhǔn)確性。

遵循 USAMO 慣例,每題滿分七分,對有意義的進(jìn)展給予部分分。評審員根據(jù)既定標(biāo)準(zhǔn)獨(dú)立評分,對不完全符合評分方案的解法也適當(dāng)給分,并記錄了評分理由和部分分?jǐn)?shù)的合理性說明。

失敗模式分類

評估者在評分過程中記錄了明顯的失敗模式 —— 即推理中首次出現(xiàn)的錯(cuò)誤或解釋不充分的實(shí)例,包括邏輯缺陷、無根據(jù)的假設(shè)、數(shù)學(xué)不準(zhǔn)確或計(jì)算錯(cuò)誤。這些錯(cuò)誤被具體分為四類:

  • 邏輯:由于邏輯謬誤或無根據(jù)的推理跳躍導(dǎo)致的錯(cuò)誤,中斷了推理過程。
  • 假設(shè):由于引入未經(jīng)證明或不正確的假設(shè)而產(chǎn)生的錯(cuò)誤,這些假設(shè)破壞了后續(xù)步驟。
  • 創(chuàng)造力:由于無法識別正確方法而導(dǎo)致的從根本上錯(cuò)誤的解決策略所造成的錯(cuò)誤。
  • 代數(shù) / 算術(shù):由關(guān)鍵的代數(shù)或算術(shù)計(jì)算錯(cuò)誤引起的錯(cuò)誤。

研究團(tuán)隊(duì)還系統(tǒng)性地記錄了模型在生成解決方案過程中表現(xiàn)出的顯著行為模式和趨勢,以便進(jìn)行深入分析。這些觀察結(jié)果有助于識別模型推理能力中存在的常見問題和需要改進(jìn)的方向。

結(jié)果

主要結(jié)果

研究評估了六個(gè)推理模型(QWQ、R1、FLASH-THINKING、O1-PRO、O3-MINI 和 Claude 3.7)在 2025 年 USAMO 問題上的表現(xiàn)。

表 1 詳細(xì)分析了各模型在每個(gè)問題上的表現(xiàn),平均分基于四次評估運(yùn)行計(jì)算,每題滿分 7 分,每次運(yùn)行總分 42 分。表中還包括使用各模型的總成本數(shù)據(jù)。

圖片

評估發(fā)現(xiàn),雖然當(dāng)前頂尖語言模型在以數(shù)值答案為主的競賽(如 AIME 和 HMMT)中可與頂尖人類競爭者相當(dāng),但在生成嚴(yán)格證明方面存在顯著差距。所有評估模型的最高平均分不足 5%,近 150 個(gè)被評估的解答中無一獲得滿分。

所有模型都無法解決超過一個(gè)問題,這凸顯了當(dāng)前大型語言模型在奧林匹克級數(shù)學(xué)推理任務(wù)中的局限性。這表明現(xiàn)有優(yōu)化方法如 GRPO 對需要高度邏輯精確性的任務(wù)可能尚不足夠。

失敗模式

人類參與者最常見的失誤是無法找到正確解答,但他們通常能清楚判斷自己是否成功解決了問題。相比之下,所有評估的大型語言模型都聲稱已解決問題,這對數(shù)學(xué)應(yīng)用構(gòu)成重大挑戰(zhàn),因?yàn)樵谌狈?yán)格人類驗(yàn)證的情況下,這些模型得出的結(jié)果不可信賴。

研究人員詳細(xì)分析了評分過程中發(fā)現(xiàn)的錯(cuò)誤類型。圖 2 展示了評審員確定的錯(cuò)誤類別分布。

最常見的是邏輯缺陷,包括無依據(jù)的推理步驟、錯(cuò)誤理由或?qū)ο惹斑M(jìn)展的誤解。另一個(gè)重要問題是模型傾向于將關(guān)鍵證明步驟視為瑣碎而不提供適當(dāng)證明。值得注意的是,盡管 O3-MINI 是表現(xiàn)最佳的推理模型之一,卻經(jīng)常通過將關(guān)鍵步驟標(biāo)記為「瑣碎」來跳過基本證明步驟。

圖片

研究還發(fā)現(xiàn)模型推理缺乏創(chuàng)造性,通常在所有嘗試中采用相同且錯(cuò)誤的策略,未能探索替代方法。例外是 FLASH-THINKING,它在同一運(yùn)行中嘗試多種策略,但僅淺層探索每種方法,未能得出有效結(jié)論。

然而,模型在代數(shù)和算術(shù)計(jì)算方面普遍表現(xiàn)出色,能在沒有外部支持的情況下成功執(zhí)行符號運(yùn)算。不過,R1 表現(xiàn)出明顯更高頻率的代數(shù)或算術(shù)錯(cuò)誤,表明這是該模型需要改進(jìn)的方向。

自動評分

研究團(tuán)隊(duì)探索了用 LLMs 替代人類評分員的可行性,選擇 O3-MINI 和 Claude 3.7 作為評分模型。兩個(gè)模型均獲得了評分方案、驗(yàn)證解決方案和評估示例參考。

表 2 顯示,兩個(gè)模型都未能準(zhǔn)確評分解決方案,均系統(tǒng)性地高估了解答質(zhì)量。具體而言,它們經(jīng)常為不正確或無依據(jù)的推理授予分?jǐn)?shù),導(dǎo)致分?jǐn)?shù)膨脹最多達(dá)到 20 倍。

值得注意的是,F(xiàn)LASH-THINKING 從自動評估中獲得的分?jǐn)?shù)明顯低于其他模型,研究人員推測這可能是因?yàn)樗鼉A向于在每次嘗試中生成多個(gè)解決方案,從而混淆了基于 LLMs 的評審系統(tǒng)。相比之下,QWQ 獲得較高分?jǐn)?shù),可能是因?yàn)樗ǔI筛啙嵉慕鉀Q方案,更便于自動評審系統(tǒng)理解。

圖片

定性討論

答案框選

當(dāng)前強(qiáng)化學(xué)習(xí)優(yōu)化技術(shù)依賴從明確的最終答案中提取獎勵,為此模型常被要求將最終答案放在 \boxed {} 環(huán)境中。然而,這在 USAMO 問題解答中產(chǎn)生了意外副作用:即使大多數(shù)評估問題不需要框選答案,模型仍習(xí)慣性地這樣做。

一個(gè)典型例子是問題 5 中,QWQ 模型錯(cuò)誤地限制自己只尋找整數(shù)解,盡管題目沒有這樣的要求。它堅(jiān)持最終答案是 2,雖然已經(jīng)正確推導(dǎo)出所有偶數(shù)都滿足條件。這表明像 GRPO 這樣的對齊技術(shù)可能無意中讓模型認(rèn)為每個(gè)數(shù)學(xué)問題都需要一個(gè)明確的框選答案,從而損害了其整體推理能力。

模式泛化

模型常表現(xiàn)出將小數(shù)值案例中觀察到的模式過度泛化到更大未測試案例的傾向。雖然這種啟發(fā)式方法對僅需數(shù)值答案的問題可能有效,但對于需要嚴(yán)格證明的問題,這種方法本質(zhì)上存在缺陷。模型經(jīng)常在缺乏正式證明的情況下,錯(cuò)誤地?cái)嘌孕“咐杏^察到的模式具有普遍適用性。

解答結(jié)構(gòu)與清晰度

不同模型提供的解答在清晰度和結(jié)構(gòu)連貫性上存在顯著差異。O3-MINI 和 O1-PRO 等模型通常以清晰、邏輯化且易于理解的方式呈現(xiàn)解答。相反,F(xiàn)LASH-THINKING 和 QWQ 等模型經(jīng)常產(chǎn)生混亂且難以理解的回答,有時(shí)在單個(gè)解答中混合多個(gè)不相關(guān)的概念。

OpenAI 訓(xùn)練的模型在清晰度上的明顯優(yōu)勢表明,專注于解答連貫性的額外訓(xùn)練顯著提高了其可讀性,這一特性在其他模型中明顯受到較少重視。

所以,當(dāng)下次有人警告你「AI 即將統(tǒng)治世界」時(shí),不妨淡定地遞給他一張奧數(shù)試卷:「先讓它們過了這一關(guān)再說吧。」

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-01-27 12:30:07

2025-01-21 11:53:53

2025-04-03 15:57:48

2025-04-14 09:15:00

英偉達(dá)模型數(shù)據(jù)

2025-02-20 15:32:28

2025-04-03 02:25:00

2023-06-06 17:48:35

罷工人工智能AI

2025-05-19 17:18:57

AI模型o3

2025-02-15 08:15:04

聯(lián)想DeepSeek

2025-06-19 09:04:00

2025-05-16 08:58:09

2025-02-17 07:35:00

DeepSeek模型數(shù)據(jù)

2025-02-06 16:40:09

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-08 11:31:17

DeepseekR1模型

2025-02-12 12:12:59

2025-03-06 10:14:39

2025-02-11 08:35:30

2025-03-05 09:10:00

AI生成模型

2025-03-06 09:55:49

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日本精品一区二区 | 国产成人精品久久二区二区 | 日本三级播放 | 亚洲自拍偷拍欧美 | 波多野结衣电影一区 | 亚洲精品久久久一区二区三区 | 成人欧美一区二区三区黑人孕妇 | 天天射天天干 | 成人免费观看男女羞羞视频 | 免费一区 | 91免费看片 | 欧美日韩综合视频 | 三级黄色网址 | 99在线播放 | 日韩午夜 | 国产欧美一区二区三区免费 | 国产精品一区二区三区在线 | www.亚洲 | 奇米影视在线 | 国产精品毛片无码 | 黄色精品| 在线免费黄色小视频 | 国产做a爱片久久毛片 | 男女下面一进一出网站 | av毛片| 日本粉嫩一区二区三区视频 | 粉嫩粉嫩芽的虎白女18在线视频 | 狠狠干美女 | 精品伊人久久 | 亚洲国产欧美精品 | 99久久精品免费看国产四区 | 欧美天堂在线观看 | 欧美亚洲网站 | 日本在线免费 | 久久伊人精品 | 99久久精品国产麻豆演员表 | 精品国产99 | 九九热在线视频观看这里只有精品 | 岛国视频| 国产中文 | 欧美99久久精品乱码影视 |