成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<option id="ik684"><cite id="ik684"></cite></option>

<bdo id="ik684"><th id="ik684"></th></bdo>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

2025美國最新奧數(shù)題，讓大模型集體翻車，DeepSeek R1平均分也不到5%

作者：機(jī)器之心 2025-04-03 09:42:05

人工智能新聞

注于評估大模型數(shù)學(xué)能力的 MathArena 平臺的研究人員，首次全面評估了模型解決復(fù)雜數(shù)學(xué)問題的完整推理和證明構(gòu)建能力。

當(dāng) AI 翻開奧數(shù)題，CPU 也燒了！

還記得那些被奧數(shù)題折磨得徹夜難眠的日子嗎？

當(dāng)你在凌晨三點(diǎn)對著一道幾何證明題抓耳撓腮、懷疑人生的時(shí)候，你可能會想：「要是有個(gè)超級大腦能幫我解決這些問題該多好啊！」

好消息：大模型解數(shù)學(xué)題的能力很強(qiáng)！壞消息：它們好像也被奧數(shù)折磨得不輕。

很多針對大型語言模型（LLMs）的數(shù)學(xué)基準(zhǔn)測試已經(jīng)表明，最先進(jìn)的推理模型在美國數(shù)學(xué)邀請賽（AIME）等數(shù)學(xué)競賽中表現(xiàn)出色，O3-MINI 模型甚至達(dá)到了與頂尖人類參賽者相當(dāng)?shù)乃?。然而，這些測試僅僅評估了最終答案，而忽略了推理和證明過程。

為彌補(bǔ)這一不足，專注于評估大模型數(shù)學(xué)能力的 MathArena 平臺的研究人員，首次全面評估了模型解決復(fù)雜數(shù)學(xué)問題的完整推理和證明構(gòu)建能力。

美國數(shù)學(xué)奧林匹克競賽（USAMO）是全球最具挑戰(zhàn)性的中學(xué)生數(shù)學(xué)競賽之一。首先，該賽事強(qiáng)調(diào)嚴(yán)格證明與邏輯嚴(yán)謹(jǐn)性，題目均為證明題，要求選手通過嚴(yán)密的邏輯推導(dǎo)和完整的數(shù)學(xué)語言呈現(xiàn)解答，而非僅給出數(shù)值答案（如 AIME）。其次，題目難度極高，涉及數(shù)論、組合數(shù)學(xué)、代數(shù)、幾何等核心領(lǐng)域，常需運(yùn)用高級技巧（如生成函數(shù)、不等式放縮、圖論構(gòu)造等）。而且題目設(shè)計(jì)具有「門檻效應(yīng)」：部分問題看似簡單，但需洞察隱藏結(jié)構(gòu)或非標(biāo)準(zhǔn)解法（如構(gòu)造性證明、反證法）。

他們在 2025 年美國數(shù)學(xué)奧林匹克競賽（USAMO）試題發(fā)布后立即測試了多個(gè)熱門模型，結(jié)果令人失望：所有模型都表現(xiàn)欠佳，平均得分不到 5%。

通過深入分析模型的推理過程，研究人員識別出了多種常見失敗模式，并發(fā)現(xiàn)模型訓(xùn)練中的某些優(yōu)化策略反而產(chǎn)生了負(fù)面影響。

論文標(biāo)題：PROOF OR BLUFF? EVALUATING LLMS ON 2025 USA MATH OLYMPIAD
論文鏈接：https://arxiv.org/pdf/2503.21934v1
項(xiàng)目主頁：https://matharena.ai
項(xiàng)目代碼：https://github.com/eth-sri/matharena

結(jié)果表明，當(dāng)前的 LLM 在嚴(yán)格的數(shù)學(xué)推理方面，尤其是在形式化證明生成方面，仍然非常吃力。在未來的研究中，有必要改進(jìn)訓(xùn)練方法，如納入重證明的數(shù)據(jù)集、整合形式驗(yàn)證工具或開發(fā)優(yōu)先考慮邏輯一致性而非答案優(yōu)化的架構(gòu)，彌合數(shù)值正確性與逐步證明能力之間的差距。

方法

評估基準(zhǔn)與問題準(zhǔn)備

研究團(tuán)隊(duì)選擇了 USAMO 2025 作為基準(zhǔn)測試，這是一個(gè)權(quán)威數(shù)學(xué)競賽，包含六道需要證明的題目，為期兩天。這個(gè)競賽非常適合作為評估基準(zhǔn)，因?yàn)轭}目具有挑戰(zhàn)性，需要詳細(xì)證明才能得滿分，且數(shù)據(jù)未被污染.

圖 1 展示了兩個(gè)競賽題目。在評估過程中，研究人員要求各模型提供全面詳細(xì)的證明，并使用 LaTeX 格式。

為降低結(jié)果的變異性，每個(gè)模型對每道題目進(jìn)行了四次獨(dú)立解答。所有解答均經(jīng)過匿名化處理并轉(zhuǎn)換為 PDF 格式進(jìn)行評分，評分過程中不考慮思考過程部分。

評審團(tuán)隊(duì)

評分團(tuán)隊(duì)由四位資深數(shù)學(xué)專家組成，他們都曾是國家 IMO 隊(duì)成員或進(jìn)入過國家隊(duì)最終選拔。評審前，他們接受了詳細(xì)說明評估目標(biāo)和方法的指導(dǎo)（可在 GitHub 查閱）。團(tuán)隊(duì)通過 USAMO 2024 三道題目的試評分熟悉了評分標(biāo)準(zhǔn)并解決歧義。

評分流程

USAMO 2025 的六個(gè)問題均由兩名評審員獨(dú)立評分，每位評審員負(fù)責(zé)三個(gè)不同問題。這種借鑒 IMO 的雙重評分方法確保了評分的一致性并減少了主觀偏見。由于官方不發(fā)布標(biāo)準(zhǔn)答案，研究團(tuán)隊(duì)從可靠的數(shù)學(xué)社區(qū)資源（尤其是 AoPS 論壇）收集整理了標(biāo)準(zhǔn)化評分方案，并驗(yàn)證了所有解法的準(zhǔn)確性。

遵循 USAMO 慣例，每題滿分七分，對有意義的進(jìn)展給予部分分。評審員根據(jù)既定標(biāo)準(zhǔn)獨(dú)立評分，對不完全符合評分方案的解法也適當(dāng)給分，并記錄了評分理由和部分分?jǐn)?shù)的合理性說明。

失敗模式分類

評估者在評分過程中記錄了明顯的失敗模式 —— 即推理中首次出現(xiàn)的錯(cuò)誤或解釋不充分的實(shí)例，包括邏輯缺陷、無根據(jù)的假設(shè)、數(shù)學(xué)不準(zhǔn)確或計(jì)算錯(cuò)誤。這些錯(cuò)誤被具體分為四類：

邏輯：由于邏輯謬誤或無根據(jù)的推理跳躍導(dǎo)致的錯(cuò)誤，中斷了推理過程。
假設(shè)：由于引入未經(jīng)證明或不正確的假設(shè)而產(chǎn)生的錯(cuò)誤，這些假設(shè)破壞了后續(xù)步驟。
創(chuàng)造力：由于無法識別正確方法而導(dǎo)致的從根本上錯(cuò)誤的解決策略所造成的錯(cuò)誤。
代數(shù) / 算術(shù)：由關(guān)鍵的代數(shù)或算術(shù)計(jì)算錯(cuò)誤引起的錯(cuò)誤。

研究團(tuán)隊(duì)還系統(tǒng)性地記錄了模型在生成解決方案過程中表現(xiàn)出的顯著行為模式和趨勢，以便進(jìn)行深入分析。這些觀察結(jié)果有助于識別模型推理能力中存在的常見問題和需要改進(jìn)的方向。

結(jié)果

主要結(jié)果

研究評估了六個(gè)推理模型（QWQ、R1、FLASH-THINKING、O1-PRO、O3-MINI 和 Claude 3.7）在 2025 年 USAMO 問題上的表現(xiàn)。

表 1 詳細(xì)分析了各模型在每個(gè)問題上的表現(xiàn)，平均分基于四次評估運(yùn)行計(jì)算，每題滿分 7 分，每次運(yùn)行總分 42 分。表中還包括使用各模型的總成本數(shù)據(jù)。

評估發(fā)現(xiàn)，雖然當(dāng)前頂尖語言模型在以數(shù)值答案為主的競賽（如 AIME 和 HMMT）中可與頂尖人類競爭者相當(dāng)，但在生成嚴(yán)格證明方面存在顯著差距。所有評估模型的最高平均分不足 5%，近 150 個(gè)被評估的解答中無一獲得滿分。

所有模型都無法解決超過一個(gè)問題，這凸顯了當(dāng)前大型語言模型在奧林匹克級數(shù)學(xué)推理任務(wù)中的局限性。這表明現(xiàn)有優(yōu)化方法如 GRPO 對需要高度邏輯精確性的任務(wù)可能尚不足夠。

失敗模式

人類參與者最常見的失誤是無法找到正確解答，但他們通常能清楚判斷自己是否成功解決了問題。相比之下，所有評估的大型語言模型都聲稱已解決問題，這對數(shù)學(xué)應(yīng)用構(gòu)成重大挑戰(zhàn)，因?yàn)樵谌狈?yán)格人類驗(yàn)證的情況下，這些模型得出的結(jié)果不可信賴。

研究人員詳細(xì)分析了評分過程中發(fā)現(xiàn)的錯(cuò)誤類型。圖 2 展示了評審員確定的錯(cuò)誤類別分布。

最常見的是邏輯缺陷，包括無依據(jù)的推理步驟、錯(cuò)誤理由或?qū)ο惹斑M(jìn)展的誤解。另一個(gè)重要問題是模型傾向于將關(guān)鍵證明步驟視為瑣碎而不提供適當(dāng)證明。值得注意的是，盡管 O3-MINI 是表現(xiàn)最佳的推理模型之一，卻經(jīng)常通過將關(guān)鍵步驟標(biāo)記為「瑣碎」來跳過基本證明步驟。

研究還發(fā)現(xiàn)模型推理缺乏創(chuàng)造性，通常在所有嘗試中采用相同且錯(cuò)誤的策略，未能探索替代方法。例外是 FLASH-THINKING，它在同一運(yùn)行中嘗試多種策略，但僅淺層探索每種方法，未能得出有效結(jié)論。

然而，模型在代數(shù)和算術(shù)計(jì)算方面普遍表現(xiàn)出色，能在沒有外部支持的情況下成功執(zhí)行符號運(yùn)算。不過，R1 表現(xiàn)出明顯更高頻率的代數(shù)或算術(shù)錯(cuò)誤，表明這是該模型需要改進(jìn)的方向。

自動評分

研究團(tuán)隊(duì)探索了用 LLMs 替代人類評分員的可行性，選擇 O3-MINI 和 Claude 3.7 作為評分模型。兩個(gè)模型均獲得了評分方案、驗(yàn)證解決方案和評估示例參考。

表 2 顯示，兩個(gè)模型都未能準(zhǔn)確評分解決方案，均系統(tǒng)性地高估了解答質(zhì)量。具體而言，它們經(jīng)常為不正確或無依據(jù)的推理授予分?jǐn)?shù)，導(dǎo)致分?jǐn)?shù)膨脹最多達(dá)到 20 倍。

值得注意的是，F(xiàn)LASH-THINKING 從自動評估中獲得的分?jǐn)?shù)明顯低于其他模型，研究人員推測這可能是因?yàn)樗鼉A向于在每次嘗試中生成多個(gè)解決方案，從而混淆了基于 LLMs 的評審系統(tǒng)。相比之下，QWQ 獲得較高分?jǐn)?shù)，可能是因?yàn)樗ǔＩ筛啙嵉慕鉀Q方案，更便于自動評審系統(tǒng)理解。

定性討論

答案框選

當(dāng)前強(qiáng)化學(xué)習(xí)優(yōu)化技術(shù)依賴從明確的最終答案中提取獎勵，為此模型常被要求將最終答案放在 \boxed {} 環(huán)境中。然而，這在 USAMO 問題解答中產(chǎn)生了意外副作用：即使大多數(shù)評估問題不需要框選答案，模型仍習(xí)慣性地這樣做。

一個(gè)典型例子是問題 5 中，QWQ 模型錯(cuò)誤地限制自己只尋找整數(shù)解，盡管題目沒有這樣的要求。它堅(jiān)持最終答案是 2，雖然已經(jīng)正確推導(dǎo)出所有偶數(shù)都滿足條件。這表明像 GRPO 這樣的對齊技術(shù)可能無意中讓模型認(rèn)為每個(gè)數(shù)學(xué)問題都需要一個(gè)明確的框選答案，從而損害了其整體推理能力。

模式泛化

模型常表現(xiàn)出將小數(shù)值案例中觀察到的模式過度泛化到更大未測試案例的傾向。雖然這種啟發(fā)式方法對僅需數(shù)值答案的問題可能有效，但對于需要嚴(yán)格證明的問題，這種方法本質(zhì)上存在缺陷。模型經(jīng)常在缺乏正式證明的情況下，錯(cuò)誤地?cái)嘌孕“咐杏^察到的模式具有普遍適用性。

解答結(jié)構(gòu)與清晰度

不同模型提供的解答在清晰度和結(jié)構(gòu)連貫性上存在顯著差異。O3-MINI 和 O1-PRO 等模型通常以清晰、邏輯化且易于理解的方式呈現(xiàn)解答。相反，F(xiàn)LASH-THINKING 和 QWQ 等模型經(jīng)常產(chǎn)生混亂且難以理解的回答，有時(shí)在單個(gè)解答中混合多個(gè)不相關(guān)的概念。

OpenAI 訓(xùn)練的模型在清晰度上的明顯優(yōu)勢表明，專注于解答連貫性的額外訓(xùn)練顯著提高了其可讀性，這一特性在其他模型中明顯受到較少重視。

所以，當(dāng)下次有人警告你「AI 即將統(tǒng)治世界」時(shí)，不妨淡定地遞給他一張奧數(shù)試卷：「先讓它們過了這一關(guān)再說吧。」

責(zé)任編輯：張燕妮來源：機(jī)器之心

大模型數(shù)學(xué)AI

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：日本精品一区二区 | 国产成人精品久久二区二区 | 日本三级播放 | 亚洲自拍偷拍欧美 | 波多野结衣电影一区 | 亚洲精品久久久一区二区三区 | 成人欧美一区二区三区黑人孕妇 | 天天射天天干 | 成人免费观看男女羞羞视频 | 免费一区 | 91免费看片 | 欧美日韩综合视频 | 三级黄色网址 | 99在线播放 | 日韩午夜 | 国产欧美一区二区三区免费 | 国产精品一区二区三区在线 | www.亚洲 | 奇米影视在线 | 国产精品毛片无码 | 黄色精品| 在线免费黄色小视频 | 国产做a爱片久久毛片 | 男女下面一进一出网站 | av毛片| 日本粉嫩一区二区三区视频 | 粉嫩粉嫩芽的虎白女18在线视频 | 狠狠干美女 | 精品伊人久久 | 亚洲国产欧美精品 | 99久久精品免费看国产四区 | 欧美天堂在线观看 | 欧美亚洲网站 | 日本在线免费 | 久久伊人精品 | 99久久精品国产麻豆演员表 | 精品国产99 | 九九热在线视频观看这里只有精品 | 岛国视频| 国产中文 | 欧美99久久精品乱码影视 |

<input id="cuism"></input>