謝賽寧團(tuán)隊新基準(zhǔn)讓LLM集體自閉，DeepSeek R1、Gemini 2.5 Pro都是零分

2025-06-19 09:04:00

當(dāng)前 LLM 與人類大師級水平之間仍存在顯著差距。

近年來，LLMs（如 GPT-4、Claude、Gemini 等）在代碼生成領(lǐng)域取得了顯著進(jìn)展。它們不僅在經(jīng)典編程基準(zhǔn)（如 HumanEval）中表現(xiàn)出色，甚至在某些測試中超越了人類平均水平。這促使許多研究者開始宣稱：LLM 已經(jīng)勝過人類程序員，尤其是在競賽編程領(lǐng)域。

更進(jìn)一步的，在結(jié)合了外部工具之后，一些模型（如 o3 和 o4-mini-high）甚至在 Codeforces 平臺上獲得了超過 2700 的 Elo 評分 —— 這個分?jǐn)?shù)已躋身參賽者前 0.1%。

然而，這些簡單的量化評估，真的能體現(xiàn)模型解決復(fù)雜問題的能力嗎？我們不妨先問幾個問題：LLMs 真的具備與頂級人類選手相當(dāng)?shù)耐评砟芰幔磕Ｐ偷母叻志烤褂卸嗌賮碜哉鎸?shí)的推理能力，又有多少是依賴外部工具的結(jié)果？

為了解答上述問題，來自紐約大學(xué)、普林斯頓大學(xué)等 8 家機(jī)構(gòu)的研究者提出了 LiveCodeBench Pro，這是一個極具挑戰(zhàn)性的競技編程基準(zhǔn)測試。

值得一提的是，這項研究有多位參加過國際算法競賽。例如，作者之一、紐約大學(xué)本科生 Zihan Zheng 曾代表學(xué)校參加 ICPC 世界總決賽。

LiveCodeBench Pro 收錄了 584 道截至 2025 年 4 月 25 日的高質(zhì)量題目，這些題目均來自 Codeforces 、ICPC 系列賽和 IOI 系列賽等頂級賽事。并且這些問題會不斷更新以降低可能的數(shù)據(jù)污染。

此外，所有題目均由奧賽獎牌選手進(jìn)行算法類別標(biāo)注，并對模型生成的失敗提交逐行分析。

論文標(biāo)題：LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?
論文地址：https://arxiv.org/pdf/2506.11928
項目主頁：https://livecodebenchpro.com/
GitHub：https://github.com/GavinZhengOI/LiveCodeBench-Pro

本文在 LiveCodeBench Pro 上評估了一系列前沿大模型，包括 Gemini 2.5 Pro、o4-mini-high 和 DeepSeek R1 等。

基于這套數(shù)據(jù)和評測框架，本文發(fā)現(xiàn)當(dāng)前前沿模型依然存在顯著不足：在沒有外部工具支持的情況下，表現(xiàn)最好的模型在中等難度題上的 pass@1 僅為 53%，在高難度題上則完全無法通過（0%），而這些正是人類專家仍能穩(wěn)定發(fā)揮的領(lǐng)域。

LiveCodeBench Pro 排行榜

此外，本文還發(fā)現(xiàn)，LLMs 在以實(shí)現(xiàn)（implementation-heavy）為主的問題上表現(xiàn)良好，但在處理復(fù)雜的算法推理和邊界情況分析時表現(xiàn)欠佳，甚至常常生成自信而錯誤的解釋。模型的高分更多是依賴于輔助工具的加持，而非真正的推理能力。

LiveCodeBench Pro 的出現(xiàn)揭示了當(dāng)前 LLM 與人類大師級水平之間仍存在顯著差距。

分析與討論

在不同算法范式上的表現(xiàn)

發(fā)現(xiàn) 1. 大語言模型在知識密集型和邏輯密集型問題上表現(xiàn)更佳，而在觀察密集型問題或分類討論（case work）上表現(xiàn)較差。

文中展示了 6 個模型在各類編程問題中的表現(xiàn)。研究發(fā)現(xiàn)，人類在不同問題標(biāo)簽上的表現(xiàn)更為一致，而模型的評分則因標(biāo)簽不同而顯示出更大的差異。主要發(fā)現(xiàn)總結(jié)如下：

知識密集型問題是大語言模型的舒適區(qū)。帶有如線段樹、圖論、樹和數(shù)據(jù)結(jié)構(gòu)等標(biāo)簽的問題，在大多數(shù)模型上都表現(xiàn)出很高的性能。這些問題通常可以通過拼接眾所周知的模板（例如，樹狀數(shù)組、迪杰斯特拉算法、歐拉路徑）來解決。這正是大語言模型的優(yōu)勢所在，因?yàn)樗璧哪Ｊ綍宰置嫘问匠霈F(xiàn)在其訓(xùn)練數(shù)據(jù)中，并且生成語法正確的模板對于大語言模型來說比對人類容易得多。

邏輯密集型問題也取得了同樣好的結(jié)果。大語言模型在邏輯密集型類別中也表現(xiàn)出色，例如組合數(shù)學(xué)、數(shù)學(xué)、動態(tài)規(guī)劃和二分搜索。這些類別需要更有模式的思維方式（例如，在組合數(shù)學(xué)中應(yīng)用組合恒等式，在動態(tài)規(guī)劃中構(gòu)建狀態(tài)空間并推導(dǎo)轉(zhuǎn)移函數(shù)），并且可以從記憶化的腳手架代碼中受益。

在觀察密集型問題上表現(xiàn)不佳。對于博弈論、特定問題特定分析（ad-hoc）、貪心算法和構(gòu)造性問題，大多數(shù)模型的評分驟降至 1500 以下，明顯低于其在知識密集型和邏輯密集型類別中的表現(xiàn)。解決這些問題通常取決于發(fā)現(xiàn)新穎的見解，而這是無法僅靠記憶化的代碼片段來獲得的。

大語言模型在分類討論上遇到困難。有趣的是，所有模型都在分類討論上表現(xiàn)不佳。除了 o4-mini-high 之外，每個模型的評分都低于 1500 分，即便是 o4-mini-high，其表現(xiàn)在此類別中也遠(yuǎn)遜于其他問題類別。人工檢查顯示，無法識別和處理邊界情況是所有模型的一個突出失敗模式。

交互式問題暴露了模型的顯著弱點(diǎn)。在交互式問題上，o4-mini-high 的評分驟降至 1500 左右，其他模型也表現(xiàn)掙扎。論文附錄中討論了這種糟糕表現(xiàn)背后的可能原因，并指出了 o3-mini-high 在解決交互式問題時出現(xiàn)的異常行為。

失敗原因診斷及與人類的比較

發(fā)現(xiàn) 2. o3-mini 在算法邏輯錯誤和錯誤觀察方面比人類多得多，但在實(shí)現(xiàn)邏輯錯誤方面則少得多。

研究人員專門使用可讀性最佳的模型 o3-mini 進(jìn)行標(biāo)注和深入分析，并在圖 3 的樹狀圖中展示了結(jié)果。

概念性錯誤是模型失敗的主要原因。「思路錯誤」分支內(nèi)最大的紅色區(qū)塊顯示，在 125 個標(biāo)注問題中，o3-mini 比人類參賽者多犯了 34 個算法邏輯錯誤。這些是真正的概念性失誤，而非表面的程序錯誤。

實(shí)現(xiàn)是模型的強(qiáng)項。與底層編碼相關(guān)的指標(biāo)通常對 o3-mini 有利。例如，在 125 個標(biāo)注問題中，o3-mini 比人類少犯了 25 個實(shí)現(xiàn)邏輯錯誤。值得注意的是，所有觀察到的初始化錯誤和輸入輸出格式錯誤都出現(xiàn)在人類提交的代碼中。評測結(jié)果細(xì)分也證實(shí)了這一點(diǎn)：o3-mini 幾乎沒有出現(xiàn)「運(yùn)行時錯誤」，突顯了其在實(shí)現(xiàn)層面相對不易出錯。

一個顯著的例外 —— 空閑時間超限。「評測結(jié)果」下的一個深紅色矩形顯示「空閑時間超限」的判罰激增。這源于 o3-mini 在交互式問題上的奇特行為，其大多數(shù)提交都被判為「空閑時間超限」。

在示例輸入上失敗。樹狀圖突出顯示，在「示例失敗」類別中，o3-mini 的實(shí)例數(shù)多出了 45 個，這些情況下解決方案能夠編譯，但在問題的示例輸入上就已經(jīng)失敗。與人類不同，o3-mini 無法在提交前在本地編譯或運(yùn)行示例輸入。擁有終端和工具調(diào)用能力（例如 o3 和 o4-mini-high）的模型，預(yù)計會少犯很多這類容易發(fā)現(xiàn)的錯誤。

總而言之，該分析表明，大語言模型的代碼在語法上通常更可靠，但在構(gòu)建正確算法或從問題中提取正確觀察所需的高層次推理方面存在困難。雖然正式標(biāo)注僅涵蓋了 o3-mini 的提交，但初步的人工檢查表明，大多數(shù)現(xiàn)有的大語言模型都存在相同的錯誤模式。

多次嘗試（Pass@k）對模型性能的影響

發(fā)現(xiàn) 3. 增加嘗試次數(shù)（pass@k）能顯著提升模型性能，但在高難度問題上仍然會失敗。

OpenAI 報告稱，具備終端訪問權(quán)限和 pass@k 的 o4-mini 在 Codeforces 上的 Elo 評分為 2719，這與對 o4-mini-high 的評估（無終端訪問權(quán)限，pass@1）所獲得的 2116 分形成對比。這種差異促使研究人員去研究終端訪問和工具調(diào)用的性能影響，以及允許多次嘗試（pass@k）的效果。

如圖 4 所示，隨著 k 值的增加，模型的評分顯著提高。例如，o4-mini-medium 的評分從 pass@1 時的 1793 分上升，并在 k 增加到 10 時收斂至 2334 分。o4-mini-low 和 o4-mini-high 也觀察到類似的上升趨勢。雖然多次嘗試帶來的這些增益是顯著的，但收斂后的評分仍然比報告的 2719 分低了大約 400 分。因此，可以推測，剩余的差距主要?dú)w因于工具調(diào)用和終端訪問帶來的好處。

如圖 5 所示，可以觀察到在改進(jìn)最大的五個類別中，有三個 —— 博弈論、貪心算法和分類討論 —— 屬于觀察密集型問題，通常可以通過假設(shè)結(jié)論來解決。更高頻率地進(jìn)行有根據(jù)的猜測，會大大增加正確解決這些問題的概率。

推理模型與其非推理對應(yīng)模型的比較

發(fā)現(xiàn) 4: 推理能力在組合數(shù)學(xué)中帶來最大提升，在知識密集型類別中提升較大，而在觀察密集型類別中提升相對較小。

研究人員考察了在大語言模型中啟用推理能力對每個問題標(biāo)簽的影響。具體來說，他們直接比較推理模型及其非推理對應(yīng)模型，以便控制模型架構(gòu)、訓(xùn)練數(shù)據(jù)和其他外部因素的變化，從而分離出推理的真正效果。

這種分離對于展示額外的思維鏈或測試時擴(kuò)展方法對模型在各問題標(biāo)簽上的解決問題能力的真實(shí)影響至關(guān)重要。研究特別選擇比較 DeepSeek V3 與 R1，以及 Claude 3.7 Sonnet 的非思考（Non-thinking）與思考（Thinking）版本，如圖 6 所示，這是兩款主流前沿模型，均有非推理版本和推理對應(yīng)版本。

主要發(fā)現(xiàn)總結(jié)如下：

在組合數(shù)學(xué)中提升最大：兩個模型都在組合數(shù)學(xué)中顯示出最大提升，其中 DeepSeek-R1 的評分比 V3 高出近 1400 分。

在知識密集型類別中提升較大：對于數(shù)據(jù)結(jié)構(gòu)和線段樹等知識密集型問題，啟用推理也帶來了較大提升（例如，在 DeepSeek 上，線段樹問題的評分提升了約 700 分；在 Claude 上，數(shù)據(jù)結(jié)構(gòu)問題的評分提升了約 500 分）。這是符合預(yù)期的，因?yàn)檫@些類別中的問題通常涉及結(jié)構(gòu)化思維。

在觀察密集型類別中提升有限：有趣的是，對于博弈論、貪心算法、特定問題特定分析和構(gòu)造性問題 —— 這些通常需要大量觀察且大語言模型經(jīng)常遇到困難的領(lǐng)域，即使啟用推理也只帶來微乎其微的提升（例如，對于 DeepSeek，在博弈論上的提升幾乎是最低的；而對于 Claude，則是負(fù)提升）。這就提出了一個問題：當(dāng)前的思維鏈方法對于這些類型的問題是否存在固有的局限性？或者是否存在一個涌現(xiàn)閾值 —— 即推理能力發(fā)展到某個點(diǎn)后，最終可能會在這些領(lǐng)域解鎖顯著的性能增益。

責(zé)任編輯：張燕妮來源：機(jī)器之心