OpenAI官方基準測試：承認Claude遙遙領先（狗頭）

作者：量子位 2025-04-03 10:21:32

智能體在評估中需要復刻來自ICML 2024的論文，任務包括理解論文、編寫代碼和執行實驗。

OpenAI承認Claude是最好的了（狗頭）。

剛剛開源的新基準測試PaperBench，6款前沿大模型驅動智能體PK復現AI頂會論文，新版Claude-3.5-Sonnet顯著超越o1/r1排名第一。

與去年10月OpenAI考驗Agent機器學習代碼工程能力MLE-Bnch相比，PaperBench更考驗綜合能力，不再是只執行單一任務。

具體來說，智能體在評估中需要復刻來自ICML 2024的論文，任務包括理解論文、編寫代碼和執行實驗。

最終成績如下：

Claude-3.5-Sonnet斷崖式領先，第二名o1-high分數只有第一的60%，第三名DeepSeek-R1又只有第二名的一半。

此外GPT-4o超過了推理模型o3-mini-high也算一個亮點。

除了AI之間的PK， OpenAI這次還招募頂尖的機器學習博士對比o1。

雖然最終結論是AI在復現頂會論文上還無法超越人類，但展開時間軸發現，在工作時間1-6小時內Ai的進度還是比人類要快的。

12-24小時階段AI與人類的進度相當，人類需要工作24-48小時才能超過AI。

有創業者稱贊OpenAI這波真的Open了，而且不避諱競爭對手的出色表現，咱們科技圈就需要這種精神。

Agent復現頂會論文

PaperBench選取20篇ICML 2024 Spotlight和Oral論文，要求AI創建代碼庫并執行實驗，復制論文成果，且不能使用原作者代碼。

OpenAI與每篇論文的原作者共同制定詳細評分標準，總共包含8316個可單獨評分的任務。

開卷考試，也就是允許Agent有限聯網搜索，把原論文代碼庫和其他人復現的代碼庫拉黑名單。

完整評估流程分為3個階段：

評估時用分級標準打分，按葉節點、父節點逐級評分，主要指標是所有論文的平均復制分數。

評分也是由大模型自動執行，實驗發現o3-mini當裁判的性價比最高。

給每篇論文評分花費66美元，比聘請人類專家當裁判要便宜，速度也更快。

運行評估所需的代碼和數據、Docker鏡像等正在GitHub逐步開源。

在論文的附錄中，OpenAI還給出了讓AI復現頂會論文的Prompt，有需要的朋友可以學習一下。

BasicAgent System Prompt：

IterativeAgent System/Continue Prompt：

Task Instructions：

就有點像人類準考證上寫的考場須知了。

責任編輯：張燕妮來源：量子位