首篇AI自寫論文通過ICLR 2025同行評審!6.25高分碾壓人類,AI獨挑科研大梁
首篇完全由AI生成的論文,竟通過了ICLR 2025同行評審!
剛剛,Sakana AI正式亮相AI Scientist-v2版本,直接踢破了AI頂會的大門。
從提出科學假設、設計實驗、到編寫代碼、運行實驗、分析數據、繪制圖表,再到撰寫完整論文,所有環節均由AI完成。
研究人員向2025 ICLR Workshop,一共提交了3篇AI生成的論文,全部進入雙盲評審。
顯然,審稿人完全不知道,他們評審的是AI生成的作品,并且按照評審人類科學家論文的標準,進行嚴格評判。
3篇論文中,只有一篇Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization,平均獲6.25的高分(6,7,6,6),遠高于許多人類作者的論文。
論文地址:https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment/blob/master/compositional-regularization/annotated_paper.pdf
另外兩篇全部敗北。
Sakana AI特別強調,這是首次通過「與人類科學家相同標準」的同行評審論文。
AI科研歷史性時刻來了!
AI闖入科研殿堂,全程無人干預
要知道,ICLR與NeurIPS、ICML并稱機器學習和人工智能研究領域三大頂級會議。
如前所述,Sakana AI在由2025 ICLR主辦的Workshop——ICBINB上,展開了這項實驗。
這個研討會涉及的議題非常廣泛,挑戰者(包括AI科學家)需要處理多樣化研究課題,去解決深度學習的實際局限性。
https://sites.google.com/view/icbinb-2025
那么,AI論文是如何參與評審過程的呢?
評審過程
通過與ICLR Workshop商定,研究團隊提交了3篇AI生成的論文,參與同行評審。
審稿人并未明確被告知,他們所評審的論文是由AI生成的。在ICLR Workshop「評審指南」中,明確規定了這一點。
關鍵在于,Sakana AI提交的AI生成論文,完全由「AI端到端」生成,未經任何人類修改。
AI Scientist-v2不僅提出了科學假設,設計了測試假設的實驗,還編寫并優化了實驗代碼,運行實驗,分析數據,將數據可視化為圖表。
并且,它還撰寫了整篇科學稿件的每一個字,從標題到最后的參考文獻,包括圖表放置和所有格式。
全程沒有人類參與,為了監督研究,Sakana AI研究員僅是為AI提供了研究的廣泛主題,并提交了3篇他們自認為比較好的論文。
在提交的3篇論文中,其中兩篇未達到接受標準。
另外一篇論文的平均得分為6.25,在所有提交中排名約45%。這一分數高于研討會中許多被接受的人類撰寫論文,高于平均接受門檻。具體評分為:
- 評分:6:略高于接受門檻
- 評分:7:好論文,接受
- 評分:6:略高于接受門檻
- 評分:6:略高于接受門檻
對AI生成論文的分析
除了同行評審過程,作為人類AI研究者,Sakana AI還對所有3篇AI生成論文進行了自己的分析和評審。
團隊為每篇論文撰寫了全面的評審意見。
除了自己的評審之外,Sakana AI還為每篇AI生成的論文添加了內聯評論
他們扮演了ICLR會議審稿人的角色,向論文作者AI Scientist提出了自己發現的問題,并建議作者如何通過回應我們提出的問題改進論文。
與研討會評審過程不同,這種雙向交流是頂會或期刊典型同行評審過程的一部分,審稿人與作者共同改進作品。
如下圖所示,AI Scientist偶爾會犯令人尷尬的引用錯誤。
在這里,研究團隊發現它錯誤地將「基于LSTM神經網絡」引用寫成Goodfellow(2016),而正確的作者應是 Hochreiter 和 Schmidhuber(1997)。
除了評審和評論外,研究團隊還在初審階段,為每篇論文提供了初步評估分數,評估依據頂級ML會議(如NeurIPS、ICLR)的指南進行。
最終,他們得出結論:這3篇論文在其當前形式下,均未達到內部認為能被ICLR主會場接受的內部標準。
然而,他們認為提交至Workshop的論文能夠提出有趣、原創的初步想法,可以進一步的大發展,因此研究人員認為它們可能更適合ICLR Workshop分會場。
目前,Sakana AI已在GitHub倉庫中,公開了內部人類評審意見,以及這3篇AI生成論文。
項目地址:https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment?tab=readme-ov-file
AI中的不是主會,內部評審未通過
Sakana AI團隊坦承,目前AI生成的論文,在其內部標準下尚未達到ICLR主會場的接受水平。
在ICLR、ICML、NeurIPS三大頂會主場,接受率通常在20-30%之間,而ICBINB Workshop接受率在60-70%之間。
盡管這只是Workshop,而非主會場的成果,但這一里程碑式突破預示著更大變革即將到來。
在未來的研究中,團隊打算繼續改進流程,生成更高質量的科學論文,爭取通過頂級會議的標準。
Sakana AI還指出,AI Scientist主要基于當前最先進的LLM打造,因此其表現直接與這些LLM的性能相關。
如果前沿基礎模型得到持續改進,那么AI Scientist也將不斷提升。
主動撤回論文,科學規范不能破
值得一提的是,Sakana AI在進行這項研究時,高度重視透明度與倫理規范。
他們認為,科學界研究AI生成研究的質量非常重要,而最好的方法之一是,將少量樣本提交至與評估人類科學研究相同的嚴格同行評審過程(前提是已獲得管理這些過程的相關方許可)。
Sakana AI與ICLR組委會,以及Workshop組織者全面合作才展開的實驗,并獲得了不列顛哥倫比亞大學機構審查委員會(IRB)的批準。
此外,AI生成論文不會在OpenReview的公共論壇上公開。根據事先約定的實驗協議,Sakana AI主動撤回了被接受的論文。
這是因為,AI和科學界尚未決定是否希望在相同場合發表AI生成的稿件。
團隊認為,「作為一個共同體,我們需要制定關于AI生成科學的規范,包括何時以及如何聲明一篇論文由AI生成」。
「AI科學家」的未來
Sakana AI堅信相信,AI Scientist的下一代將開啟科學的新時代。
AI能夠生成一篇通過頂級ML Workshop同行評審的完整科學論文,展現了非常有前景的早期進展跡象。
但,這只是開始。
隨著AI繼續改進,AI Scientist的能力可能呈指數級增長。
在未來某個時候,AI很可能會生成達到甚至超越人類水平的論文,不僅能在頂級ML頂會上被接受,還能在頂級科學期刊中發表。