推理大模型1年內(nèi)就會撞墻，性能無法再擴展幾個數(shù)量級 | FrontierMath團隊最新研究

2025-05-14 09:07:00

人工智能新聞

如果推理模型保持「每3-5個月都以10倍速度增長」，那么推理訓(xùn)練所需的算力可能會大幅收斂。

一年之內(nèi)，大模型推理訓(xùn)練可能就會撞墻。

以上結(jié)論來自Epoch AI。

這是一個專注于人工智能研究和基準測試的非營利組織，之前名動一時的FrontierMath基準測試（評估AI模型數(shù)學(xué)推理能力）就出自它家。

與之伴隨而來的還有另一個消息：

如果推理模型保持「每3-5個月都以10倍速度增長」，那么推理訓(xùn)練所需的算力可能會大幅收斂。

就像DeepSeek-R1之于OpenAI o1-preview那樣。

看了這個結(jié)果，有圍觀網(wǎng)友都著急了：

既然在o3基礎(chǔ)上再scaling非常困難，那為啥咱不探索模塊化架構(gòu)或針對特定任務(wù)的專用模型呢？“效率”比“研究過剩”更重要！

推理訓(xùn)練還有scalable的空間

OpenAI的o1是推理模型的開山之作。

和o3、DeepSeek-R1等一樣，它們從傳統(tǒng)的大語言模型發(fā)展而來，在預(yù)訓(xùn)練階段使用了大量人類數(shù)據(jù)進行訓(xùn)練，然后在強化學(xué)習(xí)階段（也就是所謂的第二階段），根據(jù)解題的反饋來改進自己的推理能力。

雖然推理模型已經(jīng)成為了很多AI使用者的實用幫手，但關(guān)于推理訓(xùn)練所需算力的公開信息非常少，大概只有以下這些：

OpenAI表示，與o1相比，訓(xùn)練o3所需的算力提升了10倍——提升部分幾乎都花在了訓(xùn)練階段。
OpenAI沒有公開o1、o3的具體細節(jié)，但可以從DeepSeek-R1、微軟Phi-4-reasoning、英偉達Llama-Nemotron等其它推理模型。它們所需的推理訓(xùn)練階段算力耕地，但可以根據(jù)它們進行推演。
Anthropic的創(chuàng)始人兼CEO Dario Amodei曾針對推理模型有過一篇公開文章。

然后就沒有然后了……

根據(jù)現(xiàn)有的信息和資料，Epoch AI進行了總結(jié)和分析。

首先，OpenAI公開過這樣一張圖表，上面展示了o3和o1在AIME基準測試中的表現(xiàn)，以及兩者在推理訓(xùn)練階段可能所需的算力的對比——

可以看到，終版o3花費的算力是o1的10倍。

Epoch AI分析道：“x軸很可能顯示的是推理訓(xùn)練所需算力而不是總算力。”

Epoch AI羅列了這一猜測的證據(jù)。

第一，初代o1耗費的算力比o3低四個數(shù)量級，其在AIME上的得分約為25%。

如果x軸表示總計算量，“不太可能呈現(xiàn)這種情況”。

第二，如果x軸表示的是所需總算力，這張圖意義就不大了。

因為這就意味著OpenAI訓(xùn)練了N個版本的o1，且預(yù)訓(xùn)練階段非常不完整。

依照Epoch AI的猜測，如果o3在推理結(jié)算花費的算力是o1的10倍，這意味著什么？

由于很多推理模型背后團隊都學(xué)精了，并不公開訓(xùn)練方法和過程，所以只能從現(xiàn)有公開資料里去尋找答案。

比如DeepSeek-R1。

Epoch AI此前估算，DeepSeek-R1推理訓(xùn)練中使用的算力約為6e23 FLOP（成本約 100 萬美元），需要生成大約 20萬億個tokens——這只有DeepSeek-V3預(yù)訓(xùn)練成本的20%。

雖然只是一種估算，但R1在各個榜單上的得分和o1非常接近，“因此可以用它來為o1所需算力設(shè)定一個baseline”。

比如英偉達的Llama-Nemotron Ultra，它在各個基準上的分數(shù)與DeepSeek-R1和o1相當。

它是在DeepSeek-R1生成的數(shù)據(jù)上訓(xùn)練的。

公開信息顯示，Llama-Nemotron Ultra的推理階段耗時140000 H100小時，約等于1e23 FLOP。這甚至低于它的原始基礎(chǔ)模型預(yù)訓(xùn)練成本的1%。

再比如微軟的Phi-4-reasoning。

它是在o3-mini生成的數(shù)據(jù)上訓(xùn)練的。

Phi-4-reasoning在推理階段規(guī)模更小，成本低于1e20 FLOP，可能是預(yù)訓(xùn)練所需算力成本的<0.01%。

值得注意的是，Llama-Nemotron和Phi-4-reasoning都在RL階段之前進行了有監(jiān)督微調(diào)。

咱們再來看看今年1月DeepSeek-R1發(fā)布后，Anthropic的CEODario Amodei寫的一篇文章，這被視為關(guān)于現(xiàn)有推理模型所需算力規(guī)模的最后一點線索：

由于這是新范式，我們目前仍處于規(guī)模拓展的初期階段：所有參與者在第二階段投入的資金量都很少，花費從10萬美元提高到100萬美元就能帶來巨大收益。如今，各公司正迅速加快步伐，將第二階段的規(guī)模擴大到數(shù)億乃至數(shù)十億美元。有一點必須重視，那就是我們正處于一個獨特的轉(zhuǎn)折點上。

當然了，Amodei對非Anthropic模型所需算力的看法可能只基于自家公司內(nèi)部數(shù)據(jù)。

但可以清晰了解，截至今年1月，他認為推理模型的訓(xùn)練成本遠低于“數(shù)千萬美元”，大于1e26 FLOP。

Epoch AI總結(jié)道——

上述的預(yù)估和線索指向一個事實，那就是目前最前沿的推理模型，比如o1，甚至o3，它們的推理訓(xùn)練規(guī)模都還沒見頂，還能繼續(xù)scalable。

但1年內(nèi)可能就撞墻了

換句話說，如果推理訓(xùn)練還沒見頂，那么推理模型還是有潛力在短期內(nèi)快速實現(xiàn)能力拓展的。

這就意味著，推理模型還很能打，潛力巨大。

就像OpenAI展示出的下圖，以及DeepSeek-R1論文中的圖2一樣——模型答題準確率隨著推理訓(xùn)練步驟的增加而大致呈對數(shù)線性增長。

這表明，至少在數(shù)學(xué)和編程任務(wù)上，推理模型的性能隨著推理訓(xùn)練的擴展而增強，就像預(yù)訓(xùn)練的scaling law一樣。

行文至此處，Epoch AI寫下這樣一段話：

如果推理階段的算力需求見頂，那么其帶來的增長率將收斂，大概是每年增長4倍。絕不會像o1推出后4個月就有了o3那樣，保持幾個月增長10倍的態(tài)勢。

因此，他得出這樣一個結(jié)論——

如果一個推理模型的訓(xùn)練階段僅比前沿推理模型低幾個（比如說少于三個）數(shù)量級，這種增長率可能在一、兩年內(nèi)減緩，甚至撞墻。

然鵝，想要擴展推理模型并不是那么簡單的。

單單是數(shù)據(jù)不夠這一項，就可能導(dǎo)致其停滯不前。

大家也都還不清楚，除了數(shù)學(xué)、編程領(lǐng)域，推理訓(xùn)練是否能泛化到其它規(guī)律性沒那么強的領(lǐng)域。

但可以肯定的是，隨著推理模型的訓(xùn)練越來越成熟，所有推理模型所需的成本可能都趨同。

雖然研究成本的高低并不影響算力和性能之間的關(guān)系，但如果相關(guān)研究保持“花錢如流水”的狀態(tài)，那么推理模型可能無法達到人們心中預(yù)期的最佳水平。

另一方面，即使所需算力的增長速度放緩，推理模型也可能持續(xù)進化，就像R1那樣。

換句話說，不只有數(shù)據(jù)或算法創(chuàng)新能推動推理模型的進步，算力大增也是推動推理模型進步的關(guān)鍵因素。

責(zé)任編輯：張燕妮來源：量子位

AI 算力模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

推理大模型1年內(nèi)就會撞墻，性能無法再擴展幾個數(shù)量級 | FrontierMath團隊最新研究

推理訓(xùn)練還有scalable的空間

但1年內(nèi)可能就撞墻了