半年復(fù)盤,AI迎來預(yù)訓(xùn)練后的新瓶頸
2025年上半年結(jié)束了,AI領(lǐng)域持續(xù)加速。Claude 4、Gemini 2.5 Pro、OpenAI o3系列…… 編碼能力一個比一個猛,多模態(tài)應(yīng)用更是遍地開花。
今天給大家分享一個半年度的復(fù)盤。這里不只有歡呼,似乎也存在一些不對勁的味道。當(dāng)模型越來越寫代碼,它們的綜合能力似乎遇到了第二波瓶頸。
本文很多參考信息來源于公開信息整理,非公開信息部分不保證信息的嚴(yán)謹(jǐn)性。
AI按下加速鍵的上半年!
簡單概括下這半年,“卷”出了新高度 (第一部分的觀察來源于Artificial Analysis報告):
觀察一: 頭部“神仙打架”,新勢力緊追不舍
OpenAI雖強(qiáng),但Google、Anthropic、xAI,還有咱國內(nèi)的DeepSeek、阿里,國外的Mistral,基本上保持了2月一更的節(jié)奏。開源模型跟專有模型的智能差距也在肉眼可見地縮小,甚至DeepSeek-R1-0528有追平的趨勢。
觀察二: 推理成本“打骨折”
高智能模型的推理成本,從去年9月到現(xiàn)在降了差不多32倍!達(dá)到GPT-4初版那種智能水平的成本,降了超過1000倍!
觀察三: “先思考再回答”成標(biāo)配
啥叫“推理模型”?就是模型在回答你之前,會先自己叨叨咕咕輸出一堆中間步驟(思維鏈)。這招確實能讓答案更準(zhǔn),但代價嘛,就是可能得多花10倍的Token。
觀察四 : 智能體(Agent)和多模態(tài)“起飛”
AI自己干活的能力越來越強(qiáng),什么編碼智能體、研究智能體、幫你P圖的、剪視頻的,都來了。
多模態(tài)原生處理能力也大升級,文本、圖像、音頻一把抓,言出法隨、用嘴改圖。甚至Google Veo 3支持了原生的帶音頻的視頻輸出。
觀察五 : 中國在AI競賽排行前列
US在推理模型上繼續(xù)處于領(lǐng)先地位,但是DeepSeek-v3-0324成了國人之光,引領(lǐng)了全球的非推理模型的性能。 (本文寫于DeepSeek-R1-0528 發(fā)布前,0528版本以接近o3性能開源,休假了暫未體驗~)
通用能力去哪兒了?
就在大家感慨AI寫代碼越來越6的時候,一個讓人“腦殼疼”的問題浮出水面。
因為暫未成為共識,沒有太多人探討,本文中稱之為“第二輪瓶頸”。
簡單來說,就是AI在編碼這種專業(yè)技能上突飛猛進(jìn),但在其他通用認(rèn)知能力,比如復(fù)雜推理、創(chuàng)造性表達(dá)、細(xì)致理解這些方面,是不是有點“拉胯”了?
現(xiàn)象:編碼越強(qiáng),其他越“菜”?
最典型的就是Anthropic的Claude 4系列。 在編碼基準(zhǔn)SWE-Bench上那是嘎嘎亂殺,號稱“世界最好編碼模型”。但另一邊,OpenAI的o3模型在通用推理基準(zhǔn)Humanity's Last Exam (HLE)上又領(lǐng)先了。這種“各領(lǐng)風(fēng)騷”的局面,本身就很說明問題。
紅杉最近發(fā)布了一個榜單,排在榜首的還是o3。甚至沒有Claude4的影子,反而看到了Claude 3.7 Sonnet。
看到過不止一個吐槽,Claude 4 Sonnet雖然寫代碼很牛,但在文檔理解(比如OCR、手寫體識別)、世界知識和創(chuàng)造性寫作方面,好像有時候還不如它上一代Claude 3.7 Sonnet。這就有點尷尬了。
瓶頸的本質(zhì): 這倒不是說模型整體不進(jìn)步了,而是能力圖譜可能出現(xiàn)了分化或者失衡,AI的畫像可能變得更尖銳了,成了個“偏科生”。
所以,一個問題來了:精通一項復(fù)雜技能(比如寫代碼),就代表AI在其他領(lǐng)域也能一樣牛嗎?這對AGI的實現(xiàn)路徑打上了一個大大的問號。
第二輪瓶頸
這“偏科”的鍋,難道要甩給 RL 階段過度使用AI編程數(shù)據(jù)(比如從cursor等編程軟件帶來的用戶實際訓(xùn)練數(shù)據(jù))嗎?
災(zāi)難性遺忘 是一個在算法領(lǐng)域很古老的一個詞,意思是,在一個特定領(lǐng)域?qū)Υ竽P透阄⒄{(diào),很可能把它預(yù)訓(xùn)練時學(xué)到的一般知識給覆蓋掉或者搞丟了,通用邏輯推理能力自然就受影響。
所以是否是因為用了過多的編程數(shù)據(jù)搞RL訓(xùn)練,模型可能就更喜歡輸出那種結(jié)構(gòu)化、邏輯化的東西,創(chuàng)造性、流暢性可能就下降了。
在去年,我們經(jīng)歷了第一輪的AI瓶頸。
主要是因為高質(zhì)量、多樣化的預(yù)訓(xùn)練數(shù)據(jù)稀缺。更大規(guī)模參數(shù)的模型帶來的效果收益遞減。
在這基礎(chǔ)上,OpenAI的o1系列模型提出了通過測試時間推理,通過引導(dǎo)模型生成復(fù)雜邏輯結(jié)構(gòu)(如思維鏈CoT、思維樹ToT)解決問題,無需重訓(xùn)基礎(chǔ)模型。
在2024 Q3后的半年,“推理模型”成為主流,各家都在嘗試如何通過使用更多Token進(jìn)行“思考”實現(xiàn)。
如何從已訓(xùn)練模型中提取更多智能,更敏捷提升能力。
當(dāng)前,我們面臨的更多是針對特定高級技能(如編碼)進(jìn)行微調(diào)和RL所帶來的后果。
這是一個在更成熟發(fā)展階段出現(xiàn)的關(guān)于控制和平衡的問題。為推理/智能體技能進(jìn)行的訓(xùn)練,如何影響基礎(chǔ)模型的廣度?
本文轉(zhuǎn)載自???????探索AGI???????,作者:獼猴桃
