成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

半年復(fù)盤,AI迎來預(yù)訓(xùn)練后的新瓶頸

發(fā)布于 2025-6-4 05:56
瀏覽
0收藏

2025年上半年結(jié)束了,AI領(lǐng)域持續(xù)加速。Claude 4、Gemini 2.5 Pro、OpenAI o3系列…… 編碼能力一個比一個猛,多模態(tài)應(yīng)用更是遍地開花。

今天給大家分享一個半年度的復(fù)盤。這里不只有歡呼,似乎也存在一些不對勁的味道。當(dāng)模型越來越寫代碼,它們的綜合能力似乎遇到了第二波瓶頸。

本文很多參考信息來源于公開信息整理,非公開信息部分不保證信息的嚴(yán)謹(jǐn)性。

AI按下加速鍵的上半年!

簡單概括下這半年,“卷”出了新高度 (第一部分的觀察來源于Artificial Analysis報告):

觀察一: 頭部“神仙打架”,新勢力緊追不舍

OpenAI雖強(qiáng),但Google、Anthropic、xAI,還有咱國內(nèi)的DeepSeek、阿里,國外的Mistral,基本上保持了2月一更的節(jié)奏。開源模型跟專有模型的智能差距也在肉眼可見地縮小,甚至DeepSeek-R1-0528有追平的趨勢。

半年復(fù)盤,AI迎來預(yù)訓(xùn)練后的新瓶頸-AI.x社區(qū)

觀察二: 推理成本“打骨折”

高智能模型的推理成本,從去年9月到現(xiàn)在降了差不多32倍!達(dá)到GPT-4初版那種智能水平的成本,降了超過1000倍!

半年復(fù)盤,AI迎來預(yù)訓(xùn)練后的新瓶頸-AI.x社區(qū)

觀察三:  “先思考再回答”成標(biāo)配

啥叫“推理模型”?就是模型在回答你之前,會先自己叨叨咕咕輸出一堆中間步驟(思維鏈)。這招確實能讓答案更準(zhǔn),但代價嘛,就是可能得多花10倍的Token。

半年復(fù)盤,AI迎來預(yù)訓(xùn)練后的新瓶頸-AI.x社區(qū)

觀察四 :  智能體(Agent)和多模態(tài)“起飛”

AI自己干活的能力越來越強(qiáng),什么編碼智能體、研究智能體、幫你P圖的、剪視頻的,都來了。

半年復(fù)盤,AI迎來預(yù)訓(xùn)練后的新瓶頸-AI.x社區(qū)

多模態(tài)原生處理能力也大升級,文本、圖像、音頻一把抓,言出法隨、用嘴改圖。甚至Google Veo 3支持了原生的帶音頻的視頻輸出。

半年復(fù)盤,AI迎來預(yù)訓(xùn)練后的新瓶頸-AI.x社區(qū)

觀察五 :  中國在AI競賽排行前列

US在推理模型上繼續(xù)處于領(lǐng)先地位,但是DeepSeek-v3-0324成了國人之光,引領(lǐng)了全球的非推理模型的性能。  (本文寫于DeepSeek-R1-0528 發(fā)布前,0528版本以接近o3性能開源,休假了暫未體驗~)

半年復(fù)盤,AI迎來預(yù)訓(xùn)練后的新瓶頸-AI.x社區(qū)

通用能力去哪兒了?

就在大家感慨AI寫代碼越來越6的時候,一個讓人“腦殼疼”的問題浮出水面。

因為暫未成為共識,沒有太多人探討,本文中稱之為“第二輪瓶頸”。

簡單來說,就是AI在編碼這種專業(yè)技能上突飛猛進(jìn),但在其他通用認(rèn)知能力,比如復(fù)雜推理、創(chuàng)造性表達(dá)、細(xì)致理解這些方面,是不是有點“拉胯”了?

現(xiàn)象:編碼越強(qiáng),其他越“菜”?

最典型的就是Anthropic的Claude 4系列。 在編碼基準(zhǔn)SWE-Bench上那是嘎嘎亂殺,號稱“世界最好編碼模型”。但另一邊,OpenAI的o3模型在通用推理基準(zhǔn)Humanity's Last Exam (HLE)上又領(lǐng)先了。這種“各領(lǐng)風(fēng)騷”的局面,本身就很說明問題。

半年復(fù)盤,AI迎來預(yù)訓(xùn)練后的新瓶頸-AI.x社區(qū)

紅杉最近發(fā)布了一個榜單,排在榜首的還是o3。甚至沒有Claude4的影子,反而看到了Claude 3.7 Sonnet。

半年復(fù)盤,AI迎來預(yù)訓(xùn)練后的新瓶頸-AI.x社區(qū)

看到過不止一個吐槽,Claude 4 Sonnet雖然寫代碼很牛,但在文檔理解(比如OCR、手寫體識別)、世界知識和創(chuàng)造性寫作方面,好像有時候還不如它上一代Claude 3.7 Sonnet。這就有點尷尬了。

瓶頸的本質(zhì): 這倒不是說模型整體不進(jìn)步了,而是能力圖譜可能出現(xiàn)了分化或者失衡,AI的畫像可能變得更尖銳了,成了個“偏科生”。

所以,一個問題來了:精通一項復(fù)雜技能(比如寫代碼),就代表AI在其他領(lǐng)域也能一樣牛嗎?這對AGI的實現(xiàn)路徑打上了一個大大的問號。

第二輪瓶頸

這“偏科”的鍋,難道要甩給 RL 階段過度使用AI編程數(shù)據(jù)(比如從cursor等編程軟件帶來的用戶實際訓(xùn)練數(shù)據(jù))嗎?

災(zāi)難性遺忘 是一個在算法領(lǐng)域很古老的一個詞,意思是,在一個特定領(lǐng)域?qū)Υ竽P透阄⒄{(diào),很可能把它預(yù)訓(xùn)練時學(xué)到的一般知識給覆蓋掉或者搞丟了,通用邏輯推理能力自然就受影響。

所以是否是因為用了過多的編程數(shù)據(jù)搞RL訓(xùn)練,模型可能就更喜歡輸出那種結(jié)構(gòu)化、邏輯化的東西,創(chuàng)造性、流暢性可能就下降了。

在去年,我們經(jīng)歷了第一輪的AI瓶頸。

主要是因為高質(zhì)量、多樣化的預(yù)訓(xùn)練數(shù)據(jù)稀缺。更大規(guī)模參數(shù)的模型帶來的效果收益遞減。

在這基礎(chǔ)上,OpenAI的o1系列模型提出了通過測試時間推理,通過引導(dǎo)模型生成復(fù)雜邏輯結(jié)構(gòu)(如思維鏈CoT、思維樹ToT)解決問題,無需重訓(xùn)基礎(chǔ)模型。

在2024 Q3后的半年,“推理模型”成為主流,各家都在嘗試如何通過使用更多Token進(jìn)行“思考”實現(xiàn)。

如何從已訓(xùn)練模型中提取更多智能,更敏捷提升能力。

當(dāng)前,我們面臨的更多是針對特定高級技能(如編碼)進(jìn)行微調(diào)和RL所帶來的后果。

這是一個在更成熟發(fā)展階段出現(xiàn)的關(guān)于控制和平衡的問題。為推理/智能體技能進(jìn)行的訓(xùn)練,如何影響基礎(chǔ)模型的廣度?

本文轉(zhuǎn)載自???????探索AGI???????,作者:獼猴桃

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 91在线影院 | 蜜桃av一区二区三区 | 国产精品久久久久久久久久免费看 | 欧美国产一区二区 | 午夜精品久久久久久久久久久久久 | 精品视频在线观看 | www视频在线观看 | 国产精品久久久久无码av | 美女一区二区在线观看 | 亚洲免费视频播放 | 黑人精品xxx一区一二区 | 免费黄色在线观看 | 中文字幕在线观看 | 日日人人 | 亚洲精品一区二 | 亚洲国产一区二区视频 | 狠狠综合久久av一区二区老牛 | 久久精品国产免费看久久精品 | 久久99深爱久久99精品 | 亚洲欧洲一区 | 91麻豆久久久 | 中国一级特黄视频 | 久久精品国产久精国产 | 黄色一级片视频 | 五月婷婷在线视频 | 四虎影 | 91看片| 国产午夜精品一区二区三区四区 | 天天搞天天操 | 日韩成人在线播放 | 免费黄色网址视频 | 国产欧美精品在线 | 在线播放91 | 天堂资源最新在线 | 日韩精品视频在线 | 国产精品久久精品 | 色综合久久久 | 国产精品不卡一区 | 亚洲性视频网站 | aacc678成免费人电影网站 | 91porn成人精品 |