半年復(fù)盤，AI迎來預(yù)訓(xùn)練后的新瓶頸

探索AGI

發(fā)布于 2025-6-4 05:56

瀏覽

0收藏

2025年上半年結(jié)束了，AI領(lǐng)域持續(xù)加速。Claude 4、Gemini 2.5 Pro、OpenAI o3系列…… 編碼能力一個比一個猛，多模態(tài)應(yīng)用更是遍地開花。

今天給大家分享一個半年度的復(fù)盤。這里不只有歡呼，似乎也存在一些不對勁的味道。當(dāng)模型越來越寫代碼，它們的綜合能力似乎遇到了第二波瓶頸。

本文很多參考信息來源于公開信息整理，非公開信息部分不保證信息的嚴(yán)謹(jǐn)性。

AI按下加速鍵的上半年！

簡單概括下這半年，“卷”出了新高度（第一部分的觀察來源于Artificial Analysis報告）：

觀察一：頭部“神仙打架”，新勢力緊追不舍

OpenAI雖強(qiáng)，但Google、Anthropic、xAI，還有咱國內(nèi)的DeepSeek、阿里，國外的Mistral，基本上保持了2月一更的節(jié)奏。開源模型跟專有模型的智能差距也在肉眼可見地縮小，甚至DeepSeek-R1-0528有追平的趨勢。

半年復(fù)盤，AI迎來預(yù)訓(xùn)練后的新瓶頸-AI.x社區(qū)

觀察二：推理成本“打骨折”

高智能模型的推理成本，從去年9月到現(xiàn)在降了差不多32倍！達(dá)到GPT-4初版那種智能水平的成本，降了超過1000倍！

半年復(fù)盤，AI迎來預(yù)訓(xùn)練后的新瓶頸-AI.x社區(qū)

觀察三: “先思考再回答”成標(biāo)配

啥叫“推理模型”？就是模型在回答你之前，會先自己叨叨咕咕輸出一堆中間步驟（思維鏈）。這招確實能讓答案更準(zhǔn)，但代價嘛，就是可能得多花10倍的Token。

半年復(fù)盤，AI迎來預(yù)訓(xùn)練后的新瓶頸-AI.x社區(qū)

觀察四 : 智能體(Agent)和多模態(tài)“起飛”

AI自己干活的能力越來越強(qiáng)，什么編碼智能體、研究智能體、幫你P圖的、剪視頻的，都來了。

半年復(fù)盤，AI迎來預(yù)訓(xùn)練后的新瓶頸-AI.x社區(qū)

多模態(tài)原生處理能力也大升級，文本、圖像、音頻一把抓，言出法隨、用嘴改圖。甚至Google Veo 3支持了原生的帶音頻的視頻輸出。

半年復(fù)盤，AI迎來預(yù)訓(xùn)練后的新瓶頸-AI.x社區(qū)

觀察五 : 中國在AI競賽排行前列

US在推理模型上繼續(xù)處于領(lǐng)先地位，但是DeepSeek-v3-0324成了國人之光，引領(lǐng)了全球的非推理模型的性能。（本文寫于DeepSeek-R1-0528 發(fā)布前，0528版本以接近o3性能開源，休假了暫未體驗~）

半年復(fù)盤，AI迎來預(yù)訓(xùn)練后的新瓶頸-AI.x社區(qū)

通用能力去哪兒了？

就在大家感慨AI寫代碼越來越6的時候，一個讓人“腦殼疼”的問題浮出水面。

因為暫未成為共識，沒有太多人探討，本文中稱之為“第二輪瓶頸”。

簡單來說，就是AI在編碼這種專業(yè)技能上突飛猛進(jìn)，但在其他通用認(rèn)知能力，比如復(fù)雜推理、創(chuàng)造性表達(dá)、細(xì)致理解這些方面，是不是有點“拉胯”了？

現(xiàn)象：編碼越強(qiáng)，其他越“菜”？

最典型的就是Anthropic的Claude 4系列。在編碼基準(zhǔn)SWE-Bench上那是嘎嘎亂殺，號稱“世界最好編碼模型”。但另一邊，OpenAI的o3模型在通用推理基準(zhǔn)Humanity's Last Exam (HLE)上又領(lǐng)先了。這種“各領(lǐng)風(fēng)騷”的局面，本身就很說明問題。

半年復(fù)盤，AI迎來預(yù)訓(xùn)練后的新瓶頸-AI.x社區(qū)