剛剛,谷歌AI路線圖曝光:竟要拋棄注意力機(jī)制?Transformer有致命缺陷!
就在最近,谷歌未來的AI路線圖曝光!
谷歌產(chǎn)品負(fù)責(zé)人Logan Kilpatrick在AI工程師世界博覽會(huì)的演講中,介紹了Gemini模型的未來。
在未來,Gemini的全模態(tài)是重點(diǎn),模型正在逐步變成智能體,推理能力還會(huì)持續(xù)擴(kuò)展。
要點(diǎn)速覽——
· 全模態(tài)(r)
已經(jīng)原生支持圖像 + 音頻生成,接下來是視頻
· Diffusion的早期實(shí)驗(yàn)(r)
擴(kuò)散模型相關(guān)
· 默認(rèn)具備Agent能力(m)
一流的工具調(diào)用與工具使用能力,但更重要的是,模型正在逐步變成智能體
· 推理能力持續(xù)擴(kuò)展(s)
一個(gè)又一個(gè)研究突破接踵而至
· 更多小模型(s)
很快會(huì)有更多內(nèi)容可以分享
· 無限上下文(r)
以當(dāng)前注意力機(jī)制和上下文處理方式,這是不可能實(shí)現(xiàn)的 我們需要在核心架構(gòu)層面進(jìn)行全新創(chuàng)新,才能實(shí)現(xiàn)這一目標(biāo)
· 大模型
規(guī)模即一切
注意,(r)、(s) 和 (m) 表示每個(gè)項(xiàng)目在谷歌路線圖中的進(jìn)展程度:
? (s) = short: 短期/即將上線——表示已經(jīng)在進(jìn)行中或即將推出的項(xiàng)目
? (m) = medium: 中期——仍在開發(fā)中的項(xiàng)目,將在未來幾個(gè)季度內(nèi)推出
? (r) = research: 研究/長(zhǎng)期項(xiàng)目——在發(fā)布之前仍處于實(shí)驗(yàn)階段或需要突破性進(jìn)展
硅谷大廠混戰(zhàn)
AI年中成績(jī)單大盤點(diǎn)
可以看出,谷歌現(xiàn)在是春風(fēng)得意馬蹄疾,Gemini 2.5 Pro讓它穩(wěn)穩(wěn)扳回了一局,再次證明了自己在AI領(lǐng)域老大哥的地位。
X上的大V「Chubby」,也對(duì)硅谷大廠們進(jìn)行了一期「年中盤點(diǎn)」。
OpenAI
目前仍處于領(lǐng)先地位,憑借o3、o3 pro以及即將到來的GPT-5,依然地位穩(wěn)固。他們保持著定期更新,經(jīng)常發(fā)布AI工具,不斷增長(zhǎng)的用戶數(shù)量說明了一切。
DeepSeek
DeepSeek在r1取得可觀成功后陸續(xù)推出了重大更新,但目前全世界仍在等待后續(xù)產(chǎn)品r2。關(guān)于DeepSeek后期將如何繼續(xù)推進(jìn),目前尚無線索。
Anthropic
仍然是軟件開發(fā)(SWE)領(lǐng)域的領(lǐng)頭羊。如果其CEO所言不虛,智能體和進(jìn)一步的發(fā)展將在未來幾年內(nèi)實(shí)現(xiàn)所有流程的自動(dòng)化,并由通用智能體來處理。目前,Anthropic 正專注于商業(yè)領(lǐng)域(這一點(diǎn)從較低的速率限制上也不難看出),并繼續(xù)保持強(qiáng)勁地位。
谷歌
然而,今年最大的贏家可能是谷歌,它幾乎是從后起之秀躍居領(lǐng)先地位。Gemini 已經(jīng)取得了令人矚目成功。產(chǎn)品的定期更新、許多公告,包括出色的TPU定位,讓谷歌的未來看起來一片光明。
Meta
不可否認(rèn),Meta已經(jīng)落后了。Llama 4失敗了,Behemoth也還沒有發(fā)布。小扎組建了新的超級(jí)智能團(tuán)隊(duì),試圖再次迎頭趕上。Alexandr Wang從Scale AI加入Meta是否會(huì)成為轉(zhuǎn)折點(diǎn)?仍有待觀察。
Grok
Grok 3.5也即將上線。目前很難評(píng)估。Grok在Colossus集群中顯然處于有利位置。然而,它是否能訓(xùn)練出更好的模型?仍有待觀察。
這其中評(píng)價(jià)最高的谷歌,接下來一段時(shí)間會(huì)有什么大動(dòng)作?
讓我們仔細(xì)看看Logan Kilpatrick的演講內(nèi)容,從中找出關(guān)鍵線索。
全公司公認(rèn),Gemini 2.5 Pro是谷歌重大轉(zhuǎn)折點(diǎn)
這次大會(huì)上,前OpenAI成員、谷歌AI Studio產(chǎn)品負(fù)責(zé)人Logan Kilpatrick的演講干貨滿滿,透露了不少Gemini 2.5 Pro以及將來谷歌Gemini的計(jì)劃的細(xì)節(jié)。
關(guān)于Logan Kilpatrick這位哥,還有一件趣事:據(jù)說Gemini制作笑話的能力完全是根據(jù)他的推文訓(xùn)練出來的,這就是為什么它們都不好笑。??
目前,Logan Kilpatrick負(fù)責(zé)Gemini API開發(fā)及AGI研究
在演講中,Logan Kilpatrick快速講了三部分內(nèi)容:
- 關(guān)于Gemini 2.5 Pro的一些有趣的發(fā)布內(nèi)容;
- 回顧過去一年的Gemini進(jìn)展;
- 展望未來 —— 模型本身、Gemini App,以及開發(fā)者平臺(tái)的后續(xù)計(jì)劃。
關(guān)于Gemini 2.5 Pro,他認(rèn)為它被谷歌內(nèi)部、也被外部開發(fā)者生態(tài)認(rèn)為是一次「轉(zhuǎn)折點(diǎn)」——
在數(shù)學(xué)、編程、推理上,全面封神,穩(wěn)坐所有榜單第一。
它為Gemini的未來奠定了堅(jiān)實(shí)的基礎(chǔ)。
Gemini的愿景
「統(tǒng)一助手」
Logan Kilpatrick給大家提了一個(gè)問題:谷歌過去各產(chǎn)品之間的連接是什么?
大多數(shù)人會(huì)想到:谷歌賬號(hào)。但谷歌賬號(hào)本身其實(shí)不「保留狀態(tài)」,它的作用只是讓你登錄各個(gè)獨(dú)立產(chǎn)品。
而現(xiàn)在,Gemini正在成為「統(tǒng)一線程」(thread)——串聯(lián)起谷歌所有服務(wù)的那條線。
Gemini App,很有意思,很酷,體現(xiàn)了谷歌如何思考AI產(chǎn)品的未來。
他相信,谷歌的未來會(huì)呈現(xiàn)出這樣的面貌:
Gemini將成為統(tǒng)一接口,連接所有谷歌產(chǎn)品,形成真正的「全域助手」。
目前大多數(shù)AI產(chǎn)品,仍然是「用戶主動(dòng)操作」——你要主動(dòng)提問,主動(dòng)請(qǐng)求功能。
但最令人興奮的是AI的下一個(gè)階段:
「主動(dòng)式AI」 (Proactive AI) ——AI 主動(dòng)為你發(fā)現(xiàn)問題、提供建議、自動(dòng)處理任務(wù)。
而現(xiàn)在,谷歌全力押注新范式轉(zhuǎn)移:
- 多模態(tài)能力:原生音頻處理已支持Astra和Gemini Live,Veo技術(shù)保持業(yè)界領(lǐng)先,視頻整合將是下一階段重點(diǎn)
- 模型進(jìn)化:從單純的token處理器轉(zhuǎn)向具備系統(tǒng)化推理能力的智能體,「推理擴(kuò)展」尤其值得關(guān)注
- 架構(gòu)創(chuàng)新:包括小模型生態(tài)、無限上下文解決方案(需突破現(xiàn)有注意力機(jī)制限制)以及早期擴(kuò)散實(shí)驗(yàn)展現(xiàn)的驚人token處理能力
向「全模態(tài)統(tǒng)一模型」邁進(jìn)
從模型層面看,Gemini最初就被設(shè)想為一個(gè)統(tǒng)一多模態(tài)模型:音頻、圖像、視頻,全都能處理。
在這方面,谷歌取得了很大進(jìn)展:
- 谷歌I/O大會(huì)宣布了Gemini的原生語音能力(文本轉(zhuǎn)語音TTS、語音合成、語音交互);
- 它已經(jīng)支持自然對(duì)話,聽起來非常自然;
- 這些能力已集成到Astro與Gemini Live。
Astro是谷歌的研究原型,探索為旗下產(chǎn)品帶來突破性能力的途徑。
目前,Astro集成了下列能力:
谷歌還在推進(jìn)「Veo」相關(guān)能力(Video + Other),它已在多個(gè)指標(biāo)上達(dá)到SOTA水平,未來也會(huì)并入主線Gemini模型。
此外,谷歌還在研究「基于擴(kuò)散的推理」(diffusion-based reasoning)—— Gemini Diffusion。但此項(xiàng)目仍屬研究前沿,尚未進(jìn)入主線,但前景令人期待。
Gemini Diffusion有極高吞吐速率,每秒可采樣1000余token
智能體成為主流
最近,Logan Kilpatrick一直在思考:隨著系統(tǒng)推理能力越來越強(qiáng),未來AI產(chǎn)品是什么形態(tài)?
過去,開發(fā)者總是把模型當(dāng)作黑盒工具:
輸入token,輸出 token;
然后在外部構(gòu)建各種scaffolding(支架)以增強(qiáng)功能。
但現(xiàn)在,情況變了:
模型自身越來越系統(tǒng)化,越來越能自主做事 ,不再只是「被動(dòng)計(jì)算器」。
他認(rèn)為,「推理過程」將成為一個(gè)核心變革點(diǎn):如何擴(kuò)展模型的推理能力。
他非常期待的問題是:
過去外部做的很多scaffolding,未來是否會(huì)被整合進(jìn)模型的內(nèi)部推理流程?這將徹底改變開發(fā)者構(gòu)建產(chǎn)品的方式。
更多路線圖:小模型、大模型、無限上下文
除此之外,谷歌還會(huì)在以下新產(chǎn)品和研究上發(fā)力。
- 更多「小模型」——輕量級(jí),適合移動(dòng)端與低功耗設(shè)備;
- 更大的模型——滿足用戶對(duì)極致能力的期待;
- 更重要的是:「無限上下文」的研究突破。
當(dāng)前的AI模型架構(gòu)(如Transformer)的重要缺陷之一,就是無法很好地支持無限上下文。
谷歌認(rèn)為,既然注意力機(jī)制無法無限擴(kuò)展,那就必須有新結(jié)構(gòu)。
他們正在積極探索: 如何讓模型引入、理解并高效處理超大規(guī)模上下文。
即將上線的開發(fā)者功能重點(diǎn)如下。
- 嵌入模型(Embeddings) 雖然感覺像「AI早期工具」,但仍是核心組件。 RAG應(yīng)用背后大多數(shù)都依賴embedding。 姑給即將發(fā)布一款最先進(jìn)的Gemini嵌入模型,并拓展給更多開發(fā)者。
- 深度研究API(Deep Research API) 用戶對(duì)「深度研究」功能喜愛有加。 谷歌正在將這些能力聚合為專門的 API 接口,面向研究型產(chǎn)品開發(fā)者。
- Veo3與Imagine 4接入API:很快將上線。
最后一個(gè)重點(diǎn),谷歌計(jì)劃重新定位「AI Studio」:
不再是2C產(chǎn)品,而是明確定位為「開發(fā)者平臺(tái)」。
未來,AI Studio將成為真正的開發(fā)工具平臺(tái),內(nèi)嵌Agent構(gòu)建能力,例如Jules或開發(fā)者專屬代碼Agent,為開發(fā)者提供完整構(gòu)建體驗(yàn)。
2024:Gemini最瘋狂的一年
對(duì)谷歌Gemini團(tuán)隊(duì)來說,過去一年可以說是「最瘋狂的一年」。
在谷歌I/O上,劈柴展示了一頁幻燈片:過去12個(gè)月,谷歌Gemini團(tuán)隊(duì)仿佛壓縮了10年的開發(fā)工作。
從個(gè)人角度出發(fā),Logan Kilpatrick認(rèn)為谷歌真正的優(yōu)勢(shì)在于:
不僅在做AI基礎(chǔ)研究,還在推進(jìn)科學(xué)、幾何、機(jī)器人等多領(lǐng)域的研究,
這些研究最后都會(huì)反饋到主線Gemini模型中。
在谷歌I/O演講中,劈柴還展示了另一張幻燈片:在過去一年,谷歌服務(wù)器AI推理任務(wù)處理量提升了50倍!
Logan Kilpatrick認(rèn)為:「這說明外部開發(fā)者生態(tài)對(duì)Gemini模型的需求呈爆炸式增長(zhǎng)。」
其實(shí)背后的關(guān)鍵不只是技術(shù),而是組織結(jié)構(gòu)的變革。
2023 年初,谷歌把多個(gè)AI研究團(tuán)隊(duì)整合到DeepMind,制定了新方向:
不再僅限于理論研究,而是要做出真正實(shí)用的模型,服務(wù)于谷歌內(nèi)部與外部開發(fā)者生態(tài)。
之后,又邁出第二步,將產(chǎn)品團(tuán)隊(duì)也納入DeepMind。這意味著:
- DeepMind負(fù)責(zé)研發(fā)模型、推動(dòng)研究;
- 同時(shí)也打造產(chǎn)品并將其交付給全球用戶。
最近,谷歌還任命DeepMind的首席技術(shù)官Koray Kavukcuoglu擔(dān)任新的高級(jí)副總裁職位——首席AI架構(gòu)師。
Koray Kavukcuoglu
與研究團(tuán)隊(duì)密切合作,把尖端模型能力帶到現(xiàn)實(shí)世界——
這種「前沿協(xié)作」的過程讓Logan Kilpatrick個(gè)人非常享受。
這種創(chuàng)新的節(jié)奏非常令人興奮,他相信這才剛剛開始。
谷歌DeepMind內(nèi)部公式很簡(jiǎn)單,總結(jié)一句話:
找到最優(yōu)秀的人,發(fā)現(xiàn)基礎(chǔ)設(shè)施優(yōu)勢(shì),然后……不斷發(fā)布!