剛剛，谷歌AI路線圖曝光：竟要拋棄注意力機(jī)制？Transformer有致命缺陷！

2025-06-17 09:05:00

未來AI路線圖曝光！谷歌發(fā)明了Transformer，但在路線圖中承認(rèn)：現(xiàn)有注意力機(jī)制無法實(shí)現(xiàn)「無限上下文」，這意味著下一代AI架構(gòu)，必須「從頭重寫」。Transformer的時(shí)代，真的要終結(jié)了嗎？在未來，谷歌到底有何打算？

就在最近，谷歌未來的AI路線圖曝光！

谷歌產(chǎn)品負(fù)責(zé)人Logan Kilpatrick在AI工程師世界博覽會(huì)的演講中，介紹了Gemini模型的未來。

在未來，Gemini的全模態(tài)是重點(diǎn)，模型正在逐步變成智能體，推理能力還會(huì)持續(xù)擴(kuò)展。

要點(diǎn)速覽——

· 全模態(tài)（r）

已經(jīng)原生支持圖像 + 音頻生成，接下來是視頻

· Diffusion的早期實(shí)驗(yàn)（r）

擴(kuò)散模型相關(guān)

· 默認(rèn)具備Agent能力（m）

一流的工具調(diào)用與工具使用能力，但更重要的是，模型正在逐步變成智能體

· 推理能力持續(xù)擴(kuò)展（s）

一個(gè)又一個(gè)研究突破接踵而至

· 更多小模型（s）

很快會(huì)有更多內(nèi)容可以分享

· 無限上下文（r）

以當(dāng)前注意力機(jī)制和上下文處理方式，這是不可能實(shí)現(xiàn)的我們需要在核心架構(gòu)層面進(jìn)行全新創(chuàng)新，才能實(shí)現(xiàn)這一目標(biāo)

· 大模型

規(guī)模即一切

注意，(r)、(s) 和 (m) 表示每個(gè)項(xiàng)目在谷歌路線圖中的進(jìn)展程度：

? (s) = short: 短期/即將上線——表示已經(jīng)在進(jìn)行中或即將推出的項(xiàng)目

? (m) = medium: 中期——仍在開發(fā)中的項(xiàng)目，將在未來幾個(gè)季度內(nèi)推出

? (r) = research: 研究/長(zhǎng)期項(xiàng)目——在發(fā)布之前仍處于實(shí)驗(yàn)階段或需要突破性進(jìn)展

硅谷大廠混戰(zhàn)

AI年中成績(jī)單大盤點(diǎn)

可以看出，谷歌現(xiàn)在是春風(fēng)得意馬蹄疾，Gemini 2.5 Pro讓它穩(wěn)穩(wěn)扳回了一局，再次證明了自己在AI領(lǐng)域老大哥的地位。

X上的大V「Chubby」，也對(duì)硅谷大廠們進(jìn)行了一期「年中盤點(diǎn)」。

OpenAI

目前仍處于領(lǐng)先地位，憑借o3、o3 pro以及即將到來的GPT-5，依然地位穩(wěn)固。他們保持著定期更新，經(jīng)常發(fā)布AI工具，不斷增長(zhǎng)的用戶數(shù)量說明了一切。

DeepSeek

DeepSeek在r1取得可觀成功后陸續(xù)推出了重大更新，但目前全世界仍在等待后續(xù)產(chǎn)品r2。關(guān)于DeepSeek后期將如何繼續(xù)推進(jìn)，目前尚無線索。

Anthropic

仍然是軟件開發(fā)(SWE)領(lǐng)域的領(lǐng)頭羊。如果其CEO所言不虛，智能體和進(jìn)一步的發(fā)展將在未來幾年內(nèi)實(shí)現(xiàn)所有流程的自動(dòng)化，并由通用智能體來處理。目前，Anthropic 正專注于商業(yè)領(lǐng)域（這一點(diǎn)從較低的速率限制上也不難看出），并繼續(xù)保持強(qiáng)勁地位。

谷歌

然而，今年最大的贏家可能是谷歌，它幾乎是從后起之秀躍居領(lǐng)先地位。Gemini 已經(jīng)取得了令人矚目成功。產(chǎn)品的定期更新、許多公告，包括出色的TPU定位，讓谷歌的未來看起來一片光明。

Meta

不可否認(rèn)，Meta已經(jīng)落后了。Llama 4失敗了，Behemoth也還沒有發(fā)布。小扎組建了新的超級(jí)智能團(tuán)隊(duì)，試圖再次迎頭趕上。Alexandr Wang從Scale AI加入Meta是否會(huì)成為轉(zhuǎn)折點(diǎn)？仍有待觀察。

Grok

Grok 3.5也即將上線。目前很難評(píng)估。Grok在Colossus集群中顯然處于有利位置。然而，它是否能訓(xùn)練出更好的模型？仍有待觀察。

這其中評(píng)價(jià)最高的谷歌，接下來一段時(shí)間會(huì)有什么大動(dòng)作？

讓我們仔細(xì)看看Logan Kilpatrick的演講內(nèi)容，從中找出關(guān)鍵線索。

全公司公認(rèn)，Gemini 2.5 Pro是谷歌重大轉(zhuǎn)折點(diǎn)

這次大會(huì)上，前OpenAI成員、谷歌AI Studio產(chǎn)品負(fù)責(zé)人Logan Kilpatrick的演講干貨滿滿，透露了不少Gemini 2.5 Pro以及將來谷歌Gemini的計(jì)劃的細(xì)節(jié)。

關(guān)于Logan Kilpatrick這位哥，還有一件趣事：據(jù)說Gemini制作笑話的能力完全是根據(jù)他的推文訓(xùn)練出來的，這就是為什么它們都不好笑。??

目前，Logan Kilpatrick負(fù)責(zé)Gemini API開發(fā)及AGI研究

在演講中，Logan Kilpatrick快速講了三部分內(nèi)容：

關(guān)于Gemini 2.5 Pro的一些有趣的發(fā)布內(nèi)容；
回顧過去一年的Gemini進(jìn)展；
展望未來 —— 模型本身、Gemini App，以及開發(fā)者平臺(tái)的后續(xù)計(jì)劃。

關(guān)于Gemini 2.5 Pro，他認(rèn)為它被谷歌內(nèi)部、也被外部開發(fā)者生態(tài)認(rèn)為是一次「轉(zhuǎn)折點(diǎn)」——

在數(shù)學(xué)、編程、推理上，全面封神，穩(wěn)坐所有榜單第一。

它為Gemini的未來奠定了堅(jiān)實(shí)的基礎(chǔ)。

Gemini的愿景

「統(tǒng)一助手」

Logan Kilpatrick給大家提了一個(gè)問題：谷歌過去各產(chǎn)品之間的連接是什么？

大多數(shù)人會(huì)想到：谷歌賬號(hào)。但谷歌賬號(hào)本身其實(shí)不「保留狀態(tài)」，它的作用只是讓你登錄各個(gè)獨(dú)立產(chǎn)品。

而現(xiàn)在，Gemini正在成為「統(tǒng)一線程」（thread）——串聯(lián)起谷歌所有服務(wù)的那條線。

Gemini App，很有意思，很酷，體現(xiàn)了谷歌如何思考AI產(chǎn)品的未來。

他相信，谷歌的未來會(huì)呈現(xiàn)出這樣的面貌：

Gemini將成為統(tǒng)一接口，連接所有谷歌產(chǎn)品，形成真正的「全域助手」。

目前大多數(shù)AI產(chǎn)品，仍然是「用戶主動(dòng)操作」——你要主動(dòng)提問，主動(dòng)請(qǐng)求功能。

但最令人興奮的是AI的下一個(gè)階段：

「主動(dòng)式AI」（Proactive AI） ——AI 主動(dòng)為你發(fā)現(xiàn)問題、提供建議、自動(dòng)處理任務(wù)。

而現(xiàn)在，谷歌全力押注新范式轉(zhuǎn)移：

多模態(tài)能力：原生音頻處理已支持Astra和Gemini Live，Veo技術(shù)保持業(yè)界領(lǐng)先，視頻整合將是下一階段重點(diǎn)
模型進(jìn)化：從單純的token處理器轉(zhuǎn)向具備系統(tǒng)化推理能力的智能體，「推理擴(kuò)展」尤其值得關(guān)注
架構(gòu)創(chuàng)新：包括小模型生態(tài)、無限上下文解決方案（需突破現(xiàn)有注意力機(jī)制限制）以及早期擴(kuò)散實(shí)驗(yàn)展現(xiàn)的驚人token處理能力

向「全模態(tài)統(tǒng)一模型」邁進(jìn)

從模型層面看，Gemini最初就被設(shè)想為一個(gè)統(tǒng)一多模態(tài)模型：音頻、圖像、視頻，全都能處理。

在這方面，谷歌取得了很大進(jìn)展：

谷歌I/O大會(huì)宣布了Gemini的原生語音能力（文本轉(zhuǎn)語音TTS、語音合成、語音交互）；
它已經(jīng)支持自然對(duì)話，聽起來非常自然；
這些能力已集成到Astro與Gemini Live。

Astro是谷歌的研究原型，探索為旗下產(chǎn)品帶來突破性能力的途徑。

目前，Astro集成了下列能力：

谷歌還在推進(jìn)「Veo」相關(guān)能力（Video + Other），它已在多個(gè)指標(biāo)上達(dá)到SOTA水平，未來也會(huì)并入主線Gemini模型。

此外，谷歌還在研究「基于擴(kuò)散的推理」（diffusion-based reasoning）—— Gemini Diffusion。但此項(xiàng)目仍屬研究前沿，尚未進(jìn)入主線，但前景令人期待。

Gemini Diffusion有極高吞吐速率，每秒可采樣1000余token

智能體成為主流

最近，Logan Kilpatrick一直在思考：隨著系統(tǒng)推理能力越來越強(qiáng)，未來AI產(chǎn)品是什么形態(tài)？

過去，開發(fā)者總是把模型當(dāng)作黑盒工具：

輸入token，輸出 token；

然后在外部構(gòu)建各種scaffolding（支架）以增強(qiáng)功能。

但現(xiàn)在，情況變了：

模型自身越來越系統(tǒng)化，越來越能自主做事，不再只是「被動(dòng)計(jì)算器」。

他認(rèn)為，「推理過程」將成為一個(gè)核心變革點(diǎn)：如何擴(kuò)展模型的推理能力。

他非常期待的問題是：

過去外部做的很多scaffolding，未來是否會(huì)被整合進(jìn)模型的內(nèi)部推理流程？這將徹底改變開發(fā)者構(gòu)建產(chǎn)品的方式。

更多路線圖：小模型、大模型、無限上下文

除此之外，谷歌還會(huì)在以下新產(chǎn)品和研究上發(fā)力。

更多「小模型」——輕量級(jí)，適合移動(dòng)端與低功耗設(shè)備；
更大的模型——滿足用戶對(duì)極致能力的期待；
更重要的是：「無限上下文」的研究突破。

當(dāng)前的AI模型架構(gòu)（如Transformer）的重要缺陷之一，就是無法很好地支持無限上下文。

谷歌認(rèn)為，既然注意力機(jī)制無法無限擴(kuò)展，那就必須有新結(jié)構(gòu)。

他們正在積極探索：如何讓模型引入、理解并高效處理超大規(guī)模上下文。

即將上線的開發(fā)者功能重點(diǎn)如下。

嵌入模型（Embeddings） 雖然感覺像「AI早期工具」，但仍是核心組件。 RAG應(yīng)用背后大多數(shù)都依賴embedding。姑給即將發(fā)布一款最先進(jìn)的Gemini嵌入模型，并拓展給更多開發(fā)者。
深度研究API（Deep Research API） 用戶對(duì)「深度研究」功能喜愛有加。谷歌正在將這些能力聚合為專門的 API 接口，面向研究型產(chǎn)品開發(fā)者。
Veo3與Imagine 4接入API：很快將上線。

最后一個(gè)重點(diǎn)，谷歌計(jì)劃重新定位「AI Studio」:

不再是2C產(chǎn)品，而是明確定位為「開發(fā)者平臺(tái)」。