編輯 | 云昭
北京時(shí)間5月21日凌晨1點(diǎn),谷歌 CEO Sundar Pichai 準(zhǔn)點(diǎn)走進(jìn)坐落于加州山景城的著名露天圓形劇場 Shoreline Amphitheatre,發(fā)表了 Google IO 2025 大會的主題演講。
全程一部定影的時(shí)間, 115 分鐘,可謂是給 5.20 的深夜奉上了一場別樣的谷歌之聲。
先說整體感受,整體上如大部分媒體所預(yù)料的:Andriod 已經(jīng)退出焦點(diǎn),AI 可以說是全部。
圖片
與去年不同,今年的 IO 大會可以說主打的就是“智能代理與個(gè)性化AI”,簡單理解,就是谷歌開始強(qiáng)調(diào)大模型的行動能力與個(gè)性定制上,正如Sundar 開場總結(jié)的:
我們正處于 AI 平臺變革的新階段。幾十年的 AI 理論和基礎(chǔ)研究,正在快速走進(jìn)現(xiàn)實(shí),融入人們?nèi)粘I詈凸ぷ髦校瑥乃阉鳌⒅帧⒁曨l通信、開發(fā)者工具到應(yīng)用生態(tài),全面落地。這正是 Gemini 時(shí)代的意義所在。
全程跟下來,多達(dá) 15 項(xiàng)重磅更新和發(fā)布。 雖然許多有關(guān)Gemini模型、Agent、A2A 協(xié)議等其實(shí)早在一周甚至更早之前,谷歌已經(jīng)等不及搶先發(fā)布,但仍有許多新官宣可圈可點(diǎn)。
比如:Gemini 2.5 Pro 新增“深度思考模式”、可主動多模態(tài)感知和響應(yīng)的下一代 AI 助理 Project Astra,以及具備“教與復(fù)現(xiàn)”功能、可以同時(shí)管理多達(dá) 10 項(xiàng)任務(wù)的智能網(wǎng)頁任務(wù)代理 Project Mariner。
再比如在全面 AI 升級上面,不得不提的谷歌搜索 AI 模式、谷歌瀏覽器融合 Gemini 按鈕,將會化身可智能總結(jié)網(wǎng)頁內(nèi)容、協(xié)助瀏覽的 AI 瀏覽器;還有前不久被 YC 合伙人吐槽的 Gmail 郵箱的智能回復(fù)也迎來了個(gè)性化升級。
再有,就是原來的多模態(tài)工具如 Imagen 和 Veo 大升級,并上線了一款 AI 影視創(chuàng)作 App Flow。
最后,值得一提的是,在智能眼鏡方面,Xreal 攜手 Google 打造了一款基于 Android XR 平臺的智能眼鏡 Project Aura。
圖像
話不多說,開始為大家獻(xiàn)上精彩內(nèi)容。
在 Google,每一天都是雙子座季節(jié)
過去的半年,可以說是谷歌反擊 OpenAI 強(qiáng)有力的半年。Sundar 非常自豪地把 Gemini 最新的進(jìn)展放到了演講中最開始的部分。
“我聽說今天是雙子座季節(jié)的開始。我真的不太清楚這有什么大不了的。在Google,每一天都是 Gemini 季節(jié)。”
的確,自去年以來,谷歌已經(jīng)宣布了超過12個(gè)模型和研究突破,并發(fā)布了超過20個(gè)主要的人工智能產(chǎn)品和功能。
而且 Gemini 的性能也取得了階梯式變化。Sundar介紹道,“Elo分?jǐn)?shù),作為進(jìn)步的一個(gè)衡量標(biāo)準(zhǔn),自第一代 Gemini Pro以來,已經(jīng)上升了超過300分,而今天的Gemini 2.5 Pro在所有類別的LM排行榜上都名列前茅。”
從倉皇應(yīng)戰(zhàn) OpenAI 到如今的全面“屠榜”,也許感嘆一句谷歌:“斗宗強(qiáng)者,強(qiáng)悍如斯”也不為過。
簡單幫劈柴哥秀一下 Gemini 在許多基準(zhǔn)測試中的 Sota 成績。就以現(xiàn)下最火的編碼方為例。更新后的 2.5 Pro 在 Web Dev Arena 上達(dá)到了第一名,現(xiàn)在比之前的版本高出 142 個(gè)Elo分?jǐn)?shù)。同時(shí),它在頂級編碼平臺上受到了很多歡迎,比如在 Cursor上,Gemini 是今年增長最快的模型,每分鐘產(chǎn)生數(shù)十萬行被接受的代碼。
甚至前不久,Gemini 完成了《精靈寶可夢藍(lán)》的通關(guān),獲得了所有 8 個(gè)徽章,穿越勝利之路,擊敗了四天王和冠軍。
劈柴哥很調(diào)皮地表示:這標(biāo)志著我們向“API(Artificial Pokémon Intelligence)”又邁進(jìn)了一步。
圖片
對于過去一年的成績,劈柴哥信心爆棚:“世界采用人工智能的速度比以往任何時(shí)候都快。 去年此時(shí),我們通過我們的產(chǎn)品和 API 每月處理 9.7 萬億個(gè)token。 如今,這個(gè)數(shù)字是480萬億。一年之內(nèi)就增長了50倍。”
兩個(gè) Gemini 的前沿研究方向
不過小編不慣著谷歌的小傲嬌情緒,還是直接奔重點(diǎn)要緊。
Google DeepMind 宣布在Gemini 2.5 Pro 中引入了一種新的模式——深度思考(Deep Think Mode),它將模型性能推向了極限,帶來突破性的成果,專為復(fù)雜數(shù)學(xué)、編程問題設(shè)計(jì),可在回應(yīng)前先考慮多種假設(shè),而且由于 Gemini 從一開始就具有多模態(tài)的特性,所以它在主要基準(zhǔn)測試中也表現(xiàn)出色。
據(jù)悉深度思考模式使用了谷歌最新的思考和推理研究,包括并行技術(shù)等。
圖片
但由于尚需前沿安全評估方面還需要得到專家反饋,所以目前只能以 API 的形勢進(jìn)行定向邀測。
不過一個(gè)跟利好大眾的消息是,輕量版 Gemini 2.5 Flash 也已面向所有 Gemini 應(yīng)用用戶開放。
除了“深度思考”,有關(guān)谷歌在模型方面的另一個(gè)前沿研究,則是世界模型。
據(jù) DeepMind 首席執(zhí)行官 Demis Hassabis介紹,“我們正在努力將其擴(kuò)展為一個(gè)世界模型,這是一個(gè)能夠通過模擬世界的某些方面來制定計(jì)劃和想象新體驗(yàn)的模型,就像大腦所做的那樣。這是我一直以來的熱情所在。”
Hassabis 表示游戲領(lǐng)域是 AI 模擬世界的不錯(cuò)的場景。谷歌正在通過開創(chuàng)性的工作,讓代理掌握復(fù)雜的游戲(如圍棋和星際爭霸)來朝著這個(gè)方向邁出了一步,最近我們推出了 GE2 模型,能夠從單個(gè)圖像提示生成 3D 模擬環(huán)境,你可以與之互動。
而這些能力正在 Gemini 中出現(xiàn),它利用其世界知識和推理來表示自然世界中的事物。
此外,谷歌最先進(jìn)的視頻模型對直觀物理有深刻的理解,比如重力、光和材料的行為。它在跨幀保持準(zhǔn)確性方面非常令人難以置信。即使提示變得有點(diǎn)創(chuàng)意,比如這個(gè)人是由救生圈組成的,它也知道該怎么做。
圖片
Hassabis 認(rèn)為,對物理環(huán)境的理解也將對機(jī)器人技術(shù)至關(guān)重要。人工智能系統(tǒng)將需要世界模型,以便在現(xiàn)實(shí)世界中有效地運(yùn)作。因此,谷歌還基于 Gemini 進(jìn)行了微調(diào)了一個(gè)專門的模型,讓它教機(jī)器人做有用的事情,比如抓取、遵循指令,并在飛行中調(diào)整到新任務(wù),人類可以在 AI 沙盒中與之互動。
使 Gemini 成為一個(gè)完整的世界模型,是解鎖一種新人工智能的關(guān)鍵一步,這種人工智能在你的日常生活中是有幫助的,它智能且理解你所處的環(huán)境,并且可以代表你在任何設(shè)備上采取行動。
“這是我們對Gemini應(yīng)用程序的最終愿景,將其轉(zhuǎn)變?yōu)橐粋€(gè)通用的人工智能助手,一個(gè)個(gè)性化的、主動的、強(qiáng)大的人工智能。這是我們通往通用人工智能道路上的一個(gè)關(guān)鍵里程碑。”
在這方面, AI 助理 Project Astra 則是谷歌從去年開始一直在探索的項(xiàng)目。AI 助理 Project Astra 此前能調(diào)用手機(jī)攝像頭識別物體,現(xiàn)在升級版原型還能在無需你發(fā)問的情況下,主動完成任務(wù)或指出錯(cuò)誤,比如作業(yè)中發(fā)現(xiàn)計(jì)算錯(cuò)誤便直接提醒。
據(jù)悉,谷歌對 Astra 還升級了語音輸出,使其更加自然,加入了原生音頻,并改進(jìn)了記憶并增加了計(jì)算機(jī)控制能力。
關(guān)于 Astra,會上還給出了一個(gè)非常接地氣的用例:幫助一位美國小伙兒修理自行車。
圖片
圖片
Project Mariner:智能網(wǎng)頁任務(wù)代理
Project Mariner 是 Google 推出的 AI 代理工具,旨在幫助用戶自動化處理網(wǎng)頁上的多項(xiàng)任務(wù),提升在線工作效率。主要功能包括:
- 多任務(wù)處理:Mariner 現(xiàn)在可以同時(shí)管理多達(dá) 10 項(xiàng)任務(wù),幫助用戶在瀏覽網(wǎng)頁時(shí)實(shí)現(xiàn)更高效的操作 。
- “教與復(fù)現(xiàn)”功能:用戶只需演示一次任務(wù)流程,Mariner 就能學(xué)習(xí)并在未來自動執(zhí)行類似任務(wù),減少重復(fù)操作,提高工作效率。
- Gemini 應(yīng)用中的“代理模式”:在 Gemini 應(yīng)用中引入的“代理模式”允許用戶分配復(fù)雜任務(wù)給 AI 代理獨(dú)立完成,例如在 Zillow 上查找符合特定條件的公寓列表等 。
- 即將推出:Mariner 的實(shí)驗(yàn)版本將很快向訂閱用戶開放,預(yù)計(jì)在今年夏季更廣泛地向公眾發(fā)布 。
圖片
圖片
搜索體驗(yàn)全面重塑 AI 模式面向美所有用戶開放
對于谷歌搜索業(yè)務(wù),會上劈柴哥宣布推出了全新的 “AI 模式”,這是一個(gè)全新標(biāo)簽頁,也是谷歌對傳統(tǒng)搜索體驗(yàn)的一次重大升級。主要亮點(diǎn)包括:
- AI 生成的搜索摘要:AI 模式能夠?yàn)橛脩籼峁┯?AI 生成的搜索結(jié)果摘要,幫助用戶更快速地獲取所需信息 。
- 更自然的交互體驗(yàn):通過引入對話式的搜索界面,用戶可以像與助手對話一樣進(jìn)行搜索,提升使用體驗(yàn)。
- 廣泛的用戶覆蓋:AI 模式現(xiàn)已在美國上線,預(yù)計(jì)將逐步推廣到更多地區(qū) 。
今年夏天,Google 還將在 AI Mode 中測試深度搜索、財(cái)經(jīng)/體育查詢圖表生成功能,以及購物助手等新功能。
圖片
那這里小編再劃一個(gè)重點(diǎn),在搜索體驗(yàn)升級方面,谷歌再次強(qiáng)調(diào)了 Search Live 實(shí)時(shí)互動搜索的概念。
結(jié)合 Project Astra,谷歌推出了 Search Live,用戶可在 AI Mode 或 Lens 中,開啟“Live”模式,對準(zhǔn)相機(jī)畫面與搜索助手實(shí)時(shí)對話。
就在上月,谷歌已向 Android 用戶免費(fèi)開放 Gemini Live 屏幕共享功能,本月起 iOS 用戶也可免費(fèi)使用。
谷歌多模態(tài)產(chǎn)品:Imagen 和 Veo 大升級,影視創(chuàng)作工具上線
這次主題演講上,谷歌還發(fā)布了全新 Imagen 4,在文本生成圖像表現(xiàn)更佳,支持多種圖片比例導(dǎo)出(正方形、橫版等)。同時(shí),下一代 AI 視頻生成器 Veo 3,將支持視頻和音頻同時(shí)生成,Veo 2 也新增了攝像機(jī)控制、物體移除等功能。
值得注意的是,谷歌還上線了一款名為 Flow 的 AI 影視創(chuàng)作應(yīng)用,結(jié)合 Veo、Imagen 和 Gemini,用戶可通過文字或圖片提示生成 8 秒 AI 視頻短片,并通過內(nèi)置場景編輯器拼接成更長影片。(是不是想到了快手和抖音的視頻剪輯工具~)
這還沒完,作為全面手,在3D方面,谷歌將 Project Starline(一款 3D 視頻通話艙)正式更名為 Google Beam。Google Beam 使用一種新的視頻模型將 2D 視頻流轉(zhuǎn)換為逼真的 3D 體驗(yàn),劈柴哥 X 上表示,近乎完美的頭部跟蹤,精確到毫米,每秒 60 幀,全部實(shí)時(shí), 最終呈現(xiàn)的是沉浸式對話體驗(yàn)。
未來,它將內(nèi)置于 HP 品牌設(shè)備中,配備光場顯示器和 6 個(gè)攝像頭,實(shí)時(shí)生成通話對象的 3D 圖像,包括 Deloitte、Duolingo 和 Salesforce 在內(nèi)的企業(yè),已計(jì)劃將 Beam 部署到辦公環(huán)境中。
那些已經(jīng)不太新鮮的AI產(chǎn)品發(fā)布
當(dāng)然,強(qiáng)如谷歌,同樣也免不了俗,也做到款款都是炸裂的精品。一些 AI 發(fā)布都是市面上常見的 AI 應(yīng)用。比如發(fā)布了 Stitch,一款 UI 界面的 AI 生成工具,只需提供主題、描述,或上傳線框、草圖、UI 截圖,即可自動生成界面原型。現(xiàn)已上線 Google Labs。
再比如購物中的 AI 試穿的功能,用戶上傳全身照后,可預(yù)覽不同上衣、褲子、裙子等穿在身上的效果,由 AI 模型精準(zhǔn)識別人像與服飾細(xì)節(jié)。這不都是淘寶/京東玩剩下的嘛。
不過還是要提醒,谷歌有一種玩法還挺不錯(cuò):即上文提到的 AI Mode 中購物,甚至通過 agentic checkout 功能,自動幫用戶下單。
Chrome整合Gemini AI,自動更新被泄漏的密碼
對于一直被傳言有被分拆危險(xiǎn)的 Chrome 而言,谷歌也有了一些不錯(cuò)的升級動作。
從 5 月 21 日起,Google AI Pro 和 Ultra 訂閱用戶可在 Chrome 中啟用 Gemini 按鈕,智能總結(jié)網(wǎng)頁內(nèi)容、協(xié)助瀏覽。目前支持同時(shí)管理 2 個(gè)標(biāo)簽頁,年底前將擴(kuò)展更多。
第二塊令人叫好的則是 Chrome 將自動更新被泄露密碼。Chrome 今年內(nèi)將推出新功能,檢測到密碼泄露時(shí),自動生成強(qiáng)密碼并更新至支持的網(wǎng)站,操作前會征求用戶確認(rèn)。
Gmail 智能回復(fù)再升級以用戶個(gè)人風(fēng)格回復(fù)郵件
此前,Gmail 智能回復(fù)功能被 YC 合伙人吐槽為“無馬的馬車”,現(xiàn)在谷歌很聽勸,已經(jīng)對其進(jìn)行了更新。
更新后,AI 將從用戶收件箱和 Google Drive 中提取信息,自動撰寫更符合用戶個(gè)人風(fēng)格的郵件內(nèi)容。還能識別對話對象語氣,像給老板郵件就自動建議更正式措辭。主打一個(gè)私人定制!
新版將于 7 月在 Google Labs 登陸網(wǎng)頁版、iOS 和 Android。
圖片
Android XR: 如何將 Gemini 帶入眼鏡和耳機(jī)中國隊(duì) Xreal 展示了 Project Aura 原型
這次大會,有關(guān)智能眼鏡的概念研發(fā)也是一大看點(diǎn)。谷歌表示:“Android XR 的推出,讓我們向前邁出了一大步。”
值得一提的是,這次居然是中國隊(duì)實(shí)力出場了!Xreal 攜手 Google 打造了 Project Aura,一款基于 Android XR 平臺的智能眼鏡,預(yù)計(jì)內(nèi)置 Gemini AI,具備廣視場、攝像頭和麥克風(fēng)。
此外,Google 還將與三星、Gentle Monster、Warby Parker 合作開發(fā)其他 Android XR 智麥克風(fēng)。
圖片
這款眼鏡配備攝像頭、麥克風(fēng)和揚(yáng)聲器,可與您的手機(jī)協(xié)同工作,無需掏口袋即可訪問應(yīng)用程序。
此外,可選配的內(nèi)置顯示屏可在需要時(shí)提供私密的實(shí)用信息。眼鏡與 Gemini 配對后,能夠看到和聽到用戶的一舉一動,從而了解主人的處境,并記住其重要事項(xiàng),并全天候提供幫助。
今天的搶先體驗(yàn)展示了 Android XR 眼鏡在實(shí)際場景中的運(yùn)作方式,包括向好友發(fā)送消息、預(yù)約、查詢路線、拍照等等。在演示中,兩人之間的實(shí)時(shí)語言翻譯,展現(xiàn)了這款眼鏡打破語言障礙的潛力,可以說是實(shí)時(shí)提供現(xiàn)實(shí)世界的字幕。
AI Ultra 訂閱上線,每月250刀
至于訂閱上,谷歌推出全新 AI Ultra 訂閱計(jì)劃,提供最高級別 AI 模型和更高使用額度,適用于 Gemini、NotebookLM、Flow 等應(yīng)用,還包含 Project Mariner。
寫在最后:亮點(diǎn)不是很多,但這不怪谷歌
Deep thinking、world model、action intelligence、網(wǎng)頁智能體、AI瀏覽器、影視創(chuàng)作工具、AI Web UI、Andriod XR、Gemini+智能眼鏡,可以說這次大會是一個(gè)谷歌在全熱門賽道秀肌肉的大會。
但憑個(gè)人看法而言,谷歌的優(yōu)勢依舊是在多模態(tài)的進(jìn)展上,不管是模型還是應(yīng)用方面,都有不錯(cuò)的性能和沉淀。而不足之處,則在于對于通用場景下的應(yīng)用,明顯滯后于 OpenAI,比如 browser use 方面,將 Gemini 融入 Chrome 本可以更早一些。
此外,應(yīng)用的創(chuàng)新性沒有特別驚艷之處。通場看下來,一半以上都是已經(jīng)發(fā)布或預(yù)告過的產(chǎn)品。
但這也不能怪谷歌,如果真的什么都讓谷歌做了,AI創(chuàng)業(yè)者還有什么機(jī)會可言呢?你說是嗎,劈柴哥?
圖片