谷歌CEO劈柴哥5.20深夜開大:15項重磅炸彈,兩大Gemini前沿方向!中國隊Xreal成為谷歌XR原型機代表 原創
編輯 | 云昭
北京時間5月21日凌晨1點,谷歌 CEO Sundar Pichai 準點走進坐落于加州山景城的著名露天圓形劇場 Shoreline Amphitheatre,發表了 Google IO 2025 大會的主題演講。
全程一部定影的時間, 115 分鐘,可謂是給 5.20 的深夜奉上了一場別樣的谷歌之聲。
先說整體感受,整體上如大部分媒體所預料的:Andriod 已經退出焦點,AI 可以說是全部。
圖片
與去年不同,今年的 IO 大會可以說主打的就是“智能代理與個性化AI”,簡單理解,就是谷歌開始強調大模型的行動能力與個性定制上,正如Sundar 開場總結的:
我們正處于 AI 平臺變革的新階段。幾十年的 AI 理論和基礎研究,正在快速走進現實,融入人們日常生活和工作中,從搜索、助手、視頻通信、開發者工具到應用生態,全面落地。這正是 Gemini 時代的意義所在。
全程跟下來,多達 15 項重磅更新和發布。 雖然許多有關Gemini模型、Agent、A2A 協議等其實早在一周甚至更早之前,谷歌已經等不及搶先發布,但仍有許多新官宣可圈可點。
比如:Gemini 2.5 Pro 新增“深度思考模式”、可主動多模態感知和響應的下一代 AI 助理 Project Astra,以及具備“教與復現”功能、可以同時管理多達 10 項任務的智能網頁任務代理 Project Mariner。
再比如在全面 AI 升級上面,不得不提的谷歌搜索 AI 模式、谷歌瀏覽器融合 Gemini 按鈕,將會化身可智能總結網頁內容、協助瀏覽的 AI 瀏覽器;還有前不久被 YC 合伙人吐槽的 Gmail 郵箱的智能回復也迎來了個性化升級。
再有,就是原來的多模態工具如 Imagen 和 Veo 大升級,并上線了一款 AI 影視創作 App Flow。
最后,值得一提的是,在智能眼鏡方面,Xreal 攜手 Google 打造了一款基于 Android XR 平臺的智能眼鏡 Project Aura。
圖像
話不多說,開始為大家獻上精彩內容。
在 Google,每一天都是雙子座季節
過去的半年,可以說是谷歌反擊 OpenAI 強有力的半年。Sundar 非常自豪地把 Gemini 最新的進展放到了演講中最開始的部分。
“我聽說今天是雙子座季節的開始。我真的不太清楚這有什么大不了的。在Google,每一天都是 Gemini 季節?!?/p>
的確,自去年以來,谷歌已經宣布了超過12個模型和研究突破,并發布了超過20個主要的人工智能產品和功能。
而且 Gemini 的性能也取得了階梯式變化。Sundar介紹道,“Elo分數,作為進步的一個衡量標準,自第一代 Gemini Pro以來,已經上升了超過300分,而今天的Gemini 2.5 Pro在所有類別的LM排行榜上都名列前茅。”
從倉皇應戰 OpenAI 到如今的全面“屠榜”,也許感嘆一句谷歌:“斗宗強者,強悍如斯”也不為過。
簡單幫劈柴哥秀一下 Gemini 在許多基準測試中的 Sota 成績。就以現下最火的編碼方為例。更新后的 2.5 Pro 在 Web Dev Arena 上達到了第一名,現在比之前的版本高出 142 個Elo分數。同時,它在頂級編碼平臺上受到了很多歡迎,比如在 Cursor上,Gemini 是今年增長最快的模型,每分鐘產生數十萬行被接受的代碼。
甚至前不久,Gemini 完成了《精靈寶可夢藍》的通關,獲得了所有 8 個徽章,穿越勝利之路,擊敗了四天王和冠軍。
劈柴哥很調皮地表示:這標志著我們向“API(Artificial Pokémon Intelligence)”又邁進了一步。
圖片
對于過去一年的成績,劈柴哥信心爆棚:“世界采用人工智能的速度比以往任何時候都快。 去年此時,我們通過我們的產品和 API 每月處理 9.7 萬億個token。 如今,這個數字是480萬億。一年之內就增長了50倍?!?/p>
兩個 Gemini 的前沿研究方向
不過小編不慣著谷歌的小傲嬌情緒,還是直接奔重點要緊。
Google DeepMind 宣布在Gemini 2.5 Pro 中引入了一種新的模式——深度思考(Deep Think Mode),它將模型性能推向了極限,帶來突破性的成果,專為復雜數學、編程問題設計,可在回應前先考慮多種假設,而且由于 Gemini 從一開始就具有多模態的特性,所以它在主要基準測試中也表現出色。
據悉深度思考模式使用了谷歌最新的思考和推理研究,包括并行技術等。
圖片
但由于尚需前沿安全評估方面還需要得到專家反饋,所以目前只能以 API 的形勢進行定向邀測。
不過一個跟利好大眾的消息是,輕量版 Gemini 2.5 Flash 也已面向所有 Gemini 應用用戶開放。
除了“深度思考”,有關谷歌在模型方面的另一個前沿研究,則是世界模型。
據 DeepMind 首席執行官 Demis Hassabis介紹,“我們正在努力將其擴展為一個世界模型,這是一個能夠通過模擬世界的某些方面來制定計劃和想象新體驗的模型,就像大腦所做的那樣。這是我一直以來的熱情所在?!?/p>
Hassabis 表示游戲領域是 AI 模擬世界的不錯的場景。谷歌正在通過開創性的工作,讓代理掌握復雜的游戲(如圍棋和星際爭霸)來朝著這個方向邁出了一步,最近我們推出了 GE2 模型,能夠從單個圖像提示生成 3D 模擬環境,你可以與之互動。
而這些能力正在 Gemini 中出現,它利用其世界知識和推理來表示自然世界中的事物。
此外,谷歌最先進的視頻模型對直觀物理有深刻的理解,比如重力、光和材料的行為。它在跨幀保持準確性方面非常令人難以置信。即使提示變得有點創意,比如這個人是由救生圈組成的,它也知道該怎么做。
圖片
Hassabis 認為,對物理環境的理解也將對機器人技術至關重要。人工智能系統將需要世界模型,以便在現實世界中有效地運作。因此,谷歌還基于 Gemini 進行了微調了一個專門的模型,讓它教機器人做有用的事情,比如抓取、遵循指令,并在飛行中調整到新任務,人類可以在 AI 沙盒中與之互動。
使 Gemini 成為一個完整的世界模型,是解鎖一種新人工智能的關鍵一步,這種人工智能在你的日常生活中是有幫助的,它智能且理解你所處的環境,并且可以代表你在任何設備上采取行動。
“這是我們對Gemini應用程序的最終愿景,將其轉變為一個通用的人工智能助手,一個個性化的、主動的、強大的人工智能。這是我們通往通用人工智能道路上的一個關鍵里程碑?!?/p>
在這方面, AI 助理 Project Astra 則是谷歌從去年開始一直在探索的項目。AI 助理 Project Astra 此前能調用手機攝像頭識別物體,現在升級版原型還能在無需你發問的情況下,主動完成任務或指出錯誤,比如作業中發現計算錯誤便直接提醒。
據悉,谷歌對 Astra 還升級了語音輸出,使其更加自然,加入了原生音頻,并改進了記憶并增加了計算機控制能力。
關于 Astra,會上還給出了一個非常接地氣的用例:幫助一位美國小伙兒修理自行車。
圖片
圖片
Project Mariner:智能網頁任務代理
Project Mariner 是 Google 推出的 AI 代理工具,旨在幫助用戶自動化處理網頁上的多項任務,提升在線工作效率。主要功能包括:
- 多任務處理:Mariner 現在可以同時管理多達 10 項任務,幫助用戶在瀏覽網頁時實現更高效的操作 。
- “教與復現”功能:用戶只需演示一次任務流程,Mariner 就能學習并在未來自動執行類似任務,減少重復操作,提高工作效率。
- Gemini 應用中的“代理模式”:在 Gemini 應用中引入的“代理模式”允許用戶分配復雜任務給 AI 代理獨立完成,例如在 Zillow 上查找符合特定條件的公寓列表等 。
- 即將推出:Mariner 的實驗版本將很快向訂閱用戶開放,預計在今年夏季更廣泛地向公眾發布 。
圖片
圖片
搜索體驗全面重塑 AI 模式面向美所有用戶開放
對于谷歌搜索業務,會上劈柴哥宣布推出了全新的 “AI 模式”,這是一個全新標簽頁,也是谷歌對傳統搜索體驗的一次重大升級。主要亮點包括:
- AI 生成的搜索摘要:AI 模式能夠為用戶提供由 AI 生成的搜索結果摘要,幫助用戶更快速地獲取所需信息 。
- 更自然的交互體驗:通過引入對話式的搜索界面,用戶可以像與助手對話一樣進行搜索,提升使用體驗。
- 廣泛的用戶覆蓋:AI 模式現已在美國上線,預計將逐步推廣到更多地區 。
今年夏天,Google 還將在 AI Mode 中測試深度搜索、財經/體育查詢圖表生成功能,以及購物助手等新功能。
圖片
那這里小編再劃一個重點,在搜索體驗升級方面,谷歌再次強調了 Search Live 實時互動搜索的概念。
結合 Project Astra,谷歌推出了 Search Live,用戶可在 AI Mode 或 Lens 中,開啟“Live”模式,對準相機畫面與搜索助手實時對話。
就在上月,谷歌已向 Android 用戶免費開放 Gemini Live 屏幕共享功能,本月起 iOS 用戶也可免費使用。
谷歌多模態產品:Imagen 和 Veo 大升級,影視創作工具上線
這次主題演講上,谷歌還發布了全新 Imagen 4,在文本生成圖像表現更佳,支持多種圖片比例導出(正方形、橫版等)。同時,下一代 AI 視頻生成器 Veo 3,將支持視頻和音頻同時生成,Veo 2 也新增了攝像機控制、物體移除等功能。
值得注意的是,谷歌還上線了一款名為 Flow 的 AI 影視創作應用,結合 Veo、Imagen 和 Gemini,用戶可通過文字或圖片提示生成 8 秒 AI 視頻短片,并通過內置場景編輯器拼接成更長影片。(是不是想到了快手和抖音的視頻剪輯工具~)
這還沒完,作為全面手,在3D方面,谷歌將 Project Starline(一款 3D 視頻通話艙)正式更名為 Google Beam。Google Beam 使用一種新的視頻模型將 2D 視頻流轉換為逼真的 3D 體驗,劈柴哥 X 上表示,近乎完美的頭部跟蹤,精確到毫米,每秒 60 幀,全部實時, 最終呈現的是沉浸式對話體驗。
未來,它將內置于 HP 品牌設備中,配備光場顯示器和 6 個攝像頭,實時生成通話對象的 3D 圖像,包括 Deloitte、Duolingo 和 Salesforce 在內的企業,已計劃將 Beam 部署到辦公環境中。
那些已經不太新鮮的AI產品發布
當然,強如谷歌,同樣也免不了俗,也做到款款都是炸裂的精品。一些 AI 發布都是市面上常見的 AI 應用。比如發布了 Stitch,一款 UI 界面的 AI 生成工具,只需提供主題、描述,或上傳線框、草圖、UI 截圖,即可自動生成界面原型。現已上線 Google Labs。
再比如購物中的 AI 試穿的功能,用戶上傳全身照后,可預覽不同上衣、褲子、裙子等穿在身上的效果,由 AI 模型精準識別人像與服飾細節。這不都是淘寶/京東玩剩下的嘛。
不過還是要提醒,谷歌有一種玩法還挺不錯:即上文提到的 AI Mode 中購物,甚至通過 agentic checkout 功能,自動幫用戶下單。
Chrome整合Gemini AI,自動更新被泄漏的密碼
對于一直被傳言有被分拆危險的 Chrome 而言,谷歌也有了一些不錯的升級動作。
從 5 月 21 日起,Google AI Pro 和 Ultra 訂閱用戶可在 Chrome 中啟用 Gemini 按鈕,智能總結網頁內容、協助瀏覽。目前支持同時管理 2 個標簽頁,年底前將擴展更多。
第二塊令人叫好的則是 Chrome 將自動更新被泄露密碼。Chrome 今年內將推出新功能,檢測到密碼泄露時,自動生成強密碼并更新至支持的網站,操作前會征求用戶確認。
Gmail 智能回復再升級以用戶個人風格回復郵件
此前,Gmail 智能回復功能被 YC 合伙人吐槽為“無馬的馬車”,現在谷歌很聽勸,已經對其進行了更新。
更新后,AI 將從用戶收件箱和 Google Drive 中提取信息,自動撰寫更符合用戶個人風格的郵件內容。還能識別對話對象語氣,像給老板郵件就自動建議更正式措辭。主打一個私人定制!
新版將于 7 月在 Google Labs 登陸網頁版、iOS 和 Android。
圖片
Android XR: 如何將 Gemini 帶入眼鏡和耳機中國隊 Xreal 展示了 Project Aura 原型
這次大會,有關智能眼鏡的概念研發也是一大看點。谷歌表示:“Android XR 的推出,讓我們向前邁出了一大步。”
值得一提的是,這次居然是中國隊實力出場了!Xreal 攜手 Google 打造了 Project Aura,一款基于 Android XR 平臺的智能眼鏡,預計內置 Gemini AI,具備廣視場、攝像頭和麥克風。
此外,Google 還將與三星、Gentle Monster、Warby Parker 合作開發其他 Android XR 智麥克風。
圖片
這款眼鏡配備攝像頭、麥克風和揚聲器,可與您的手機協同工作,無需掏口袋即可訪問應用程序。
此外,可選配的內置顯示屏可在需要時提供私密的實用信息。眼鏡與 Gemini 配對后,能夠看到和聽到用戶的一舉一動,從而了解主人的處境,并記住其重要事項,并全天候提供幫助。
今天的搶先體驗展示了 Android XR 眼鏡在實際場景中的運作方式,包括向好友發送消息、預約、查詢路線、拍照等等。在演示中,兩人之間的實時語言翻譯,展現了這款眼鏡打破語言障礙的潛力,可以說是實時提供現實世界的字幕。
AI Ultra 訂閱上線,每月250刀
至于訂閱上,谷歌推出全新 AI Ultra 訂閱計劃,提供最高級別 AI 模型和更高使用額度,適用于 Gemini、NotebookLM、Flow 等應用,還包含 Project Mariner。
寫在最后:亮點不是很多,但這不怪谷歌
Deep thinking、world model、action intelligence、網頁智能體、AI瀏覽器、影視創作工具、AI Web UI、Andriod XR、Gemini+智能眼鏡,可以說這次大會是一個谷歌在全熱門賽道秀肌肉的大會。
但憑個人看法而言,谷歌的優勢依舊是在多模態的進展上,不管是模型還是應用方面,都有不錯的性能和沉淀。而不足之處,則在于對于通用場景下的應用,明顯滯后于 OpenAI,比如 browser use 方面,將 Gemini 融入 Chrome 本可以更早一些。
此外,應用的創新性沒有特別驚艷之處。通場看下來,一半以上都是已經發布或預告過的產品。
但這也不能怪谷歌,如果真的什么都讓谷歌做了,AI創業者還有什么機會可言呢?你說是嗎,劈柴哥?
圖片
本文轉載自??51CTO技術棧??,作者:云昭
