大模型全面爆發,所有榜一都是Gemini!谷歌一夜站到了臺前
北京時間今天凌晨 1 點,今年的 Google I/O 2025 開發者大會正式開啟。谷歌最近的大模型技術風頭正勁,今年的這場「科技春晚」吸引了全球關注的目光。
沒有意外,今年的核心主題自然是 AI。會上,谷歌發布或升級了一系列 AI 相關工具和服務,如下圖所示。
不過也有一些預料之外的發布。
下面我們就來概括性地盤點一番 Google I/O 2025 開發者大會這場 AI 的盛宴。
一、Gemini 大爆發
首先最重要的就是基礎模型。
今年,Gemini 無疑是 Google I/O 2025 開發者大會上最亮眼的關鍵詞。谷歌不僅為其帶來了新升級,同時還推出了一系列圍繞 Gemini 開發的工具。
2.5 Pro 不僅在學術基準測試中表現出色,如今更是 WebDev Arena 和 LMArena 排行榜上全球領先的模型,在幫助人們學習方面也同樣出色。
DeepMind 為 2.5 Pro 和 2.5 Flash 帶來了全新功能:原生音頻輸出 —— 能實現更自然的對話體驗;先進的安全保障;以及 Project Mariner 的計算機使用功能。
Deep Think 還能進一步提升 2.5 Pro 的能力,這是一種實驗性的增強型推理模式,適用于高度復雜的數學和編碼。
另外, 最高效的主力模型 Gemini 2.5 Flash 也在多個維度上得到了提升,包括推理、多模態、代碼和長上下文等關鍵基準,同時效率進一步提升。在 DeepMind 自家的評估中,使用的 token 也減少了 20-30%。
2.5 Flash 現已在 Gemini 應用中面向所有用戶開放,DeepMind 計劃將于 6 月初在面向開發者的 Google AI Studio 和面向企業的 Vertex AI 中正式發布更新版本,2.5 Pro 也將很快發布。
谷歌還在 Gemini API 和 Vertex AI 中引入思維摘要(thought summaries)功能,以提高透明度;將思維預算擴展到 2.5 Pro 以增強控制力;并在 Gemini API 和 SDK 中增加對 MCP 工具的支持,以便用戶訪問更多開源工具。
另外,谷歌還宣布了一個名叫 Gemini Diffusion 的新模型。從名字上看,這應該是一個采用了擴散模型的 AI。
為了提升大模型推理速度,以進一步貼近生產應用,Google DeepMind 正在使用「擴散」技術來探索新的語言模型方向,該模型旨在為用戶提供更強大的控制力、創造力和文本生成速度。
擴散模型的工作原理有所不同。它們不是像大語言模型那樣直接預測下個文本 token,而是通過逐步細化噪聲的方式來學習生成輸出。這意味著它們可以快速迭代解決方案,并在生成過程中進行錯誤糾正。這有助于它們在編輯等任務中表現出色,包括在數學和代碼環境中。
谷歌表示:「這個新的最先進的文本模型不僅速度快,而且速度非常快,今天發布的 Gemini Diffusion 實驗演示的生成速度是我們迄今為止最快模型的五倍,同時具有相當的編程性能。」
谷歌表示,Gemini Diffusion 的推理速度可以達到每 12 秒 10095 token。
對這個新模型感興趣的讀者可以在這里加入等待列表:
https://docs.google.com/forms/d/1aLm6J13tAkq4v4qwGR3z35W2qWy7mHiiA0wGEpecooo/viewform?edit_requested=true
Gemini 應用的未來也值得期待。Demis Hassabis 親自撰寫了一篇題為「我們構建通用 AI 助手的愿景」的博客文章,其中寫到:「我們正在將 Gemini 擴展為一個世界模型,它可以通過模擬世界的各個方面來制定計劃并想象新的體驗。」
「我們的終極愿景是將 Gemini 應用打造成一個通用的 AI 助手,它可以為我們執行日常任務,處理日常的日常管理,并提供令人愉悅的新建議,從而提高我們的工作效率,豐富我們的生活。」
這一愿景的起點是 Project Astra,谷歌基于其首次探索了視頻理解、屏幕共享和記憶功能等功能。
在過去的一年里,谷歌一直在將這些功能集成到 Gemini Live 中,以便讓更多人體驗到這些功能。同時,谷歌也在創新,例如,升級了語音輸出,使其更加自然地融入原生音頻,改進了記憶功能,并增加了計算機控制功能。
二、編程工具升級
既然是開發者大會,那必然少不了編程工具的升級。在這方面,谷歌可以說是火力全開。
首先,谷歌正式宣布了前兩天悄然上線的編程智能體 Jules。據介紹,Jules 是一款異步、智能體式的編碼助手,可直接與用戶現有的代碼庫集成。它可將用戶代碼庫克隆到安全的 Google Cloud 虛擬機 (VM) 中,了解項目的完整上下文,并執行編寫測試、構建新功能、提供音頻更新日志、修復錯誤、升級依賴項版本等任務。
Jules 以異步方式運行,讓用戶可在 Jules 后臺運行時專注于其他任務。完成后,它會展示其計劃、推理過程以及所做更改的差異。Jules 默認為私有 —— 谷歌承諾不會使用用戶的私有代碼進行訓練,并且會在執行環境中隔離用戶數據。
目前,Jules 處于公測階段(beta),訪問免費,但使用量會受到限制。谷歌表示會在公測結束后推出定價機制,想要嘗鮮的可得抓緊。
此外,谷歌還宣布了 Gemini Code Assist 的新升級。Gemini Code Assist 是谷歌幾個月前發布的 AI 編程助手,其中包括個人版 Gemini Code Assist for individuals 和代碼審查智能體 Gemini Code Assist for GitHub。谷歌表示:「自二月份發布預覽版以來,我們一直在征求意見、聽取反饋,并逐步實現開發者所需的功能。」
現在,谷歌宣布 Gemini Code Assist 個人版和 GitHub 版正式發布,開發者可以在不到一分鐘的時間內上手。Gemini 2.5 現已支持 Gemini Code Assist 的免費版和付費版,擁有更強大的編程性能;可幫助開發者在創建視覺效果出色的 Web 應用以及代碼轉換和編輯等任務上表現出色。
此外,谷歌還宣布為 Gemini Code Assist 提供了更多自定義選項,包括更多自定義工作流程以適應不同項目需求的方式,更輕松地從上次中斷的位置繼續執行任務的功能,以及用于強制執行團隊編碼標準、樣式指南和架構模式的新工具。
另外,Gemini Code Assist 標準版和企業版開發者也已經可以使用 200 萬 token 的上下文窗口,這能幫助開發者完成大規模的復雜任務,例如錯誤追蹤、代碼轉換以及為新用戶生成全面的入門指南。
谷歌還展示了一個使用統計數據:Gemini Code Assist 可將開發者完成常見開發任務的成功率提高 2.5 倍。
感興趣的用戶可以在 VS Code 或 JetBrains IDE 中下載 Gemini Code Assist 插件,并通過 GitHub 應用訪問代碼審查智能體。此外,用戶現在還可以利用 Android Studio for Business 中的 Gemini,在 Android 開發生命周期的每個階段充分利用 Gemini。
谷歌還推出一款全新的 AI 驅動式 UI 工具:Stitch。它能基于自然語言描述或圖像提示詞,生成適用于桌面和移動設備的高質量 UI 設計及相應的前端代碼。Stitch 能讓用戶快速將創意變為現實,以對話方式迭代設計,調整主題,并輕松將自己的作品導出為 CSS/HTML 或 Figma 以繼續創作。
谷歌還宣布了 Colab 和 Firebase Studio 的一些功能升級。其中 Colab「很快就會具有一種全新的、完全智能體的體驗。只需告訴 Colab 你想要實現的目標,它就會在你的筆記本中執行操作,修復錯誤并轉換代碼,從而幫助你更快地解決難題。」可以期待一下。
三、最新視頻、圖像生成模型
谷歌最新的視頻和圖像生成模型 Veo 3 和 Imagen 4 憑借其優異的新功能,打破了媒體生成的界限。此外,全新的 AI 電影制作工具 Flow 已經用上了 Google DeepMind 最先進的模型,讓你能夠更精細地控制角色、場景和風格,創作出具有電影質感的影片。
1. Veo 3:視頻與音頻的結合
Veo 3 是一個先進的視頻生成模型,它不僅提高了 Veo 2 的質量,而且首次可以生成帶有音頻的視頻。
Veo 3 今天在 Gemini 應用程序和 Flow 中為 Ultra 在美國的用戶提供服務。它也適用于 Vertex AI 上的企業用戶。
2. Veo 2 更新
Veo 2 添加了新功能,包括:
- 先進的參考視頻功能,從而實現更佳的創意控制和一致性。
- 相機控制,可以幫助用戶定義精確的相機運動,包括旋轉,變焦,以實現完美的拍攝。
- Utpainting,拓寬視頻幀,并使其更容易適應任何屏幕尺寸。
- 對象添加和刪除,讓用戶從視頻中添加或刪除對象。
3. Flow
Flow 是一款 AI 電影制作工具,專為創意人士打造,它整合了 Google DeepMind 最先進的模型:Veo、Imagen 和 Gemini,讓用戶能夠無縫創作電影級的片段、場景和故事。
4. Imagen 4
Imagen 4 在精細細節方面擁有非凡的清晰度,例如復雜的織物、水滴和動物皮毛,并且在照片級寫實和抽象風格方面均表現出色。Imagen 4 可以創建各種寬高比的圖像,分辨率高達 2k,更適合打印或演示。它在拼寫和排版方面也得到了顯著提升,讓你可以更輕松地創作自己的賀卡、海報甚至漫畫。
很快,谷歌還將推出 Imagen 4 變體,比 Imagen 3 快 10 倍。
四、Google Beam + 語音翻譯
幾年前,谷歌推出了 Starline 項目,旨在重新定義視頻通信。Starline 項目實現了遠程對話,讓人感覺如同身處同一房間,而無需佩戴專門的眼鏡或頭顯。
今天,谷歌宣布 Starline 項目正在演變為一個全新的 3D 視頻通信平臺:Google Beam。
Google Beam 平臺利用 AI 賦能新一代設備,幫助人們無論身在何處都能建立有意義的聯系。
Google Beam 借助最先進的視頻模型,通過一個由六個攝像頭組成的陣列并結合 AI 技術,將標準的 2D 視頻流轉化為逼真的 3D 體驗,讓用戶以更自然、更直觀的方式進行連接。
此外,谷歌也正在探索使用 Google Beam 進行語音翻譯。這項功能將于今日在 Google Meet 上線。
Google Meet 的語音翻譯功能最初將支持英語和西班牙語,未來幾周將支持更多語言。
有了這項功能,用戶在保持語音、語調和表情的同時,還可以享受近乎實時的翻譯對話。
五、搜索升級
搜索可以說是谷歌的立身之本,但近段時間來已經開始受到新生代的 AI 搜索應用的沖擊,而谷歌也正積極地應對。
在今天的 I/O 開發者大會上,谷歌宣布其搜索中的 AI 概覽(AI Overviews)功能進行了功能升級,現已覆蓋 200 多個國家和地區,支持 40 多種語言,并新增了對阿拉伯語、漢語、馬來語、烏爾都語等語言的支持。
簡單來說,AI 概覽功能可以改進用戶的搜索體驗,用新類型的問題快速查找信息并瀏覽網絡上的相關網站。當谷歌的系統認為這些信息最有幫助時,它們就會顯示在谷歌搜索中,并顯示醒目的網頁鏈接,方便用戶輕松了解更多信息。而且谷歌表示這個功能的速度很快:「AI 概覽功能提供業內最快的 AI 響應速度」。
谷歌也表示,AI 概覽確實可以幫到用戶:讓用戶的對搜索結果更加滿意,搜索頻率也更高。此外,從本周開始,谷歌將在美國的 AI Overviews 中引入其最智能的模型 Gemini 2.5 的一個定制版本,以便搜索能夠解決更棘手的問題。
在谷歌 I/O 開發者大會上,谷歌還宣布今天起在美國正式推出 AI 模式(AI Mode)—— 無需注冊 Labs。
AI 模式今年早些時候開始在 Google 實驗室測試,可以說是谷歌功能最強大的 AI 搜索功能,擁有更先進的推理能力和多模態分析能力,并能夠通過后續問題和有用的網絡鏈接進行更深入的探索。在接下來的幾周內,美國用戶將在谷歌搜索和谷歌應用的搜索欄中看到一個新的 AI 模式標簽頁。
據介紹,AI 模式的底層采用了谷歌的查詢扇出(query fan-out)技術,可將問題分解為子主題,并同時發出多個查詢。這使得新谷歌搜索能夠比傳統的谷歌搜索更深入地挖掘網絡內容,幫助用戶發現更多網絡資源,并找到與用戶查詢高度相關的內容。
當然,谷歌也有自己的深度搜索(Deep Search)了。谷歌宣布會通過深度搜索將深度研究功能引入 AI 模式。深度搜索使用相同的查詢扇出技術,但更上一層樓。它可以發起數百次搜索,對不同的信息進行推理,并在幾分鐘內創建專家級的完整引用報告,從而節省用戶數小時的研究時間。
谷歌還為搜索引入實時功能,可實時提供幫助。事實上,之前每月已有超過 15 億用戶使用 Google Lens 來搜索他們所看到的內容。現在,谷歌宣布將 Project Astra 的實時功能引入搜索,在多模態搜索方面邁出了新的一步。借助實時搜索功能,用戶可以使用攝像頭與搜索實時交流所看到的內容。
谷歌還將 Project Mariner 的智能體功能引入 AI 模式,可幫助用戶節省購票等任務的時間。只需輸入「在更下面的觀眾席找到兩張本周六紅人隊比賽的平價門票」,AI 模式就會啟動查詢扇出,跨網站分析數百個潛在的門票選項,并提供實時價格和庫存,并處理繁瑣的表單填寫工作。AI 模式將呈現符合確切條件的門票選項,讓用戶可以在任何喜歡的網站上完成購買。
此外,谷歌還為搜索的 AI 模式引入了個人上下文(personal context)與定制圖表等能力。
六、全新的 AI 購物模式
谷歌推出了全新的 AI 購物體驗,其將 Gemini 功能與 Shopping Graph 進行完美結合,Shopping Graph 目前擁有超過 500 億條商品信息,涵蓋全球零售商,每條信息都包含評論、價格、顏色選擇和庫存情況等詳細信息。并且信息是準確的、及時的,因為每小時有超過 20 億條此類商品信息在 Google 上更新。
用戶還能進行虛擬試穿:只需上傳一張照片,你就可以虛擬試穿數十億種服裝。
該功能由一個全新的時尚定制圖像生成模型支持,該模型能夠理解人體結構和服裝的細微差別 —— 例如不同面料在不同人體上的折疊、拉伸和懸垂效果。
試穿實驗已經正式啟動。當你在谷歌上選購襯衫、褲子、裙子和連衣裙時,只需點擊產品詳情上的試穿圖標即可。之后,你可以上傳自己的全身照 —— 片刻之后,就能看到衣服穿在身上的效果。
七、結語
以上的盤點性介紹還并未窮盡谷歌今年的 I/O 大會上發布、升級或規劃的一切,比如他們還推出了 Gemma 3n 的預覽版本,這是一個可以在手機、筆記本電腦和平板電腦上流暢運行的開放式多模態模型,可以處理音頻、文本、圖像和視頻。另外,谷歌在 AI 輔助科研、AI 內容鑒定(SynthID Detector)、NotebookLM、云計算、辦公輔助、增強現實等多個領域都有新的動態。他們甚至還推出了新的訂閱套餐:每月 249.99 美元的 Google AI Ultra!
前三個月有折扣
谷歌一直是 AI 研究的先驅,早在 Transformer 架構和 AlphaGo 時代就奠定了技術基礎。然而,近年來在 AI 應用層面,谷歌略顯保守,未能在用戶體驗上與競爭對手齊頭并進。此次 2025 年 I/O 大會,谷歌通過一系列重磅發布,展現了其在 AI 應用領域的強勢回歸。
從 AI Mode 徹底重塑搜索體驗,到 Project Astra 引領多模態交互,再到 Gemini 2.5 的深度推理能力和 Project Mariner 的智能智能體,谷歌不僅追趕上了 AI 應用的浪潮,更在多個關鍵領域實現了超越。這場大會不僅是技術的展示,更是谷歌向未來發出的宣言:在 AI 驅動的新時代,谷歌將繼續引領潮流,塑造更加智能和互聯的世界。