DeepSeek逼出谷歌新推理模型：40分優勢超GPT4.5登頂競技場，支持原生多模態，但依然敗給了“竹竿問題”

2025-03-26 08:39:03

不僅是在大模型競技場上一舉拿下高分，在各種推理、數學、科學、編程基準上，Gemini 2.5 Pro都表現出色，屬于是編程能跟Claude 3.7 Sonnet掰手腕，數學能跟Grok 3相媲美。

又雙叒，搶在OpenAI直播之前，谷歌Gemini 2.5系列來了。

首個版本Pro Experimental一登場就搶下大模型競技場第一名，并且整整比GPT-4.5高出40分！

圖片

Gemini 2.5同樣是推理模型，用Jeff Dean的說法是：

這是我們最智能的模型，具有令人印象深刻的高級推理和編碼能力。

Be like，給出一段提示詞：

幫我制作一款吸引人的無盡跑酷游戲。屏幕上要有關鍵操作說明。使用p5js，不要用HTML。我喜歡像素風格的恐龍和有趣的背景。

1分鐘左右，就能得到：

圖片

谷歌“最先進復雜任務模型”

谷歌介紹，相較于Gemini 2.0 Flash Thinking這個谷歌首個推理模型，Gemini 2.5在基礎模型和后訓練技術上都有改進。

圖片

更詳細測試結果看這里：

圖片

Gemini 2.5 Pro的上下文窗口是1M tokens，并且支持原生多模態：可以理解龐大數據集并處理來自不同信息源的復雜問題，包括文本、音頻、圖像、視頻，甚至是整個代碼庫。

在推理能力之外，谷歌官方還強調了一把Gemini 2.5 Pro的編程性能：

2.5 pro擅長創造視覺上引人注目的Web應用程序和智能體代碼。

谷歌DeepMind研究員們也釋出了更多案例，比如把“六邊形內旋轉小球”這事整得更加酷炫：

Jeff Dean則興奮地放出了一個編程+數學的用例，還說：

我記起了小時候第一次了解到曼德布羅特集時的興奮之情。

（曼德布羅特集：一種在復平面上形成的分形集合）

p.s. 距離谷歌上新Gemini 2.0家族，也不過一個多月時間，怕不是讓DeepSeek給逼急了（doge）。

目前，Gemini 2.5 Pro已經面向Gemini Advanced付費用戶開放，開放人員也可以在Google AI Studio中試用。谷歌表示，未來幾周內還將在Vertex AI上推出該模型。

不過，當我們拿最新大模型難題“竹竿問題”測試Gemini 2.5 Pro時，它并沒能順利通關。

圖片

責任編輯：武曉燕來源：量子位