DeepSeek逼出谷歌新推理模型:40分優勢超GPT4.5登頂競技場,支持原生多模態,但依然敗給了“竹竿問題”
又雙叒,搶在OpenAI直播之前,谷歌Gemini 2.5系列來了。
首個版本Pro Experimental一登場就搶下大模型競技場第一名,并且整整比GPT-4.5高出40分!
圖片
Gemini 2.5同樣是推理模型,用Jeff Dean的說法是:
這是我們最智能的模型,具有令人印象深刻的高級推理和編碼能力。
Be like,給出一段提示詞:
幫我制作一款吸引人的無盡跑酷游戲。屏幕上要有關鍵操作說明。使用p5js,不要用HTML。我喜歡像素風格的恐龍和有趣的背景。
1分鐘左右,就能得到:
圖片
圖片
谷歌“最先進復雜任務模型”
谷歌介紹,相較于Gemini 2.0 Flash Thinking這個谷歌首個推理模型,Gemini 2.5在基礎模型和后訓練技術上都有改進。
不僅是在大模型競技場上一舉拿下高分,在各種推理、數學、科學、編程基準上,Gemini 2.5 Pro都表現出色,屬于是編程能跟Claude 3.7 Sonnet掰手腕,數學能跟Grok 3相媲美。
圖片
更詳細測試結果看這里:
圖片
Gemini 2.5 Pro的上下文窗口是1M tokens,并且支持原生多模態:可以理解龐大數據集并處理來自不同信息源的復雜問題,包括文本、音頻、圖像、視頻,甚至是整個代碼庫。
在推理能力之外,谷歌官方還強調了一把Gemini 2.5 Pro的編程性能:
2.5 pro擅長創造視覺上引人注目的Web應用程序和智能體代碼。
谷歌DeepMind研究員們也釋出了更多案例,比如把“六邊形內旋轉小球”這事整得更加酷炫:
Jeff Dean則興奮地放出了一個編程+數學的用例,還說:
我記起了小時候第一次了解到曼德布羅特集時的興奮之情。
(曼德布羅特集:一種在復平面上形成的分形集合)
p.s. 距離谷歌上新Gemini 2.0家族,也不過一個多月時間,怕不是讓DeepSeek給逼急了(doge)。
目前,Gemini 2.5 Pro已經面向Gemini Advanced付費用戶開放,開放人員也可以在Google AI Studio中試用。谷歌表示,未來幾周內還將在Vertex AI上推出該模型。
不過,當我們拿最新大模型難題“竹竿問題”測試Gemini 2.5 Pro時,它并沒能順利通關。
圖片
試玩地址:http://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25
參考鏈接:https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025