數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!
嘿,大家好!這里是一個專注于前沿AI和智能體的頻道~
DeepSeek-V3-0324前天悄然發(fā)布,沒有任何預告和宣傳,卻因其極強的編碼能力,迅速火遍全網(wǎng)。
或許,它已成為目前最優(yōu)秀的"非推理"模型。
編碼性能直追目前基本唯一可用的Claude Sonnet 3.7。
到昨天晚上,官方終于發(fā)布公告,在LiveCodeBench編碼測試中,性能指標已超越Claude Sonnet 3.7。官網(wǎng)已更新至最新版模型,不開啟深度推理時,即使用的是這一最新版本。
昨晚上,Google發(fā)布了Gemini的重大版本更新,儼然一個"數(shù)值怪物",在推理能力、編碼能力和復雜任務處理能力上均實現(xiàn)大幅提升。延續(xù)Google一貫特色,該版本可在Google AI Studio上免費使用。
在由人類投票的LMSYS大模型競技場上,Gemini 2.5 Pro已徹底領先一個身位(當然,刷這個榜單一直是Google的強項)。
- deepseek免費試玩地址:https://aistudio.google.com/prompts/new_chat
- Gemini 2.5 pro免費試玩地址:https://aistudio.google.com/prompts/new_chat
需要注意的是,Gemini 2.5 Pro是一個名字不帶thinking的推理模型
本來想對比一些用戶場景的效果,如海報、封面設計、Agent規(guī)劃等,但目前DeepSeek官網(wǎng)只能使用思考模型,而Chat模型總是提示??服務器繁忙,請稍后再試?
?,尷尬~
審美能力
封面
下圖輸入是本段前的文章內(nèi)容。從左到右分別對應DeepSeek-R1、Gemini 2.5 Pro thinking、Claude Sonnet 3.7 thinking。不得不說,在審美方面,DeepSeek和Gemini 2.5仍落后Claude一大截。
天氣卡片
Gemini生成的效果只能說一般般:
任務規(guī)劃
任務規(guī)劃能力測試可以大致評估其是否適用于通用Agent的規(guī)劃模型。
我測試了一個簡單的prompt,下圖黑色部分是Gemini 2.5 Pro的結果,右側白色部分是Claude 3.7 Sonnet的結果。總體而言,Gemini對需求理解更為透徹,內(nèi)容規(guī)劃更加完善全面,而Claude則提供了更詳細的網(wǎng)頁制作細節(jié)。
考慮到Google自家已有眾多領域Agent,而前置的TODOLIST基本是最前端的環(huán)節(jié),因此即便簡單的prompt也能獲得非常好的效果。相比之下,目前DeepSeek-R1的反饋較為隨意,故未展示。
文筆
這里引用昨天DeepSeek官方賬號的例子,盡管Gemini使用繁體字,但在文筆上,我更傾向于DeepSeek。
最后總結一下,因為一些問題,沒法測試DeepSeek新版模型。
- Gemini 2.5新版本展現(xiàn)出優(yōu)秀的前置規(guī)劃能力,證明并非所有規(guī)劃任務都必須依賴Claude
- DeepSeek的代碼能力據(jù)稱極為強大,且作為非推理模型,為國產(chǎn)AI應用帶來更多想象空間
- DeepSeek新版模型主要優(yōu)化了后訓練環(huán)節(jié),而R系列模型是基于base模型,兩者的技術路線傳導不一定順暢,但R2版本值得期待
- Gemini 2.5 Pro首token生成延遲明顯增加,但開始生成后速度依舊很快(可能與排隊機制有關),推理速度仍是Google的強項
- 對于普通用戶而言,Gemini Pro 2.5雖然性能強勁,但實際獲得的收益可能有限,繼續(xù)使用2.0 Flash版本仍是合理選擇
本文轉載自探索AGI,作者:獼猴桃
