成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!

發(fā)布于 2025-3-28 00:05
瀏覽
0收藏

嘿,大家好!這里是一個專注于前沿AI和智能體的頻道~

DeepSeek-V3-0324前天悄然發(fā)布,沒有任何預告和宣傳,卻因其極強的編碼能力,迅速火遍全網(wǎng)。

或許,它已成為目前最優(yōu)秀的"非推理"模型。

編碼性能直追目前基本唯一可用的Claude Sonnet 3.7。

到昨天晚上,官方終于發(fā)布公告,在LiveCodeBench編碼測試中,性能指標已超越Claude Sonnet 3.7。官網(wǎng)已更新至最新版模型,不開啟深度推理時,即使用的是這一最新版本。

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!-AI.x社區(qū)

昨晚上,Google發(fā)布了Gemini的重大版本更新,儼然一個"數(shù)值怪物",在推理能力、編碼能力和復雜任務處理能力上均實現(xiàn)大幅提升。延續(xù)Google一貫特色,該版本可在Google AI Studio上免費使用。

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!-AI.x社區(qū)

在由人類投票的LMSYS大模型競技場上,Gemini 2.5 Pro已徹底領先一個身位(當然,刷這個榜單一直是Google的強項)。

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!-AI.x社區(qū)

  • deepseek免費試玩地址:https://aistudio.google.com/prompts/new_chat
  • Gemini 2.5 pro免費試玩地址:https://aistudio.google.com/prompts/new_chat

需要注意的是,Gemini 2.5 Pro是一個名字不帶thinking的推理模型

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!-AI.x社區(qū)

本來想對比一些用戶場景的效果,如海報、封面設計、Agent規(guī)劃等,但目前DeepSeek官網(wǎng)只能使用思考模型,而Chat模型總是提示??服務器繁忙,請稍后再試??,尷尬~

審美能力

封面

下圖輸入是本段前的文章內(nèi)容。從左到右分別對應DeepSeek-R1、Gemini 2.5 Pro thinking、Claude Sonnet 3.7 thinking。不得不說,在審美方面,DeepSeek和Gemini 2.5仍落后Claude一大截。

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!-AI.x社區(qū)

天氣卡片

Gemini生成的效果只能說一般般:

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!-AI.x社區(qū)

任務規(guī)劃

任務規(guī)劃能力測試可以大致評估其是否適用于通用Agent的規(guī)劃模型。

我測試了一個簡單的prompt,下圖黑色部分是Gemini 2.5 Pro的結果,右側白色部分是Claude 3.7 Sonnet的結果。總體而言,Gemini對需求理解更為透徹,內(nèi)容規(guī)劃更加完善全面,而Claude則提供了更詳細的網(wǎng)頁制作細節(jié)。

考慮到Google自家已有眾多領域Agent,而前置的TODOLIST基本是最前端的環(huán)節(jié),因此即便簡單的prompt也能獲得非常好的效果。相比之下,目前DeepSeek-R1的反饋較為隨意,故未展示。

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!-AI.x社區(qū)

文筆

這里引用昨天DeepSeek官方賬號的例子,盡管Gemini使用繁體字,但在文筆上,我更傾向于DeepSeek。

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!-AI.x社區(qū)

最后總結一下,因為一些問題,沒法測試DeepSeek新版模型。

  • Gemini 2.5新版本展現(xiàn)出優(yōu)秀的前置規(guī)劃能力,證明并非所有規(guī)劃任務都必須依賴Claude
  • DeepSeek的代碼能力據(jù)稱極為強大,且作為非推理模型,為國產(chǎn)AI應用帶來更多想象空間
  • DeepSeek新版模型主要優(yōu)化了后訓練環(huán)節(jié),而R系列模型是基于base模型,兩者的技術路線傳導不一定順暢,但R2版本值得期待
  • Gemini 2.5 Pro首token生成延遲明顯增加,但開始生成后速度依舊很快(可能與排隊機制有關),推理速度仍是Google的強項
  • 對于普通用戶而言,Gemini Pro 2.5雖然性能強勁,但實際獲得的收益可能有限,繼續(xù)使用2.0 Flash版本仍是合理選擇

本文轉載自探索AGI,作者:獼猴桃

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: av入口 | 欧美精品乱码99久久影院 | 精品小视频 | 久久高清免费视频 | 在线国产视频 | 欧美日韩毛片 | 色综合天天天天做夜夜夜夜做 | 亚洲欧美国产精品一区二区 | 91视频在线观看 | 99爱在线视频 | 在线看成人av | 精品毛片 | 国产午夜精品久久久 | 亚洲永久免费观看 | 久久精品国产一区 | 日日想夜夜操 | 国内在线视频 | 欧美综合在线观看 | 国产精品99久久久久久久久久久久 | 自拍亚洲| 国产91网址 | 91在线视频网址 | 欧美在线看片 | 欧美日韩在线视频观看 | 韩国精品在线观看 | 亚洲精品久久久久avwww潮水 | 欧美多人在线 | 国产激情一区二区三区 | 久久曰视频 | 草草草网站 | 久久国产精品-国产精品 | 国产一区二区三区四区在线观看 | 青青草原精品99久久精品66 | 日本久久综合 | 欧美一区2区三区3区公司 | av大全在线观看 | 99福利网| 中文字幕乱码一区二区三区 | 欧美日韩中文国产一区发布 | 一区二区三区四区国产 | 精品视频一区二区三区 |