成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌大模型“性價比之王”來了!混合推理模型,思考深度可自由控制,競技場排名僅次于自家Pro

人工智能 新聞
作為更注重效率的Flash,在大模型競技場上排名并列第二,第一是自家的Gemini 2.5 Pro。

緊跟o4-mini,谷歌上新了Gemini 2.5 Flash preview版本。

作為更注重效率的Flash,在大模型競技場上排名并列第二,第一是自家的Gemini 2.5 Pro。

這樣的表現,讓Gemini 2.5 Flash的性價比直接拉滿。

而且還是一款混合推理模型,可以自由設定思考深度,幫助預算不足的用戶進一步控制推理成本。

目前,preview版本(不同于Gemini網頁版中的版本)已在Google AI Studio和Vertex AI的 API中上線。

圖片

主打性價比,思考深度自由調控

在大模型競技場上,經過3000多輪對戰,Gemini 2.5 Flash獲得了1392分的成績,與Grok-3、GPT-4.5等模型并列第二。

綜合成績僅次于自家的Pro版,這樣看來在競技場中戰勝谷歌的只有谷歌了。圖片

圖片

并且在編程、復雜提示和長文本三個子榜單中,都和Pro版并列第一。

圖片

在大模型競技場推出的WebDev榜單里,Gemini 2.5 Flash位列第七,超過了前一代(2.0)的Pro版本。

圖片

此外谷歌還展示了Gemini 2.5 Flash在一系列高難度數據集上的表現。

其中包括由1000多名學者提出的“人類最后的考試”,這套測試集發布時沒有任何一個模型得分超過10%,現在Gemini 2.5 Flash的成績是12.1%。

圖片

作為Flash版本,Gemini 2.5 Flash在谷歌自家的模型中,是至今性價比最高的版本。

其價格為0.15/0.6/3.5美元每百萬輸入/輸出/推理Token,和o4-mini相比便宜了不少。

圖片

實際上,如果按照輸入輸出3:1的比例計算,在大模型競技場1400分附近,Gemini 2.5 Flash是最便宜的一款模型。

圖片
△請注意橫軸數字非單調下降

另外對于價格相對較高的推理過程,Gemini 2.5 Flash支持自由深度控制(甚至完全關閉),可以幫助預算不足的用戶節約成本。

如果不進行設置,模型也會根據prompt自己判斷適宜的思考深度,避免在簡單的問題上過度思考,從而平衡成本。

圖片

o4-mini的競爭者?

在HackerNews上,Gemini 2.5 Flash引發了熱烈的討論。

有人認為,谷歌不搞炒作,但實際上性價比非常高,谷歌正在贏得人工智能競賽。

也有人覺得,便宜是便宜,但是模型有時候會犯懶,不過這也在預料之中。

當然,實際應用還是要看具體任務,不過可以確定的是,Gemini 2.5 Flash的性價比已經獲得了部分人的認可。

圖片

另外由于Gemini的Flash版本和OpenAI的mini類似,再加上上線時間鄰近,Gemini 2.5 Flash也被視為o4-mini的競爭者。

不過從谷歌官方發布的成績單上看,Gemini 2.5 Flash在一些難度較高的測試集中,表現是要稍遜于o4-mini的。

但如果考慮價格,這樣的差距似乎可以接受,而且實際任務當中,也不總是需要模型能夠應付這些最難的問題。

圖片

那么,在實際環境當中,Gemini 2.5 Flash的表現又如何呢?首先看看編程能力。

先安排一下著名的小球測試變體——一個大五邊形中包含了三個缺一邊的小五邊形,之間互不交叉,小球在其中按照物理規律運動。

五邊形的部分Gemini 2.5 Flash,正確繪制出來了,但對于小球則是完全已讀亂回,經過了反復調整之后依然翻車。

圖片

再看o4-mini,運行結果符合提示詞要求,并且代碼更加精簡,僅128行,而Gemini版本超過了500行。

這一輪,o4-mini勝。

圖片

再看數據分析能力。

我們找來了最近某班次航班的飛行記錄,包含了起飛到降落過程中各時間點的位置、高度、速度、航向等信息,一共有1700余個數據點。

給出的任務則是繪制出高度和速度隨時間變化的折線圖,并且涉及到了時區和計量單位的換算(原始數據中時間為UTC時間、高度為英尺、速度為節,需要換算成北京時間、高度單位為米、速度單位為公里每小時)。

雖然我們上傳了數據文件,但一開始Gemini沒有選擇外掛,而是把數據全都寫進了Python代碼,導致代碼非常冗長。

經過提示之后,Gemini對代碼進行了改進,得到了正確的圖像。

圖片

o4-mini這邊,雖然結果也對,但是沒有考慮清楚坐標軸文本的長度,導致橫軸上所有標簽都擠成一團。

而且相比之下,Gemini的版本還帶有網格線,能夠更清晰地看出各點對應的大致數值。

這一輪,Gemini勝。

圖片

最后一輪,來看下兩款模型的多模態理解能力。

這是英偉達最近一個月的股票形勢圖,我們讓兩款模型分別分析一下最佳的入手時機。

圖片

它們都從圖中正確發現了最低點和對應的時間,至于回答質量,還是直接看他們的輸出結果:

圖片

總的來說,如果不考慮價格,Gemini 2.5 Flash確實和o4-mini比還有些不盡如人意,但落地中考慮性價比,可能綜合競爭力就體現出來了。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-05-31 14:23:15

2025-03-13 06:34:49

2025-04-18 10:36:42

2025-02-14 11:18:57

2011-05-05 10:58:13

應用商店App StoreBlackBerry

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-03-26 08:39:03

2025-02-28 08:40:00

2025-04-02 09:21:00

DeepSeekAI開源

2012-05-31 14:20:14

2025-05-13 05:11:00

推理模型微調

2025-02-25 08:15:09

2024-06-20 14:04:17

2025-02-06 12:10:00

2025-03-05 00:22:00

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-01-15 13:01:07

2024-07-24 12:40:44

2025-04-10 06:16:33

2025-06-27 15:50:36

2G顯存谷歌模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产极品粉嫩美女呻吟在线看人 | 91资源在线 | 精品国产一区二区在线 | 国产成人高清 | 精品国产一区二区三区免费 | 精品国产鲁一鲁一区二区张丽 | 亚洲人成人网 | 欧美日韩亚洲视频 | 日韩欧美成人精品 | 日韩一区二区三区精品 | 欧美在线一区二区视频 | 亚洲一区二区三区视频 | 国产精品美女www爽爽爽 | 国产精品成人一区 | 亚洲精品1 | 91av大全| 中文字幕在线电影观看 | 韩国av一区二区 | 成人免费黄色片 | 大吊一区二区 | 亚洲精品乱码久久久久久9色 | 日本久久久一区二区三区 | 黄色毛片一级 | 亚洲欧美综合精品久久成人 | 一区二区av | 日本特黄特色aaa大片免费 | 午夜在线免费观看视频 | 亚洲国产精品视频 | 国产中文字幕在线观看 | 久久久网 | 国产专区在线 | 日韩欧美二区 | 涩涩视频在线播放 | 国产精品1区2区 | 91精品久久久久 | 日本黄视频在线观看 | 中文字幕在线视频精品 | 黄色小视频大全 | 日本在线视 | 在线观看黄色大片 | 中国xxxx性xxxx产国 |