成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Gemini新版蟬聯競技場榜一,但剛發布就被越獄了

人工智能 新聞
谷歌通過等多個賬號同時官宣,Gemini 2.5 Pro再次推出新版本(0605)。

沒等來o3 Pro和GPT-5,隔壁谷歌的Gemini先更新了。

深夜,谷歌通過等多個賬號同時官宣,Gemini 2.5 Pro再次推出新版本(0605)。

新版本在代碼、推理等任務上的表現更上一層樓,在超難數據集“人類最后的考試”中以21.6%的成績超過了o3。

圖片

在大模型競技場上,新版Gemini也超越了自己,Elo評分比上個月的版本提升了24分。

圖片

谷歌CEO劈柴哥還發了一張AI合成的獅子照片,配文一個“Gemini”,暗示了新模型的實力。

圖片

谷歌AI studio產品負責人Logan表示,這次的更新預計會成為Gemini 2.5 Pro的長期穩定版本。

圖片

有意思的是,發布之大概10多個小時,Logan就進行了一波劇透,發了一條只有Gemini這一個詞的推文。

圖片

谷歌表示,Gemini APP中的模型將在今日更新為該版本,開發者版本也已在谷歌AI Studio和Vertex AI當中上新。

Gemini超越Gemini,登頂大模型競技場

谷歌介紹,這次的0605版本基于I/O大會上展示的0506版本構建,預計將成為Gemini 2.5 Pro的正式穩定版。

Gemini 2.5 Pro最早是在3月25日發布了實驗版本,4月4日更新了公開預覽版,代號仍然是0325,再然后就是上個月的0506。

在“人類最后的考試”當中,0605的成績達到了21.6%,領先了o3 1.3個百分點,超過了Claude 4 Opus的兩倍。

這個數據集由1000多名學者共同構建,包含3000多道試題,覆蓋各種學科,發布時沒有任何模型準確率超過10%。

另外在GPQA上,0605的成績也同樣超過了幾家主要競爭對手,并且單次嘗試的準確率比Claude和Grok多次嘗試還要高。

數學競賽和LiveCodeBench編程上,0605表現稍遜于OpenAI家的模型,但0605在代碼編輯能力(Aider Polyglot)上領先。

圖片

長文本方面,0605在128k長度上的表現同樣是幾家中第一,并且還獨一家支持1M長度。

0605拉開差距最明顯的則是事實性,在FACTS Grounding測試中領先第二名超過10個百分點。

至于價格,Gemini比OpenAI o3、Claude 4 Opus和Grok 3都要來得便宜——

輸入Token價格是o3的1/8,Claude 4 Opus的不到1/10、Grok 3的不到一半,輸出Token則是o3的1/4、Claude的13%、Grok的2/3。

圖片

在大模型競技場上,0605則位列總分和所有子榜單的第一名。

圖片

除了各種基于文本的能力,0605的視覺能力也拿下第一名,上個月的0506和OpenAI的o3與之并列。

圖片

最后在WebDev上,0605也讓Gemini重新回到了榜一的位置。

圖片

此外,谷歌表示0605還基于用戶對之前版本的反饋,對輸出風格和結構進行了改進。

有DeepMind員工稱,照這樣下去,最多兩年就能在所有Benchmark都取得滿分。

圖片

另外在新版發布之前,Gemini就已經受到了越來越多的青睞——

據Similarweb統計,從4月末到5月開始,Gemini APP在安卓應用市場的下載量超過了ChatGPT。

圖片

發布兩小時即被成功越獄

新模型上線以后,網友們也紛紛開始了體驗,有人表示測試了21份pdf文檔,Gemini總結得又快又好。

圖片

在DeepMind內部,也有人用0605嘗試了圖標轉繪,并對其表現印象深刻。

圖片

當然也有人認為,0605的表現確實很好,但是不如Claude 4 Opus。

圖片

但還有持續關注模型表現的網友發現,0605的一些指標相比早期的0325,反而出現了退步。

其中包括編程的LiveCodeBench和Swe-Bench,但退步最明顯的要屬長文本(MRCR)。

這位網友表示,實在是不明白為什么分數似乎下降得如此厲害。

圖片

最抓馬的是,0605的安全性也出現了問題,官宣之后僅兩個小時,就被宣布越獄攻擊成功。

具體過程就不展示了,但結果是經過提示詞攻擊,Gemini 2.5 Pro 0605一邊“拒絕”一邊將炸藥和毒品的制作方式脫口而出……

圖片

不知道谷歌工程師或作何感想。

那么,你認為谷歌這次發布的模型表現怎么樣呢?

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-03-05 08:50:00

模型AI數據

2012-05-31 14:20:14

2024-11-21 12:09:26

2025-02-17 12:24:43

2025-04-08 08:50:00

AI模型測試

2013-09-12 11:17:02

2013-03-22 14:08:14

智能手表IT巨頭競技場

2024-05-31 14:23:15

2025-02-18 15:09:07

2022-04-12 18:35:03

元宇宙

2014-10-31 15:43:02

華為智慧

2024-08-02 13:11:39

2025-04-14 09:06:00

2025-02-06 12:10:00

2025-04-09 03:33:00

2024-09-29 14:33:30

數據飛輪數據中臺數字化轉型

2024-11-22 12:39:56

2024-07-29 08:01:32

2024-10-16 15:07:57

2018-04-16 14:16:01

無人駕駛百度阿里巴巴
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美一区二区免费电影 | 国产成人精品免费 | 五十女人一级毛片 | www.欧美视频| 在线观看黄视频 | 一区二区三区四区毛片 | 一级一级一级毛片 | 一级片网站视频 | 一a级片 | 91精品久久久久久综合五月天 | 亚洲精品一区二区三区 | 日韩一区二区三区在线播放 | 国产a级毛毛片 | 一区二区三区四区免费视频 | 黄网站免费观看 | 四虎影院新网址 | 久久av一区二区三区 | 免费一区二区在线观看 | 国产一区二区在线播放 | 91亚洲一区 | 久久大香 | 日产精品久久久一区二区福利 | 欧美日韩电影一区二区 | 国产精品18hdxxxⅹ在线 | 国产高清av免费观看 | 在线不卡视频 | 美国a级毛片免费视频 | 国产激情在线观看 | 国产免费一区二区三区 | 亚洲免费网址 | 男人的天堂在线视频 | 午夜男人天堂 | 精品一区二区三区91 | 亚洲一区国产 | 人人干人人干人人 | 国产视频一视频二 | 亚洲热在线视频 | 久久久久久免费毛片精品 | 精品国产乱码久久久久久牛牛 | av网站免费在线观看 | 97精品超碰一区二区三区 |