成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌Gemini 2.5全線爆發(fā)!勇戰(zhàn)「瀕死恐慌」,卻被絲血寶可夢嚇到當場宕機

人工智能 新聞
今天,谷歌旗艦Gemini 2.5三箭齊發(fā),首次亮相輕量版2.5 Flash-Lite。最新70頁技術報告中,爆料了Gemini 2.5在玩寶可夢瀕死時,驚現(xiàn)類人的恐慌,導致推理性能直線下降。

昨夜,Gemini 2.5全家桶三款模型,正式上線。

Gemini 2.5 Pro (正式版,與0605預覽版相比無明顯變化)  

Gemini 2.5 Flash(正式版,與0520預覽版相比定價有變)  

Gemini 2.5 Flash-Lite(預覽版,最小推理模型)

圖片

這次,Gemini 2.5 Flash和Gemini 2.5 Pro正式版上線,與谷歌I/O大會公布的預覽版性能無明顯變化。

2.5 Flash-Lite預覽版則是速度最快、性價比最高的Gemini 2.5系模型。

未開啟思考模式,F(xiàn)lash-Lite版輸入價格僅為0.1美元/百萬token,輸出價格0.4美元/百萬token。

圖片

基準測試顯示,2.5 Flash-Lite版(開啟思考模式)在數(shù)學、知識問答、編碼、視覺理解、多語種性能上,足以媲美2.5 Flash。

相較于上一代,2.5 Flash-Lite性能提升顯著,尤其是在數(shù)學、編碼任務中。

在LMArena榜單中,Gemini-2.5-Flash-Lite在文本競技場中位列第12,創(chuàng)意寫作中第 3,編程中第14,在Hard Prompt中第17。

圖片

圖片

圖片

谷歌VP一個demo告訴你,2.5 Flash-Lite輸出速度,能快到實時編寫每個界面的代碼。

關于Gemini 2.5家族最新進展,全藏在技術報告中了,接下來讓我們一一拆解。

圖片

技術報告:https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf

Gemini 2.X家族,一年超進化

谷歌Gemini團隊將這次更新,稱之為「Gemini 2.X模型家族」。

除了如上提到了2.5系列,還包括了2.0系列的一些迭代。

谷歌將Gemini 2.X系列定位于新一代AI模型的發(fā)展方向,與此前的1.X系列相比,2.X系列寄托了谷歌打造通用人工智能的愿景。

值得一提的是,谷歌希望把Gemini打造為真正的融合體系,此前谷歌賬號承載的只是用戶信息,但谷歌賬號本身其實不「保留狀態(tài)」。

而現(xiàn)在,Gemini正在成為「統(tǒng)一線程」(thread)——串聯(lián)起谷歌所有服務的那條線。

Gemini要打造成為一個真正融合在整個谷歌生態(tài)系統(tǒng)中的AI助手,Gemin將看到、聽到甚至預知到你的下一個想法。

Gemini 2.X系列的所有模型均原生支持多模態(tài),并支持超過一百萬Token的長上下文輸入,并具備原生工具使用能力。

這使得它們能夠理解海量數(shù)據(jù)集,并處理來自不同信息源的復雜問題,包括文本、音頻、圖像、視頻,甚至整個代碼倉庫。

Gemini 2.5模型架構

Gemini 2.5模型采用稀疏MoE(Mixture-of-Experts)模型,能夠原生支持文本、視覺和音頻輸入的多模態(tài)處理。

模型架構方面的改進讓Gemini 2.5的能力相較于Gemini 1.5 Pro提升顯著。

Gemini 2.5模型在Gemini 1.5處理長上下文查詢的成功基礎上構建,并融合了新的建模進展。

Gemini 2.5 Pro在處理長達100萬個token的長上下文輸入序列方面超越了Gemini 1.5 Pro。

毋庸置疑,Gemini 2.5 Pro是當前最強模型,在前沿編程、推理基準測試中,刷新了SOTA。

它還具備了頂尖多模態(tài)能力,現(xiàn)可解析「長達3小時」的視頻內(nèi)容,具備了「長上下文+多模態(tài)+推理」三位一體的特點。

AI價格領導者和制定者

從價格VS性能這張圖中可以看出,谷歌Gemini 2.X在性價比上建立了強大的護城河。

正如論文所言,Gemini 2.X家族完整覆蓋了模型性能-成本帕累托前沿(Pareto frontier)。

圖片

Gemini 2.X性能躍升

Gemini 2.X家族模型,在編程、數(shù)學和推理任務上比前代模型都有大幅的躍升。

圖片

下面這張多項基準測試圖,全面覆蓋Gemini 2.X的性能。從1.5到2.0,再到2.5,模型在各項指標上表現(xiàn)大幅提升。

而這些變化,僅在過去一年發(fā)生的。

圖片

橫向?qū)Ρ戎螅賮砜纯v向?qū)Ρ取emini 2.5 Pro在多項基準測試中,幾乎刷新SOTA,尤其是在推理方面。

圖片

語音理解上,Gemini 2.5 Pro刷新了SOTA。視頻理解方面,Gemini 2.5 Pro超越了GPT-4.1。

圖片

圖片

與o3/o4-mini、Claude 4 Opus、DeepSeek-R1相比,只有Gemini 2.5 Flash-Lite每秒輸出的token數(shù)接近350個。

圖片

Gemini 2.5最大的改進在于該系列所有模型都原生的融入了動態(tài)「Thinking」能力,能夠根據(jù)推理時間的增加進一步增加能力。

圖片

面向特定能力的改進

Gemini 2.5進行了專門「領域」能力的優(yōu)化:代碼處理能力、事實準確性、長文本理解、多語言能力、音頻和視頻處理能力,以及智能體(特別Gemini Deep Research)。

· 代碼能力

Gemini2.0與2.5在代碼能力上實現(xiàn)飛躍,通過優(yōu)化預訓練與后訓練流程,提升多模態(tài)開發(fā)效率與實用性。

·  事實性

Gemini模型始終聚焦提升對信息型提問的事實性回應能力。

Gemini 1.5引入FACTS Grounding成為評估標準,2.0具備調(diào)用Google搜索、整合實時信息等功能,2.5更增強多跳推理與工具協(xié)同分析力。

· 長上下文

Gemini 2.5在模型結構和數(shù)據(jù)優(yōu)化下,顯著增強百萬級長上下文處理能力,全面領先于Gemini 1.5。

甚至能從46分鐘視頻中準確回憶1秒事件。

· 多語言能力

多語言能力實現(xiàn)重大飛躍,覆蓋400多種語言。特別在中文、日語、韓語等語言中提升顯著。

· 音頻生成與理解能力雙進化:

Gemini 1.5專注于音頻理解任務(如轉(zhuǎn)錄、翻譯、問答等),而Gemini 2.5進一步具備音頻生成能力(如文本轉(zhuǎn)語音和音視頻生成對話)。

模型能實現(xiàn)音頻的流式輸入輸出,支持低延遲對話。

支持超過200種語言。

· 視頻理解與內(nèi)容生成突破:

將視頻處理效率從每幀258個視覺token優(yōu)化為66個,使模型可在100萬token窗口內(nèi)處理約3小時視頻。

新能力包括從視頻中自動生成互動應用(如測試題)和p5.js動畫,用于可視化關鍵概念。

· 智能體能力躍升:Gemini Deep Research:

基于Gemini 2.5 Pro的Deep Research Agent可自動瀏覽網(wǎng)頁、解決小眾問題,并具備任務優(yōu)先級排序及「死胡同」識別能力。

在「人類最后考試」(Humanity’s Last Exam benchmark)基準測試中的表現(xiàn)從 7.95% 提升至當前的 26.9%。

如果使用更高算力甚至能達到32.4%,展現(xiàn)出前沿的搜索與推理能力。

想要體驗Gemini的所有系列模型,可以在Google AI Studio上免費使用,各個模型的對應關系如下圖所示。

圖片

在Gemini 2.5全面推出后,2.0 Flash/Flash-Lite系列將持續(xù)提供,更高性價比的低延遲響應。

圖片

致謝彩蛋

在這份長達70頁的Gemini 2.5技術報告中,致謝名單就有12頁(46-58)。

但如果你仔細觀察就會發(fā)現(xiàn),第一列致謝的貢獻者首字母拼起來是:

「GEMINI MODELS CAN THINK AND GET BACK TO YOU IN A FLASH」

翻譯過來就是,GEMINI模型能快速思考并立即給出回應,這也是極客的浪漫吧。

圖片

挑戰(zhàn)寶可夢 「絲血」就會「恐慌」

另外,Gemini在玩「寶可夢」游戲中,展現(xiàn)了超強推理能力與長時程任務連貫性的能力。

它在設定超800小時長期目標中,成功挑戰(zhàn)了整個游戲。而且,在第二次自主運行時,完成的時間幾乎縮短一半。

圖片

技術報告第4部分,詳細介紹了Gemini挑戰(zhàn)「寶可夢」的驚人旅程。

獨立開發(fā)者Joel Zhang最先發(fā)起,讓Gemini 2.5去通關。AI首次耗時813小時,成功進入了名人堂,成為了寶可夢聯(lián)盟冠軍。

更令人振奮的是,Joel于5月22日讓升級版Gemini 2.5再次開啟全自動二周目挑戰(zhàn)時,它的通關速度大幅提升,僅耗時406.5。

如圖所示,關鍵里程碑時間抽,從游戲開局到擊敗四天王,Gemini智能體效率提升清晰可見。

圖片

更有趣的是,報告中稱,Gemini 2.5 Pro在挑戰(zhàn)寶可夢生命值低時,會進入一種「慌亂」的狀態(tài),導致推理能力出現(xiàn)質(zhì)性下降。

雖然AI沒有情緒,但它的行為卻像人類在壓力下做出倉促決定一樣。

比如,當寶可夢瀕臨死亡時,Gemini可能會突然停止使用某些工具,導致游戲表現(xiàn)下滑。

圖片

不過,Gemini 2.5 Pro在解決「巨石謎題」上,展現(xiàn)了超乎尋常的能力。

通過創(chuàng)建專門的智能體工具,如路徑規(guī)劃器/策略師,Gemini能在沒有任何人類干預情況下,一次性解決冠軍之路的復雜巨石謎題。

圖片

2.5 Flash-Lite首亮相 速度最快,極致性價比

全新Gemini 2.5 Flash-Lite繼承了Gemini 2.5核心優(yōu)勢功能。

它支持控制思考預算的能力,可開啟/關閉深度思考,還能無縫連接谷歌搜索、代碼執(zhí)行等工具。

與2.0 Flash-Lite不同的是,它科技原生支持多模態(tài)輸入,有100M token上下文。

谷歌稱,這款模型特別擅長翻譯、分類等高吞吐量、低延遲敏感型任務。

圖片

下面這個demo中,是Gemini 2.5 Flash-Lite構建研究原型過程。

它能夠?qū)⒋笮蚉DF立即轉(zhuǎn)換成交互式Web應用程序,從而更輕松地匯總和理解密集信息。

它還通過了物理模擬測試。

圖片



責任編輯:張燕妮 來源: 新智元
相關推薦

2025-06-18 14:06:40

谷歌代碼AI

2025-04-10 10:44:00

2025-04-15 09:03:00

2025-05-21 09:40:11

2013-04-09 10:51:55

美國云計算

2025-06-23 00:00:01

2025-05-21 09:15:00

2025-06-18 09:56:53

2025-03-26 06:56:56

2025-04-01 09:17:00

2024-04-25 08:57:04

2012-10-16 16:18:47

移動戰(zhàn)谷歌

2025-04-09 13:19:29

2025-06-17 08:40:44

2025-06-06 14:23:48

谷歌模型AI

2021-06-08 11:54:45

語言CPU指令集

2012-06-14 15:47:55

移動游戲GreeDeNA

2009-05-14 08:58:11

處理器IntelAMD

2025-04-29 09:16:00

2022-08-09 14:23:30

谷歌宕機
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线视频一区二区三区 | 亚洲精品视频一区 | 97视频在线看 | 欧美电影大全 | 亚洲第一视频网 | av免费网址| 自拍中文字幕 | 成人免费网站 | 超碰精品在线观看 | 国产精品久久久久久久久免费相片 | 亚洲一区不卡在线 | 久久99蜜桃综合影院免费观看 | 国产精品久久久久久久久久久久久 | 一片毛片 | 视频在线一区二区 | 色在线免费视频 | 福利二区 | 欧美a在线观看 | 一区二区日韩 | 欧美一区二区免费电影 | 91国在线高清视频 | 91精品久久久 | 99pao成人国产永久免费视频 | 中文字幕第90页 | 奇米影视首页 | 成人a在线 | 国产精品1区 | 国产精品爱久久久久久久 | 欧美综合自拍 | 天天综合网91| 亚洲一二视频 | 久久免费精彩视频 | 国产亚洲一区在线 | 国产成人啪免费观看软件 | 高清黄色网址 | 午夜免费福利片 | 国产1页 | 欧美中文在线 | 中文字幕一区二区三区精彩视频 | 成人午夜精品 | 午夜精品久久久 |