成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

1M長上下文,滿血版Gemini 2.0又一次登上Chatbot Arena榜首

人工智能 新聞
谷歌發布了 Gemini 2.0 Flash Thinking 推理模型的加強版,并再次登頂 Chatbot Arena 排行榜。

就在國內各家大模型廠商趁年底瘋狂卷的時候,太平洋的另一端也沒閑著。

就在今天,谷歌發布了 Gemini 2.0 Flash Thinking 推理模型的加強版,并再次登頂 Chatbot Arena 排行榜。

圖片

谷歌 AI 掌門人 Jeff Dean 親發賀信:「我們在此實驗性更新中引入了 1M 長的上下文,以便對長篇文本(如多篇研究論文或大量數據集)進行更深入的分析。經過不斷迭代,提高可靠性,減少模型思想和最終答案之間的矛盾。」

圖片

試用鏈接:https://aistudio.google.com/prompts/new_chat

讓我們回憶一下:2024 年 12 月 20 日,橫空出世的 Gemini 2.0 Flash Thinking,曾讓 OpenAI 的十二連發黯然失色。

Gemini 2.0 Flash Thinking 基于 Gemini 2.0 Flash,只是其經過專門訓練,可使用思維(thoughts)來增強其推理能力。發布之初,這款大模型就登頂了 Chatbot Arena 排行榜。

在技術上,Gemini 2.0 Flash Thinking 主要有兩點突破:可處理高達 1M token 的長上下文理解能在多輪對話和推理中自我糾錯

Gemini 2.0 Flash Thinking 的一大亮點是會明確展示其思考過程。比如在 Jeff Dean 當時展示的一個 demo 中,模型解答了一個物理問題并解釋了自己的推理過程,整個過程耗時 1 分多鐘。

而另外一位研究者表示,Gemini-2.0-Flash-Thinking-Exp-01-21 這款最新模型的實際體驗比 Jeff Dean 描述的還要快。

圖片

再看 Gemini 2.0 Flash Thinking 的成績,那也是相當亮眼,和前兩代 Gemini 1.5 Pro 002、Gemini 2.0 Flash EXP 相比,Gemini 2.0 Flash Thinking 在 AIME2024(數學能力測試)、GPQA Diamond(科學能力測試)和 MMMU(多模態推理能力)進步迅速,特別是數學成績,提升了 54%。

圖片

從折線圖來看,即使是比較對象是一個月前的自己,也取得了顯著的提升。

圖片

與此同時,在 AGI House 舉辦的活動中,Jeff Dean 和研究科學家 Mostafa Dehghani 透露了更多 Gemini 2.0 Flash Thinking 和 Gemini 2.0 的細節。

進入 Gemini 2.0 Flash Thinking 的互動界面,可以發現谷歌把 Gemini 系列所有模型都放在了這個稱為「Google AI Studio」的界面。

從左側的菜單來看,我們可以在這里一站式地獲得 API 密鑰、創建提示詞、訪問實時對話、開發 APP。平臺還提供了模型調優、資源庫管理、Drive 訪問集成等進階功能,并配備了提示詞庫、API 文檔、開發者論壇等支持資源。

但這個界面上的功能就像「集市」一樣分散,藏得比較深的功能入口似乎并不用戶友好,也缺乏介紹模型能力的文檔。Jeff Dean 對此表示,當模型不再是實驗版而是正式發布時,谷歌將提供完整的技術報告,他們現在的主要目標是讓用戶試用,再根據更多反饋改善。

圖片

Gemini 2.0 Flash Thinking 的互動界面

此外,谷歌的開發理念更偏向「全面均衡」。「我們不希望模型在某些領域特別突出,而其他領域表現欠佳 —— 比如在讀 X 射線時表現出色,但解讀核磁共振時卻很糟糕。」Jeff Dean 補充道:「我們的目標是打造一個真正有實力的通用模型,能夠完成用戶期待的各類任務。這需要持續改進:我們會收集用戶反饋,了解模型在哪些方面做得好,哪些方面做得不夠好。然后,獲取更多人們關心的數據來提升,確保模型在各個方向都有進步,而不是局限在某個小范圍內 —— 雖然在數學等特定領域,有時也會進行專門優化。」

Gemini 2.0 Flash Thinking 主推的亮點是超長的上下文窗口。不過,眾所周知,很多具備長上下文窗口能力的 AI 模型都有個通病:聊著聊著就「變傻」了,說的話前言不搭后語,或者就直接「擺爛」,跳過上下文中的大段信息。

Jeff Dean 表示,Gemini 2.0 Flash Thinking 真正能做到在對話過程中保持連貫的思維,并靈活運用之前積累的信息來完成當前的任務。因相比混合在一起的數千億訓練數據,上下文窗口的信息對于模型來說非常清晰,因此,上下文窗口的信息對于 Gemini 2.0 Flash Thinking 來說,就像你讓把一張普通轎車的圖片改成敞篷車一樣,模型能準確理解每個像素,然后一步步完成修改。

而從下面這個 demo 來看,Gemini 2.0 理解多模態的能力已經躍升了一個臺階。它可以根據語音提示,實時改變這三個小圓的排布,排成一行放在界面頂部,或者排列成一個雪人。更夸張的是,Gemini 2.0 對語音、視覺和動作的融會貫通已經達到了你說想要紫色的圓,它知道要把紅色和藍色的圓重疊在一起調色的境地。

想要如此精準地理解網頁界面的布局和內容,需要強大的邊框識別能力。Jeff Dean 揭秘,這來自 Project Mariner。Project Mariner 是一個研究性的實驗項目,旨在探索人類將如何與 AI 智能體互動,第一步就是讓 AI 理解并操作網頁瀏覽器。

Project Mariner 的能力類似于 Claude 的「computer use」,可以實時訪問用戶的屏幕,理解瀏覽器中圖像的含義。

圖片

傳送門:https://deepmind.google/technologies/project-mariner/

當被問及 Gemini 系列模型是否要向更多模態進發時,Jeff Dean 的回答是:目前谷歌正在瞄準 3D 數據,而且已經有了很好的結果。

看來谷歌還攢了不少存貨,下一個突破會在哪個領域?讓我們拭目以待。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-09-30 14:10:00

2024-04-03 10:05:00

LLM性能基準測試

2011-05-27 09:21:04

2018-05-20 15:32:56

2021-12-13 11:31:38

CodeJetBrains工具

2024-09-05 08:24:09

2017-05-11 14:00:02

Flask請求上下文應用上下文

2021-01-19 09:53:10

數據泄露漏洞攻擊

2025-02-26 00:16:56

RAGAI服務

2021-07-26 07:47:36

Cpu上下文進程

2012-12-31 10:01:34

SELinuxSELinux安全

2025-05-28 11:46:52

強化學習模型AI

2013-10-10 09:33:43

2022-09-14 13:13:51

JavaScript上下文

2024-09-06 13:18:58

2025-02-06 10:21:51

2020-09-15 10:27:13

邊緣計算

2016-05-09 11:38:30

360

2024-02-27 11:47:44

AI數據

2009-11-30 16:24:12

北京聯通計時寬帶
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产无套一区二区三区久久 | 成人欧美一区二区三区黑人孕妇 | 国产成人综合在线 | 久久久久国产精品一区二区 | 亚洲a视频| 成人精品一区 | av天空| 久久99精品久久久水蜜桃 | 中文字幕视频在线观看 | 精品欧美一区二区三区精品久久 | www.亚洲一区二区 | 日韩欧美在线视频一区 | 国产精品久久久久久久久久久久冷 | 最新中文字幕在线 | 鲁大师一区影视 | 国产一级视频在线观看 | 男人的天堂久久 | 91成人午夜性a一级毛片 | 亚洲三区视频 | 亚洲一区二区三区在线播放 | www.久 | 亚洲激情在线观看 | 精品乱码一区二区三四区 | 九九色综合 | 久久久久久国产一区二区三区 | 免费久久网 | 中文字幕一区二区三区在线观看 | 亚洲综合99 | xxx.在线观看| 国产精品日韩欧美 | 北条麻妃99精品青青久久 | 色婷婷精品国产一区二区三区 | 男女视频在线观看网站 | 国产精品3区 | 成人无遮挡毛片免费看 | 欧美日韩网站 | 亚洲国产欧美国产综合一区 | 九九在线精品视频 | 国产高清在线精品一区二区三区 | 亚洲成人精品国产 | 日韩国产一区二区 |