1M長上下文，滿血版Gemini 2.0又一次登上Chatbot Arena榜首

作者：機器之心 2025-01-22 13:30:00

人工智能新聞

谷歌發布了 Gemini 2.0 Flash Thinking 推理模型的加強版，并再次登頂 Chatbot Arena 排行榜。

就在國內各家大模型廠商趁年底瘋狂卷的時候，太平洋的另一端也沒閑著。

就在今天，谷歌發布了 Gemini 2.0 Flash Thinking 推理模型的加強版，并再次登頂 Chatbot Arena 排行榜。

谷歌 AI 掌門人 Jeff Dean 親發賀信：「我們在此實驗性更新中引入了 1M 長的上下文，以便對長篇文本（如多篇研究論文或大量數據集）進行更深入的分析。經過不斷迭代，提高可靠性，減少模型思想和最終答案之間的矛盾。」

試用鏈接：https://aistudio.google.com/prompts/new_chat

讓我們回憶一下：2024 年 12 月 20 日，橫空出世的 Gemini 2.0 Flash Thinking，曾讓 OpenAI 的十二連發黯然失色。

Gemini 2.0 Flash Thinking 基于 Gemini 2.0 Flash，只是其經過專門訓練，可使用思維（thoughts）來增強其推理能力。發布之初，這款大模型就登頂了 Chatbot Arena 排行榜。

在技術上，Gemini 2.0 Flash Thinking 主要有兩點突破：可處理高達 1M token 的長上下文理解；能在多輪對話和推理中自我糾錯。

Gemini 2.0 Flash Thinking 的一大亮點是會明確展示其思考過程。比如在 Jeff Dean 當時展示的一個 demo 中，模型解答了一個物理問題并解釋了自己的推理過程，整個過程耗時 1 分多鐘。

而另外一位研究者表示，Gemini-2.0-Flash-Thinking-Exp-01-21 這款最新模型的實際體驗比 Jeff Dean 描述的還要快。

再看 Gemini 2.0 Flash Thinking 的成績，那也是相當亮眼，和前兩代 Gemini 1.5 Pro 002、Gemini 2.0 Flash EXP 相比，Gemini 2.0 Flash Thinking 在 AIME2024（數學能力測試）、GPQA Diamond（科學能力測試）和 MMMU（多模態推理能力）進步迅速，特別是數學成績，提升了 54%。

從折線圖來看，即使是比較對象是一個月前的自己，也取得了顯著的提升。

與此同時，在 AGI House 舉辦的活動中，Jeff Dean 和研究科學家 Mostafa Dehghani 透露了更多 Gemini 2.0 Flash Thinking 和 Gemini 2.0 的細節。

進入 Gemini 2.0 Flash Thinking 的互動界面，可以發現谷歌把 Gemini 系列所有模型都放在了這個稱為「Google AI Studio」的界面。

從左側的菜單來看，我們可以在這里一站式地獲得 API 密鑰、創建提示詞、訪問實時對話、開發 APP。平臺還提供了模型調優、資源庫管理、Drive 訪問集成等進階功能，并配備了提示詞庫、API 文檔、開發者論壇等支持資源。

但這個界面上的功能就像「集市」一樣分散，藏得比較深的功能入口似乎并不用戶友好，也缺乏介紹模型能力的文檔。Jeff Dean 對此表示，當模型不再是實驗版而是正式發布時，谷歌將提供完整的技術報告，他們現在的主要目標是讓用戶試用，再根據更多反饋改善。

Gemini 2.0 Flash Thinking 的互動界面

此外，谷歌的開發理念更偏向「全面均衡」。「我們不希望模型在某些領域特別突出，而其他領域表現欠佳 —— 比如在讀 X 射線時表現出色，但解讀核磁共振時卻很糟糕。」Jeff Dean 補充道：「我們的目標是打造一個真正有實力的通用模型，能夠完成用戶期待的各類任務。這需要持續改進：我們會收集用戶反饋，了解模型在哪些方面做得好，哪些方面做得不夠好。然后，獲取更多人們關心的數據來提升，確保模型在各個方向都有進步，而不是局限在某個小范圍內 —— 雖然在數學等特定領域，有時也會進行專門優化。」

Gemini 2.0 Flash Thinking 主推的亮點是超長的上下文窗口。不過，眾所周知，很多具備長上下文窗口能力的 AI 模型都有個通病：聊著聊著就「變傻」了，說的話前言不搭后語，或者就直接「擺爛」，跳過上下文中的大段信息。

Jeff Dean 表示，Gemini 2.0 Flash Thinking 真正能做到在對話過程中保持連貫的思維，并靈活運用之前積累的信息來完成當前的任務。因相比混合在一起的數千億訓練數據，上下文窗口的信息對于模型來說非常清晰，因此，上下文窗口的信息對于 Gemini 2.0 Flash Thinking 來說，就像你讓把一張普通轎車的圖片改成敞篷車一樣，模型能準確理解每個像素，然后一步步完成修改。

而從下面這個 demo 來看，Gemini 2.0 理解多模態的能力已經躍升了一個臺階。它可以根據語音提示，實時改變這三個小圓的排布，排成一行放在界面頂部，或者排列成一個雪人。更夸張的是，Gemini 2.0 對語音、視覺和動作的融會貫通已經達到了你說想要紫色的圓，它知道要把紅色和藍色的圓重疊在一起調色的境地。

想要如此精準地理解網頁界面的布局和內容，需要強大的邊框識別能力。Jeff Dean 揭秘，這來自 Project Mariner。Project Mariner 是一個研究性的實驗項目，旨在探索人類將如何與 AI 智能體互動，第一步就是讓 AI 理解并操作網頁瀏覽器。

Project Mariner 的能力類似于 Claude 的「computer use」，可以實時訪問用戶的屏幕，理解瀏覽器中圖像的含義。

傳送門：https://deepmind.google/technologies/project-mariner/

當被問及 Gemini 系列模型是否要向更多模態進發時，Jeff Dean 的回答是：目前谷歌正在瞄準 3D 數據，而且已經有了很好的結果。

看來谷歌還攢了不少存貨，下一個突破會在哪個領域？讓我們拭目以待。

責任編輯：張燕妮來源：機器之心

谷歌 AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

1M長上下文，滿血版Gemini 2.0又一次登上Chatbot Arena榜首