Gemini 2.0 Flash Thinking：谷歌放大招！能"直播思考"的AI來了，推理能力吊打OpenAI？原創精華

發布于 2025-2-20 10:15

瀏覽

0收藏

01、概述

最近，Google推出了全新的Gemini 2.0 Flash Thinking Experimental，并將其從之前僅在Google AI Studio、Gemini API以及Vertex AI上的使用，擴展到了Gemini應用的用戶。這一變化無疑是人工智能領域的一個重要節點，它不僅為推理型模型帶來了更強大的功能，也重新定義了我們與AI互動的方式。

Gemini 2.0 Flash Thinking：谷歌放大招！能"直播思考"的AI來了，推理能力吊打OpenAI？-AI.x社區

02、什么是Gemini 2.0 Flash Thinking？

Gemini 2.0 Flash Thinking是Google推出的一款專注于推理的AI模型。與傳統的語言模型不同，它的最大特點并不在于簡單地提供答案，而是將推理過程展現給用戶。這意味著它不僅給出答案，還會逐步展現思考的步驟，評估不同的選項，并解釋得出結論的思考方式。

推理的核心：展示思維過程

相比于OpenAI的O系列和DeepSeek的R系列，Gemini 2.0 Flash Thinking的最大優勢就在于其速度和透明度。傳統的AI模型更多的是通過流暢的文本生成來回答問題，而Flash Thinking則像是你請了一個聰明的助手，給你展示每一步是怎么想的，如何做出決策，甚至會提出其他可能的選項。

它不僅能解答問題，還能讓你看到其解題的每一步，這種透明度大大增強了用戶對AI推理的信任感。

Gemini 2.0 Flash Thinking：谷歌放大招！能"直播思考"的AI來了，推理能力吊打OpenAI？-AI.x社區

03、2.0 Flash Thinking：多模態與大規模推理的結合

支持多模態輸入

Gemini 2.0 Flash Thinking是一個多模態模型，意味著它不僅能處理文本輸入，還能處理圖像。簡單來說，它能夠理解并分析包含圖像的復雜任務，比如解讀圖表、分析復雜文檔，甚至從圖片中提取信息。這為需要視覺信息的任務打開了新的可能性，尤其是在需要圖表分析或復雜文件解讀時，Flash Thinking展現出了極強的優勢。

超大上下文窗口

一個特別令人興奮的特點是，Gemini 2.0 Flash Thinking的上下文窗口非常大，支持最多達100萬個tokens的輸入，且生成的輸出可達到64,000 tokens。這使得它能夠處理更大規模的數據，甚至能在長篇書籍、研究論文或長時間對話的上下文中維持連貫性。

這種大規模的上下文處理能力意味著，它能夠更加全面地推理，理解更多信息，并減少用戶需要反復輸入上下文的麻煩。

知識截止期和工具集成

然而，也要注意到一個限制：Gemini 2.0 Flash Thinking的知識截止日期為2024年6月。這意味著它無法獲得2024年6月之后發生的事件的信息，因此在某些情況下可能會出現“幻覺”——也就是錯誤的推理或假設。例如，它可能會錯誤地推測出某個事件的時間，或者對某些新技術和更新的了解不夠深入。

為了解決這一問題，Google為Flash Thinking集成了YouTube、地圖和搜索等功能。通過這些工具，用戶可以獲得更為實時的信息，盡管這些信息也存在一定的不準確性。比如當我詢問Gemini 2.0 Flash Thinking的發布日期時，它通過搜索工具獲取了相關信息，但由于搜索結果中包含了錯誤的日期（2025年2月6日），它也錯誤地推測了發布日期。

自動選擇工具的功能

Gemini 2.0 Flash Thinking還能根據用戶的提問自動選擇最合適的工具。例如，當我詢問從布加勒斯特到倫敦的最佳駕駛路線時，它自動選擇了Google Maps工具。這個自動化的選擇功能提高了模型的智能性，使得它在處理不同類型的問題時更加高效和精準。

04、Flash Thinking的基準表現

數學與科學的突破性進展

Gemini 2.0 Flash Thinking在多個關鍵領域的表現上都有顯著提升，特別是在數學、科學和多模態推理方面的表現。在AIME2024（數學）基準測試中，Gemini 2.0 Flash Thinking的成績為73.3%，比其前代版本（35.5%）有了巨大的提升，雖然與OpenAI的o3-mini（87.3%）相比還有差距，但無疑表現十分出色。

在GPQA Diamond（科學）基準測試中，Flash Thinking的成績為74.2%，相比于之前版本（58.6%）有了顯著提高，與DeepSeek的R1（71.5%）和OpenAI的o1（75.7%）接近，展現了其在科學領域的競爭力。

而在MMMU（多模態推理）基準測試中，Gemini 2.0 Flash Thinking的得分為75.4%，再一次超越了前代產品，顯示出了在多模態數據處理方面的巨大優勢。

推理能力與推理計算

與其他推理模型類似，Gemini 2.0 Flash Thinking的推理能力隨著計算能力的增強而提升。推理計算是指在用戶給出問題后，AI進行推理的計算量。通過增加推理計算的能力，Gemini 2.0 Flash Thinking能夠更準確地完成復雜的推理任務。

Gemini 2.0 Flash Thinking：谷歌放大招！能"直播思考"的AI來了，推理能力吊打OpenAI？-AI.x社區

05、如何使用Gemini 2.0 Flash Thinking

如何獲取訪問權限

目前，Google通過多個平臺為用戶提供了訪問Gemini 2.0 Flash Thinking的途徑：

Gemini應用（App和Web）：用戶可以直接通過Gemini Web應用或手機App免費體驗Flash Thinking。
Google AI Studio：這是一個更適合高級用戶的Web平臺，可以讓用戶通過控制模型的參數、測試復雜的查詢等方式，進一步探索模型的推理能力。
Gemini API：對于開發者來說，可以通過Gemini API將Flash Thinking集成到自己的應用中，帶來更多的自定義和靈活性。

Gemini 2.0 Flash Thinking：谷歌放大招！能"直播思考"的AI來了，推理能力吊打OpenAI？-AI.x社區

06、結論：推理的未來與AI的廣闊前景

Gemini 2.0 Flash Thinking無疑是Google在推理型AI領域的重要一步。通過展示思維過程和結構化的推理，Flash Thinking不僅提升了AI與人類的互動質量，還大大增強了推理型任務的準確性。雖然它在某些方面仍然面臨挑戰，比如偶爾出現的不準確性和對工具的過度依賴，但它無疑是未來推理型AI模型的一個標桿。

未來，隨著Flash Thinking不斷優化和競爭對手的趕超，我們可以期待更加智能、精準、透明的AI推理體驗。如果你也在構建AI產品，或者對這一領域充滿好奇，不妨親自嘗試一下Gemini 2.0 Flash Thinking，在推理、科學計算和多模態任務中的表現決定也會讓你感到驚喜。

本文轉載自公眾號Halo咯咯作者：基咯咯

原文鏈接：??https://mp.weixin.qq.com/s/S3CsbYAoj-x9eefIwFBN4Q??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

人工智能

大語言模型

贊

回復