推理最強也最快，谷歌發布Gemini 2.0 Flash Thinking，全面超越o1-preview

作者：機器之心 2024-12-20 14:30:00

據 Jeff Dean 介紹，Gemini 2.0 Flash Thinking 還會明確展示其思考過程。

不僅能推理，還能明確展示自己「推理邏輯」的大模型出現了。

OpenAI 的 12 天連續發布已近尾聲，但它的熱度顯然已經被谷歌奪去了許多。從 Gemini 2.0 Flash 到 Veo 2 到今天的 Gemini 2.0 Flash Thinking，谷歌端上來的菜真是一道比一道香。

從名字也能看出來，Gemini 2.0 Flash Thinking 基于 Gemini 2.0 Flash，只是其經過專門訓練，可使用思維（thoughts）來增強其推理能力。

據 Jeff Dean 介紹，Gemini 2.0 Flash Thinking 還會明確展示其思考過程。下面是 Jeff Dean 在 X 上發布的一個 demo—— 其中，模型解答了一個物理問題并解釋了自己的推理過程，整個過程耗時 1 分多鐘。

雖然 Flash 版本還不是 Gemini 2.0 的滿血版，但這個 Thinking 模型就已經登頂了 Chatbot Arena 排行榜。Gemini 2.0 Flash Thinking 不僅是總分第一，在編程、數學、創意寫作等各項評測任務上都是第一名（有些是并列第一）。

Targum 創始人和 CEO Alex Volkov 則通過 10 個難題對 o1-2024-12-17 和 gemini-2.0-flash-thinking-exp-1219 進行了對比測試，結果發現這兩個推理模型的表現相當，而后者的速度要快得多。

而根據另一位研究者 Subhash Peshwa 的測算，Gemini 2.0 Flash Thinking 的思考速度是 o1-mini 的 2 倍。

Gemini 2.0 Flash Thinking 發布后，網友們都紛紛點贊，并樂見其與 ChatGPT 和 Claude 等聊天機器人的競爭。

目前，Gemini 2.0 Flash Thinking 實驗版完全可以免費使用，感興趣的讀者可訪問：https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-1219

表現優異，但也會犯錯

首先，Gemini 2.0 Flash Thinking 在數學推理方面速度快、質量高。例如，Gemini 2.0 Flash Thinking 在 14 秒內破解了 goto 數學題，比任何其他可以解決該問題的模型快 5 倍：

在一道求解數學期望的問題上，OpenAI 的 o1 求解錯誤，而且推理速度很慢，而 Gemini 2.0 Flash Thinking 僅用 2/7 的時間就正確解答：

解一道簡單的數學推理題：挑選數字小球，使數字總和為 30：

來源：https://x.com/OfficialLoganK/status/1869789822384255300

Gemini 2.0 Flash Thinking 迅速解答，而且給出了詳細的推理過程。

DeepMind 首席科學家 Jack Rae 在紙上手寫了一道數論問題，也是他的工作面試問題，Gemini 2.0 Flash Thinking 輕松解決了：

來源：https://x.com/drjwrae/status/1869806621024772096

可見，Gemini 2.0 Flash Thinking 可以準確識別視覺內容，并進行數學推理。

有時也會翻車，知道「strawberry」有 3 個「r」，但「strawberrry」就數不清了：

「9.9 和 9.11 誰大」這事還是沒能解決：

順帶一提，關于現在的 LLM 難以數出 strawberry 中 r 數量的深層原因，可以參閱機器之心之前的報道《他們掰開神經元，終于讓大模型 9.8 大于 9.11 了：神秘創業公司，開源 AI「洗腦」工具》。

Gemini 2.0 Flash Thinking 還有能力理解和解答非常困難的問題，比如斯坦福 NLP 的統計學家 Zitong Yang 就分享了自己的一個用來測試推理模型的問題：三賭徒問題。然后他驚喜地發現，Gemini 2.0 Flash Thinking 成為了首個正確解答該問題的模型，而他之前測試的 o1-preview、o1、r1、QwQ 模型都未能過關。

三賭徒問題：假設三個賭徒最初有 (a, b, c) 美元。每次試驗都是隨機選擇兩個玩家，讓他們公平地擲一枚硬幣；根據輸贏，他們會正常地轉手 1 美元。玩家一旦破產，就會退出。令 (S_1) 表示一名玩家破產所需的游戲局數。令 (S_2) 表示兩名玩家破產所需的游戲局數。求 S_1 和 S_2 的期望。

下面是 Gemini 2.0 Flash Thinking 的部分思考過程和最終答案。