成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

推理最強也最快,谷歌發布Gemini 2.0 Flash Thinking,全面超越o1-preview

人工智能 新聞
據 Jeff Dean 介紹,Gemini 2.0 Flash Thinking 還會明確展示其思考過程。

不僅能推理,還能明確展示自己「推理邏輯」的大模型出現了。

OpenAI 的 12 天連續發布已近尾聲,但它的熱度顯然已經被谷歌奪去了許多。從 Gemini 2.0 Flash 到 Veo 2 到今天的 Gemini 2.0 Flash Thinking,谷歌端上來的菜真是一道比一道香。

圖片

從名字也能看出來,Gemini 2.0 Flash Thinking 基于 Gemini 2.0 Flash,只是其經過專門訓練,可使用思維(thoughts)來增強其推理能力。

據 Jeff Dean 介紹,Gemini 2.0 Flash Thinking 還會明確展示其思考過程。下面是 Jeff Dean 在 X 上發布的一個 demo—— 其中,模型解答了一個物理問題并解釋了自己的推理過程,整個過程耗時 1 分多鐘。

雖然 Flash 版本還不是 Gemini 2.0 的滿血版,但這個 Thinking 模型就已經登頂了 Chatbot Arena 排行榜。Gemini 2.0 Flash Thinking 不僅是總分第一,在編程、數學、創意寫作等各項評測任務上都是第一名(有些是并列第一)。

圖片

Targum 創始人和 CEO Alex Volkov 則通過 10 個難題對 o1-2024-12-17 和 gemini-2.0-flash-thinking-exp-1219 進行了對比測試,結果發現這兩個推理模型的表現相當,而后者的速度要快得多。

圖片

而根據另一位研究者 Subhash Peshwa 的測算,Gemini 2.0 Flash Thinking 的思考速度是 o1-mini 的 2 倍。

圖片

Gemini 2.0 Flash Thinking 發布后,網友們都紛紛點贊,并樂見其與 ChatGPT 和 Claude 等聊天機器人的競爭。

圖片

圖片


圖片

目前,Gemini 2.0 Flash Thinking 實驗版完全可以免費使用,感興趣的讀者可訪問:https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-1219

圖片

表現優異,但也會犯錯

首先,Gemini 2.0 Flash Thinking 在數學推理方面速度快、質量高。例如,Gemini 2.0 Flash Thinking 在 14 秒內破解了 goto 數學題,比任何其他可以解決該問題的模型快 5 倍:

圖片

在一道求解數學期望的問題上,OpenAI 的 o1 求解錯誤,而且推理速度很慢,而 Gemini 2.0 Flash Thinking 僅用 2/7 的時間就正確解答:

圖片

解一道簡單的數學推理題:挑選數字小球,使數字總和為 30:

來源:https://x.com/OfficialLoganK/status/1869789822384255300

Gemini 2.0 Flash Thinking 迅速解答,而且給出了詳細的推理過程。

DeepMind 首席科學家 Jack Rae 在紙上手寫了一道數論問題,也是他的工作面試問題,Gemini 2.0 Flash Thinking 輕松解決了:

來源:https://x.com/drjwrae/status/1869806621024772096

可見,Gemini 2.0 Flash Thinking 可以準確識別視覺內容,并進行數學推理。

有時也會翻車,知道「strawberry」有 3 個「r」,但「strawberrry」就數不清了:

圖片

「9.9 和 9.11 誰大」這事還是沒能解決:

圖片

順帶一提,關于現在的 LLM 難以數出 strawberry 中 r 數量的深層原因,可以參閱機器之心之前的報道《他們掰開神經元,終于讓大模型 9.8 大于 9.11 了:神秘創業公司,開源 AI「洗腦」工具》。

Gemini 2.0 Flash Thinking 還有能力理解和解答非常困難的問題,比如斯坦福 NLP 的統計學家 Zitong Yang 就分享了自己的一個用來測試推理模型的問題:三賭徒問題。然后他驚喜地發現,Gemini 2.0 Flash Thinking 成為了首個正確解答該問題的模型,而他之前測試的 o1-preview、o1、r1、QwQ 模型都未能過關。

圖片



三賭徒問題:假設三個賭徒最初有 (a, b, c) 美元。每次試驗都是隨機選擇兩個玩家,讓他們公平地擲一枚硬幣;根據輸贏,他們會正常地轉手 1 美元。玩家一旦破產,就會退出。令 (S_1) 表示一名玩家破產所需的游戲局數。令 (S_2) 表示兩名玩家破產所需的游戲局數。求 S_1 和 S_2 的期望。


下面是 Gemini 2.0 Flash Thinking 的部分思考過程和最終答案。

圖片

圖片

機器之心也上手進行了一番測試。考慮到網絡上已有大量使用英語的測試,這里我們就僅使用漢語了。

首先來看看 Gemini 2.0 Flash Thinking 的編程能力:寫一個井字棋小游戲,其中用兩個不同的 emoji 標記雙方的棋子。

圖片

可以看到,該模型用了 10.8s 思考,然后用 21.0s 完成了任務。測試一下,該模型生成的代碼確實能正確實現功能。

圖片

這里再測試一道來自《孫子算經》的古代數學題:今有物不知其數,三三數之剩二;五五數之剩三;七七數之剩二。問物幾何?

圖片

這一次,Gemini 2.0 Flash Thinking 思考了 11.1s,解答過程則用了 16.3s。有意思的是,該模型不僅正確解答了問題,也根據自己的知識庫對相關信息進行了擴展說明。

Gemini 2.0 Flash Thinking 也支持輸入圖片和音頻等模態的數據,可以幫助我們理解梗圖或者解答手寫的數學問題。

圖片

最后,我們來試試 Gemini 2.0 Flash Thinking 能否解讀中文的驗證碼。

圖片

很顯然,它徹底失敗了,一個字都沒能正確識別出來,所以暫時還不用擔心被 AI 盜號了。

Gemini 2.0 Flash Thinking,著實有趣,就是名字有點長。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-17 12:11:36

2024-12-12 11:29:51

2024-09-23 16:00:00

AI模型測評

2025-04-10 10:44:00

2025-03-26 06:56:56

2025-04-10 06:16:33

2025-04-18 10:36:42

2025-02-06 09:28:00

2025-01-02 09:53:17

2024-04-01 12:09:16

模型數據

2025-02-06 14:28:16

2025-02-13 08:30:00

2023-12-07 11:12:54

大型語言模型Gemini人工智能

2025-01-22 13:30:00

2024-11-20 14:00:00

模型測評

2025-03-17 10:56:18

谷歌Gemini大模型

2025-01-02 12:48:36

2025-02-11 16:17:42

2024-08-02 14:58:00

2025-01-13 00:00:00

訓練數據模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品久久久一区 | 日韩无 | 亚洲免费一区 | 国产精品18久久久久久久 | 国产精品久久免费观看 | 三级免费网 | 欧美a在线看 | 日本一区二区三区四区 | 欧美一区二区三区国产精品 | 精品欧美一区二区精品久久 | 日韩精品激情 | 7777精品伊人久久精品影视 | 青青草av在线播放 | 欧美三级久久久 | 色婷婷综合网站 | 在线免费观看毛片 | 国产精品美女www爽爽爽 | 欧美精品 在线观看 | 国产一区二区精品在线 | 日本成人在线网址 | 中文亚洲字幕 | 成人在线免费视频观看 | 成人在线中文字幕 | 欧美一区二区在线观看 | 狠狠色狠狠色综合日日92 | 中文视频在线 | 91视频精选 | 亚洲人成在线观看 | h网站在线观看 | 亚洲高清视频在线观看 | 日韩三级在线 | 国产一级免费在线观看 | 久草视频观看 | 九九在线视频 | 成人欧美一区二区三区色青冈 | 91亚洲国产成人久久精品网站 | 日韩视频91 | 日本一区二区三区免费观看 | 日韩激情视频一区 | 亚洲免费在线播放 | 日韩一区二区三区在线 |