成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌終于贏了OpenAI一回:實驗版本Gemini 1.5 Pro超越GPT-4o

人工智能 新聞
當我們問 Gemini 1.5 Pro (0801) 9.9 和 9.11 哪個數大時,模型一次就能回答正確,并給出了理由。

近兩日,谷歌在不斷發布最新研究。繼昨日放出最強端側 Gemma 2 2B 小模型后,剛剛,Gemini 1.5 Pro 實驗版本 (0801) 已經推出。

用戶可以通過 Google AI Studio 和 Gemini API 進行測試和反饋。

既然免費,那我們幫大家測試一下最近比較火的比大小問題。當我們問 Gemini 1.5 Pro (0801) 9.9 和 9.11 哪個數大時,模型一次就能回答正確,并給出了理由。

圖片

當我們繼續追問「Strawberry 單詞里面有多少個 r」時,然而 Gemini 1.5 Pro (0801) 卻翻車了。在提示語中施加「咒語」一步一步來,模型分析到第四步就出錯了。

圖片

  • Google AI Studio 測試地址:https://aistudio.google.com/app/prompts/new_chat

不過,從官方評測來看,Gemini 1.5 Pro (0801) 各項指標還是很能打的。新模型迅速奪得著名的 LMSYS Chatbot Arena 排行榜榜首,并擁有令人印象深刻的 ELO 分數,得分為 1300。

這一成就使 Gemini 1.5 Pro (0801) 領先于 OpenAI 的 GPT-4o(ELO:1286)和 Anthropic 的 Claude-3.5 Sonnet(ELO:1271)等強大競爭對手,這或許預示著人工智能格局的轉變。

圖片

Gemini 團隊關鍵成員 Simon Tokumine 稱 Gemini 1.5 Pro (0801) 是谷歌迄今為止制造的最強大、最智能的 Gemini (模型)。

除了拿到 Chatbot Arena 榜首,Gemini 1.5 Pro (0801) 在多語言任務、數學、Hard Prompt 和編碼等領域也表現相當出色。

具體而言,Gemini 1.5 Pro (0801) 在中文、日語、德語、俄語方面均表現第一。

圖片

圖片

但在編碼、Hard Prompt 領域,Claude 3.5 Sonnet、GPT-4o、Llama 405B 仍然處于領先地位。

圖片

圖片

在 win-rate 熱圖上:Gemini 1.5 Pro (0801) 對陣 GPT-4o 的勝率為 54%,對陣 Claude-3.5-Sonnet 的勝率為 59%。

圖片

Gemini 1.5 Pro (0801) 在 Vision 排行榜上也第一!

圖片

圖片

網友紛紛表示,谷歌這次真是出乎所有人的預料,沒有提前官宣就突然開放測試最強模型,這次壓力給到了 OpenAI。

圖片

雖然 Gemini 1.5 Pro (0801) 取得了很高的成績,但它仍處于實驗階段。這意味著該模型在廣泛使用之前可能會進行進一步的修改。 

網友評測

有網友對 Gemini 1.5 Pro (0801) 的內容提取能力、代碼生成能力、推理能力等進行了測試,我們來看下他的測試結果。

圖片

來源:https://x.com/omarsar0/status/1819162249593840110

首先,Gemini 1.5 Pro (0801) 的圖像信息提取功能很強,例如輸入一張發票圖像,將發票細節用 JSON 格式編寫出來:

圖片

再來看下 Gemini 1.5 Pro (0801) 的 PDF 文檔內容提取功能,以經典論文《Attention Is All You Need》為例,提取論文章節目錄:

圖片

讓 Gemini 1.5 Pro (0801) 生成一個幫助學習大型語言模型(LLM)知識的 Python 游戲,該模型直接生成了一整段代碼:

圖片

圖片

值得一提的是,Gemini 1.5 Pro (0801) 還給出了詳細的代碼解釋,包括代碼中函數的作用、該 Python 游戲的玩法等等。

圖片

這段程序可以直接在 Google AI Studio 中運行,并且可以試玩,例如做道關于 Tokenization 定義的選擇題:

圖片

如果覺得選擇題太簡單無聊,可以進一步讓 Gemini 1.5 Pro (0801) 生成一個更復雜的游戲:

圖片

圖片

得到一個 LLM 專業知識句子填空游戲:

圖片

為了測試 Gemini 1.5 Pro (0801) 的推理能力,網友提問了一個「吹蠟燭」問題,但模型回答錯誤:

圖片

盡管有一些瑕疵,但 Gemini 1.5 Pro (0801) 的確表現出接近 GPT-4o 的視覺能力,以及接近 Claude 3.5 Sonnet 的代碼生成和 PDF 理解、推理能力,值得期待。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-05-21 12:23:17

2024-11-22 15:00:00

模型數據

2025-01-22 16:57:32

字節跳動豆包大模型

2024-05-15 09:58:06

谷歌大模型

2024-07-19 14:08:02

2024-11-22 12:39:56

2024-05-14 07:30:52

OpenAIGPT-4模型

2024-05-14 11:29:15

2024-08-14 14:30:00

AI訓練

2025-03-31 08:50:00

AI生成模型

2024-08-08 14:27:29

2024-05-15 17:34:15

2024-08-22 13:40:08

開發者GPT-4oepoch

2024-12-18 13:24:30

谷歌AI大語言模型

2025-03-26 10:21:58

2024-06-05 08:29:35

2024-05-16 12:38:05

GPT-4o圖像方式

2025-05-19 08:33:00

2024-05-20 08:20:00

OpenAI模型

2024-05-14 10:14:12

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 99亚洲精品 | 一区二区三区视频播放 | 国产中文字幕网 | 国产96在线 | 久久久久国产一级毛片 | julia中文字幕久久一区二区 | 美女国产精品 | 欧美高清视频一区 | 免费黄色a级毛片 | 欧美激情视频一区二区三区免费 | 久久久精品久久 | 成人不卡在线 | 久久精品99国产精品日本 | 天天狠狠 | 亚洲成人av在线播放 | 91伊人| 欧美精品一区三区 | 久久99网| 国产69精品久久久久777 | 亚洲欧美激情精品一区二区 | 国产小视频在线看 | 欧美一区二区三区在线看 | h视频免费在线观看 | 日韩精品在线免费观看 | 精品一二三区 | 欧美日韩一区二区在线观看 | 日韩av大片免费看 | 日本一区二区高清不卡 | 成人免费网站视频 | 亚洲色欲色欲www | 婷婷99| 一区二区三区四区在线 | 国产美女精品视频 | 在线国产欧美 | 久久久久久久国产精品 | 亚洲精品视频免费 | 欧美a√| 欧美一区二区大片 | 欧美精品久久 | 国产精品视频网 | 日韩福利在线 |