起猛了，GPT-4o被谷歌新模型擊敗，ChatGPT官號：大家深吸一口氣

2024-08-02 13:11:39

人工智能

歷時一周，超1,2000人匿名投票，Gemini 1.5 Pro（0801）代表谷歌首次奪得lmsys競技場第一。（中文任務(wù)也第一）

起猛了，GPT-4o被谷歌新模型超越了！

歷時一周，超1,2000人匿名投票，Gemini 1.5 Pro（0801）代表谷歌首次奪得lmsys競技場第一。（中文任務(wù)也第一）

圖片

而且這次還是雙冠王，除了總榜（唯一分?jǐn)?shù)上1300），在視覺排行榜上也是第一。

圖片

Gemini團隊的關(guān)鍵人物Simon Tokumine發(fā)文慶祝稱：

(這一新模型）是我們制作過的最強大、最聰明的Gemini。

圖片

一位Reddit用戶也稱該模型“非常好”，并表示希望其功能不會被縮減。

圖片

更多網(wǎng)友興奮表示，OpenAI終于受到挑戰(zhàn)，要發(fā)布新版本來反擊了!

圖片

ChatGPT官方賬號也出來暗示著什么。

圖片

一片熱鬧之際，谷歌AI Studio產(chǎn)品負(fù)責(zé)人宣布該模型進入免費測試階段：

可在AI studio免費使用

圖片

網(wǎng)友：谷歌終于來了！

嚴(yán)格來說，Gemini 1.5 Pro（0801）其實不算新模型。

該實驗性版本建立在谷歌2月發(fā)布的Gemini 1.5 Pro基礎(chǔ)之上，后來1.5系列將上下文窗口擴展到了200萬。

隨著模型更新，這命名也是越來越長了，也引起人們一片吐槽。

這不，一位OpenAI員工祝賀之余不忘陰陽怪氣一把：

圖片

當(dāng)然了，雖然名字難記，但Gemini 1.5 Pro（0801）這次在競技場官方評測中表現(xiàn)亮眼。

總體勝率熱圖顯示，它比GPT-4o勝出54%，比Claude 3.5 Sonnet勝出59%。

圖片

在多語言能力基準(zhǔn)測試中，它在中文、日語、德語、俄語均排名第一。

圖片

但是，在Coding、Hard Prompt Arena中，它還是打不過Claude 3.5 Sonnet、GPT-4o、Llama 405B等對手。

圖片

這一點也遭到網(wǎng)友詬病，轉(zhuǎn)譯過來就是：

編碼才是最重要的，但它在這上面表現(xiàn)不佳。

圖片

不過也有人出來安利Gemini 1.5 Pro（0801）的圖像和PDF提取功能。

DAIR.AI聯(lián)合創(chuàng)始人Elvis親自在油管做了全套測試，并總結(jié)道：

視覺能力非常接近GPT-4o。

圖片

以及，有人拿Gemini 1.5 Pro（0801）來解決Claude 3.5 Sonet之前回答不好的問題。

結(jié)果一看，它不僅表現(xiàn)更好，同時也干掉了自家小伙伴Gemini 1.5 Flash。

圖片

不過嘛，一些經(jīng)典常識測試它還是搞不定，比如“寫十個以蘋果結(jié)尾的句子”。

圖片

One More Thing

與此同時，谷歌Gemma 2系列迎來了一個新的20億參數(shù)模型。

圖片

Gemma 2（2B）開箱即用，可以在Google Colab的免費T4 GPU上運行。

圖片

在競技場排行榜上，它超過了所有GPT-3.5模型，甚至超越了Mixtral-8x7b。

圖片

面對谷歌最新取得的一系列新排名，競技場榜單權(quán)威性再次受到大家質(zhì)疑。

Nous Research聯(lián)合創(chuàng)始人Teknium（微調(diào)后訓(xùn)練領(lǐng)域知名玩家）發(fā)文提醒：

雖然Gemma 2（2B）在競技場得分高于GPT-3.5 Turbo，但它在MMLU上遠低于后者。
如果人們使用競技場排名作為模型性能的唯一指標(biāo)，這種差異就會令人擔(dān)憂。

圖片

Abacus.AI首席執(zhí)行官Bindu Reddy更是直接呼吁：

請立即停止使用這個人類評估排行榜！
Claude 3.5 Sonnet比GPT-4o-mini好得多。
類似的Gemini/Gemma在這個排行榜上的得分都不應(yīng)該這么高。

圖片

那么，你認(rèn)為這種人類匿名投票的方式還靠譜嗎？（歡迎評論區(qū)討論）

參考鏈接：
[1]https://x.com/lmsysorg/status/1819048821294547441

[2]https://x.com/JeffDean/status/1819121162578022849

[3]https://x.com/stevenheidel/status/1819080995062403484

[4]https://x.com/rohanpaul_ai/status/1818697538360295897

[5]https://x.com/bindureddy/status/1818738366466412601

[6]https://x.com/infwinston/status/1818718423700103526

責(zé)任編輯：武曉燕來源：量子位

GPT-4o 模型 ChatGPT

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

起猛了，GPT-4o被谷歌新模型擊敗，ChatGPT官號：大家深吸一口氣

網(wǎng)友：谷歌終于來了！

One More Thing