Gemini Exp 1114:有史以來最好的大模型!擊敗 o1-Preview + Claude 3.5 Sonnet!
Google DeepMind的最新版本 Gemini Exp 1114,在Chatbot Arena上取得了重要成就,憑借超過6000個社區投票,躍升至總榜第1,并在多個領域表現出色:
- 總排名:#3 -> #1
- 數學:#3 -> #1
- 難題解答:#4 -> #1
- 創意寫作:#2 -> #1
- 視覺識別:#2 -> #1
- 編程:#5 -> #3
首先,我們要理解LLM Arena是什么。LLM Arena(或稱聊天機器人競技場)是一個評估LLM的平臺,主要目標是促進社區驅動的LLM性能評估。它是最有聲望的評估平臺之一。
從總榜來看,谷歌新模型Gemini(Exp 1114)分數直漲40+,得分為1344,而 ChatGPT 4.0最新版本的得分是1340。谷歌旗下的模型這好像還是第一次有這樣的成績。
Gemini-Exp-1114 在數學競技場中并列第一,性能匹敵 o1:
要知道,以前o1剛發布的時候,很驚艷的一點就是它可以在博士級別的科學問答環節上超越人類專家,還可以拿下奧數金牌。
網友:這會兒滿血版的o1是真得出來了。。。
從總體勝率熱圖上來看,Gemini 對 4o-latest 的勝率為 50%,對 o1-preview 的勝率為 56%,對 Claude-3.5-Sonnet 的勝率為 62%。
除了總體排名,Gemini Exp 1114 在細分任務上獲得6項第一:
可惜代碼能力遜色了一點,從圖中我們可以看到與 o1-mini/preview 還是有一定差距的。
目前,Gemini-Exp-1114 可以在谷歌AI Studio 對話體驗
官方計劃后續提供API,這個模型后續如果像Flash那樣限速免費使用的話,我們還是可以和Cline、Continue這些編碼助手配合使用的。
一些實踐:
在一位博主的測試中,Gemini Exp 1114通過了所有的問題:
感覺還不錯。
另一位網友:Gemini-exp-1114 的回答令人驚訝,早期的Flash模型通常會卡在 cat-age 問題上,而Gemini-exp-1114答對了這個問題:
不過 Gemini-exp-1114在被問到是誰創造和自己是誰時,竟然回答Anthropic 和 Claude。網友戲稱,最讓人感到直觀的解釋就是使用Claude生成的數據訓練的。
然后我問了一下他一些視覺問題,相同的問題曾經寫在這篇文章中你可以與之比較:
??https://mp.weixin.qq.com/s/QuoiSxbik5tQXcQOHmrSXw??
圖中有多少水果,哪一種最小,哪一種酸性最強,它們在貨架上的哪一排,哪一列?
圖片
圖片中心的石頭被堆疊了幾塊?有沒有不是圖片場景的東西?
你能理解這個梗圖的梗點在哪里嗎?
最后這個模型,在視覺計數上似乎不太完美,圖1、圖2分別應該是30條船和10條船:
本文轉載自 ??AI進修生??,作者: Aitrainee
