馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了

Crystalcxt

發布于 2024-8-15 10:14

瀏覽

0收藏

馬斯克旗下xAI大模型，出二代了！

Grok-2測試版發布，小杯Grok-2 mini已經在??平臺在線可玩。

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

馬斯克還以謎語人的形式，揭曉了困擾大模型圈一個多月的秘密：

原來Lmsys大模型競技場上的神秘匿名模型sus-column-r，真身就是Grok-2。

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

sus-column-r在排行榜上積累了1萬多人類投票，已經與GPT-4o的API版并列第三。

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

在xAI自己的內部測試中，Grok-2在常識（MMLU、MMLU-Pro）、數學競賽問題 (MATH)、研究生水平科學知識 (GPQA)等領域與其他前沿模型相媲美。

另外Grok-2最擅長基于視覺的任務，在視覺數學推理 (MathVista) 達到SOTA。

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

不過這個圖的排版可就有點心機在里面了：把分數最高的GPT-4o、Claude-3.5-Sonnet放得離自己遠一些。

光看分數還是抽象，下面就進入一手實測環節。

一手實測Grok-2

如果你是??/推特平臺付費用戶，可以直接進入Grok頻道試玩。不花錢的話也可以到Lmsys大模型競技場選擇sus-column-r試玩。

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

而且付費用戶反倒只能玩到小杯mini版，免費用戶能玩大杯，也是很厚到了。

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

由于Grok-2可以訪問??上的實時數據，可以直接讓他總結當天的新聞，開啟趣味模式的話還可以附贈吐槽。

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

付費版本還接入了最新開源AI生圖模型Flux.1，會把中文提示詞翻譯成英文理解。

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

點進主頁上的“安利一個奇幻游戲”問題示例，可以看到它先推薦了《博德之門3》，并從劇情、人物自定義、游戲機制、世界塑造、幽默元素和玩家社區幾個角度做點評，很好的把握了游戲的亮點。

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

此時可以直接換中文繼續提問。

Grok-2同樣了解《黑神話：悟空》這款還沒發售的游戲，準確說出發售日期在8月20日、使用的虛幻5引擎，并且總結了??上網友的討論。

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

還在最后附帶了網友的帖子，可以點進去參與討論，與整個平臺的功能整合已經到位了。

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

不過由于??上只有mini版模型，接下來上強度測試我們移步大模型競技場，還可以與GPT-4o來一場捉對pk。

在最近流行的智商檢測問題“9.9和9.11哪個大”上，Grok-2（sus-column-r）表現碾壓ChatGPT最新版本。

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

不過另一項流行測試“strawberry中有幾個r”問題上，兩者都還是沒能通過。（多試幾次兩者都有小概率答對）。

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

更嚴肅一些的陷阱題“以下哪支蠟燭是最先被吹滅的”中，Grok-2比ChatGPT稍有進步。

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

考點是最先被吹滅的蠟燭剩下的部分更長（正確答案3），ChatGPT錯誤的理解成最短的，Grok-2思路是對的但是數哪個最長沒數對。

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

對于經典的大模型弱點“逆轉詛咒”問題，兩者似乎都以某種方式克服了。不僅能正著回答“湯姆克魯斯的母親是誰”，也能倒過來回答數據出現頻率更少的“Mary Lee Pfeiffer的兒子是湯姆克魯斯”。

（當然不排除只是成為經典問題之后，相關數據更多了。）

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

馬斯克大模型升級，犧牲特斯拉換的

測試先告一段落，可以看出Grok-2對比上一代Grok-1.5有了很大進步。

背后馬斯克可是，花費了大量資源和人力。

比如有新加入xAI的研究員表示，能用10萬卡集群做研究，比起在學校里可憐的資源爽太多了。

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了-AI.x社區

但是有一群人可不滿意了：特斯拉股東。

根據華爾街日報消息，馬斯克持續把人才、數據和GPU資源從特斯拉向xAI轉移。

目前為止，xAI已經雇傭了至少11名曾在特斯拉工作過的員工，其中六名直接在Autopilot團隊工作過。

原本為特斯拉保留的GPU訂單，馬斯克也要求英偉達優先供應xAI。

馬斯克還公開談論了特斯拉收集的大量視覺數據，他表示這些數據可以作為訓練xAI模型的資源。

至少三位特斯拉股東因為這事把馬斯克給告了，聲稱將資源轉移到xAI損害了特斯拉投資者的利益。

目前案件正在特拉華州法院審理。

Lmsys大模型競技場試玩：???https://arena.lmsys.org??

本文轉自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/krj6JGidBlHSoVSHUFzSAA??

標簽

馬斯克

模型

贊

回復

舉報

回復

相關推薦

馬斯克的 Grok AI 開源

jiecho ? 6309瀏覽 ? 0回復
馬斯克跟甲骨文談崩了，百億大訂單泡湯！馬斯克欲買30萬臺B200,嫌棄甲骨文速度太慢！對方：根本沒那么多電

51CTO技術棧 ? 3199瀏覽 ? 0回復
谷歌團隊首推神經模型驅動的游戲引擎，馬斯克：特斯拉也做類似的事！JimFan：數據是關鍵

51CTO技術棧 ? 2139瀏覽 ? 0回復
突發！OpenAI被黑客入侵，發布虛假加密Token激勵，首席科學家、首席技術官紛紛中招，馬斯克也在入侵名單

51CTO技術棧 ? 2743瀏覽 ? 0回復
特斯拉首款全自動無人汽車發布！馬斯克遲到近一個小時后終現身，親自乘坐Robotaxi、量產成本3萬美元起！

51CTO技術棧 ? 2112瀏覽 ? 0回復
發布會上特斯拉Optimus竟是人扮演的？時薪高達48美元！馬斯克人形機器人的預言會想星艦一樣成功嗎？

51CTO技術棧 ? 2549瀏覽 ? 0回復
馬斯克告OpenAI再加碼：已請求禁令，阻止向營利公司轉型！若成功，OpenAI融資66億或變負債

51CTO技術棧 ? 2263瀏覽 ? 0回復
馬斯克明顯是個惡霸！不會完全放棄非營利性質！奧特曼罕見采訪曝猛料：馬斯克喜歡到處干架

51CTO技術棧 ? 2142瀏覽 ? 0回復
馬斯克又又又跳票了！說好年底推出的“重大飛躍”的Grok 3，遲遲未現身！

51CTO技術棧 ? 2125瀏覽 ? 0回復
馬斯克CES采訪全文，高能炸場：二季度特斯拉超過人類司機，零車禍！2年后星艦飛往火星，實現全民高收入！

51CTO技術棧 ? 1678瀏覽 ? 0回復
馬斯克再開炮：974億美元買下OpenAI！馬斯克與奧特曼的恩怨局如何收場？

51CTO技術棧 ? 1741瀏覽 ? 0回復
“地表最強”Grok 3震撼登場，馬斯克演示卻“小翻車”，網友調侃：加上擎天柱才是AGI！幾個月后還將開源！

51CTO技術棧 ? 2323瀏覽 ? 0回復
馬斯克發布Grok 3，趕超OpenAI o1和Deepseek R1！

AI博物院 ? 2016瀏覽 ? 0回復
馬斯克連夜官宣Grok 3：這8個功能讓程序員集體失業

Halo咯咯 ? 2891瀏覽 ? 0回復
全自動駕駛真的來了！花6萬4才能用！馬斯克急忙上線閹割版!AI提醒駕駛員別走神，網友實測翻車：秒變移動路

51CTO技術棧 ? 1936瀏覽 ? 0回復
一手實測DeepSeek-V3-0324，AI編程大躍進

沃垠AI ? 2495瀏覽 ? 0回復
一手實測文心4.5和X1：不輸DeepSeek

沃垠AI ? 1313瀏覽 ? 0回復
Qwen3 一手肝帝實測！附示例，涉及推理、創作、數學和代碼！

NLP工作站 ? 1720瀏覽 ? 0回復
馬斯克宣布回歸：搞DOGE不如搞AI!用第一性原理搞定萬卡集群搭建；Grok 3.5重點搞推理！

51CTO技術棧 ? 547瀏覽 ? 0回復

Crystalcxt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

馬斯克突發新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實測來了

一手實測Grok-2

馬斯克大模型升級，犧牲特斯拉換的

目錄