剛剛,馬斯克發布Grok 4!全榜第一,年費飚到2萬+
所有學科都是博士后水平。
醞釀良久的 xAI 下一代大模型——Grok 4 終于發布了!能力超乎我們想象。
北京時間今天中午 12 點左右,我們期待已久的 xAI 發布會終于開始,馬斯克現身直播間,他上來就說:「這是世界上最好的 AI,讓我們來展示一下。」
馬斯克表示,Grok 4 每次都能在 SAT 考試(美國高考)中獲得滿分,無需事先查看題目,它也可以做到 GRE 任何學科接近滿分,超過了全世界所有研究生的水平。Grok 4 最強大的地方是其推理能力,它已經實現了超越人類的推理水平。
馬斯克相信,Grok 4 可以在今年內實現科學新發現。
得益于計算能力的增強、強化學習的訓練,Grok 4 的推理能力相較于前代提升了 10 倍。從 Grok 2 到 Grok 4,采用的技術范式不同,分別為下一個 token 預測、預訓練計算、預訓練 + RL、RL 計算。
其中,Grok 2 到 Grok 3 預訓練階段的計算量提升了 10 倍,Grok 3 reasoning 首次引入了 RL 微調,帶來了深度推理能力。Grok 4 reasoning 的強化學習再度提升了 10 倍的計算量,這意味著顯著的推理能力提升。
另外因為調用工具能力的提升,Grok 4 進一步放大了自身智慧。因此可以在各類高難度 Benchmark 上實現遠超 SOTA 的成績。
接下來是重頭戲:Grok 4 的基準測試結果。
首先是 HLE(Humanities Last Exam,人類最后的考試),包括數學、化學和邏輯學。在上周六泄露的基準測試結果中,Grok 4 在 HLE(Humanities Last Exam,人類最后考試)上的標準得分是 35%,使用推理技術后提高到 45%,但多數網友持質疑態度。
在今天的直播中,xAI 研究人員表示,以往的 SOTA 模型在使用工具(with tool)的情況下,成績最高可以達到 41.0%。
如今,Grok 4 進一步提升了這一基準測試成績。
具體來講,與其他 SOTA 模型(o3、Gemini 2.5 Pro)相比,在使用工具的情況下,Grok 4 的成績為 38.6%,Grok 4 Heavy 的成績飆升到了 44.4%。如果讓大模型在測試時花費更多時間思考,并恰當的使用更多外部工具,則 HLE 的分數還能進一步提升到 50.7%。
關于其他更多基準測試結果,包括 GPQA(研究生級別的 Google 驗證問答基準測試)、AIME25(美國數學競賽邀請賽)、LCB(Jan-May)(編程競賽 / 在線算法競賽)、HMMT25(高中生團隊數學競賽)和 USAMO25(美國頂級高中生數學競賽)。從下圖可以看到,Grok 4 Heavy 均取得了最新 SOTA。
相比之下,人類面對 HLE 測試也幾乎答不上幾個題。馬斯克多遍強調:Grok 現在在所有學科都達到了博士后水平,沒有例外。它沒有發現新科學或是新的物理定律,但這只是一個時間問題。
「如果 Grok 在今年內沒有發現實用的新科學技術,我會感覺很意外,」馬斯克表示。
大模型性能評估平臺 Artificial Analysis 的全套基準測試成績表明,Grok 4 已經成為當前領先的 AI 模型,總成績達到了 73 分,領先于 o3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 0528。
想象一下我們現在處在的位置,我們正處于智能發展的大爆炸過程中,這是人類歷史上前所未見的。是時候看看 Grok 4 具體能做些什么了。
我們來看一兩個 demo,比如「基于物理原理的 HTML 動畫,模擬兩個黑洞碰撞并產生引力波的 30 秒可視化效果」:
Grok 4 幾乎完整地呈現了從兩個黑洞接近到最后合并結束的引力波模擬效果。動圖的一邊是推理過程和計算的步驟和代碼,查閱的論文每一篇都有鏈接。
Grok 4 的多面手屬性更強了
除了各大語言基準成績的提升,Grok 4 在其他方面同樣得到了加強。
其中,Grok 4 的語音能力相較于上代速度快了 2 倍,端到端延遲更低;支持 5 種語音;單日用戶總停留時長提升了 10 倍。
新增的 Grok 角色 Eve 和 Sal 現已可在 iOS 版 Grok 中使用,Sal 支持多種性格,Eve 可以唱歌和低語。
在 ARC-AGI 基準測試集中,它專門設計用于評估人工智能系統通用推理能力,被視為通向 AGI 的重要試金石,旨在檢驗模型是否能像人類一樣靈活解決從未見過的新問題。
在這個直指 AGI 核心能力的超難基準上,Grok 4 同樣取得了最新 SOTA,其中在 ARC-AGI-2 上達到 15.9%,幾乎將之前的商業 SOTA 翻了一番,并超越了當前的 Kaggle 競賽 SOTA。
在 Vending-Bench 基準測試中,它專注于評估智能體在真實物理世界中執行復雜操作任務的能力,其核心目標是解決傳統模擬環境(如 Habitat、AI2-THOR)與真實世界間的「Sim2Real Gap」(仿真到現實的鴻溝),推動機器人技術在開放場景中的實際應用能力。
可以看到,Grok 4 相較于 Claude Opus 4、Human、Gemini 2.5 Pro、o3 取得了領先。
Grok 4 可通過 API 調用,提供 256K tokens 的上下文窗口。目前已經開放使用,版本號為 grok-4-0709,價格與 Grok 3 相同。
根據 Artificial Analysis 的測試,xAI 的 API 當前以每秒 75 個 token 的速度提供 Grok 4 服務,速度雖不及 o3(每秒 188 個 token),但優于 Claude 4 Opus Thinking(每秒 66 個 token)。
最后是游戲體驗,DannyLimanseta 在 4 小時內用 Grok 4 制作了一款 FPS 射擊游戲,Grok 不僅可以用于制作游戲,還能實際運行游戲,洞察優秀游戲的要素并提出改進建議。看著效果真的挺不錯。
下一步,xAI 預計還將發布代碼模型、多模態智能體以及視頻生成模型,看起來新產品發布要達到月更的速度。
目前,Grok 4 已經上線,不過需要付費使用,而且價格相當昂貴。其付費模式分為年付和月付兩種,其中 SuperGrok 是每年 300 美元(折合人民幣約 2154 元),SuperGrok Heavey 則是每年 3000 美元(折合人民幣 21540 元)。
- 官網鏈接:https://grok.com/