訂閱費300刀，值嗎？馬斯克發布Grok 4登頂SOTA！一項突破上大分：訓練階段就教AI用工具！網友：地表最強AI回來了！

原創精選

作者：伊風 2025-07-10 15:53:45

人工智能

?馬斯克在直播中說：“它在所有學科上的學術水平都超過博士，無一例外。如果到明年 Grok 還沒發現點新的科學知識，我會感到很驚訝。”

編輯 | 伊風

出品 | 51CTO技術棧（微信號：blog51cto）

馬斯克，又雙叒叕意料之中地遲到了。

Grok 4 原定的直播足足晚了一個小時，馬老板終于姍姍來遲，開始了這場發布會。

圖片

更加推遲上線的，則是大家原以為會同步上線的編程模型 Grok 4 Code —— 直接鴿到下個月發布，讓人有些小失望。

不過，接下來的幾個月，xAI 還將陸續推出一款多模態智能體，以及一款具備視頻理解與生成能力的綜合模型。可以說從7月到10月，Grok 4家族都持續有大動作出來，值得期待。

圖片

回到這場直播，Grok 4 成為了絕對的主角。

本次共發布兩款模型：

Grok 4
Grok 4 Heavy：xAI 稱其為“多智能體版本”，多個 Grok 4 協同工作，性能進一步提升。

“Grok 4 是全球最強大的 AI 模型。”

馬斯克在直播中說：“它在所有學科上的學術水平都超過博士，無一例外。如果到明年 Grok 還沒發現點新的科學知識，我會感到很驚訝。”

Grok 4 Heavy 在列出的各項學術基準測試中全面登頂，拿下 SOTA。

圖片

價格也拉開了差距：

普通版（Grok 4）為每月 30 美元
超大杯（Grok 4 Heavy）則高達每月 300 美元！

圖片

整場直播的演示環節不像上次Grok 3的發布如此密集。

但仍然有些“整活”環節，讓人印象十分深刻！首先，就是為了展示Grok的語音交互能力，直接在直播里“拉踩”了OpenAI的4o，從下面這個演示里可以看到Grok的助手“伊芙”反應更迅速、語氣更自然。

而另一個點，則是此前Grok 3發布時馬斯克就心心念念的AI手搓電子游戲。

到了Grok 4 AI已經做的非常像模像樣了，馬斯克預計明年就有成熟的大型游戲能跑出來：

圖片

1.碾壓一切的基準成績——這不就是 AGI？

當 Grok 4 的基準成績鋪天蓋地刷屏后，網友們幾乎給出了統一的結論：

這不就略等于是 AGI了嗎？

從官方發布的測試結果來看，Grok 4 在多個標桿級任務中全面碾壓對手，毫無懸念地登頂各項榜單，成為當前最強的 SOTA 模型。

圖片

比如在 AI 社區關注的 Artificial Analysis 綜合測評中，Grok 從上代的 67 分，躍升至 73 分，實現了明顯的跨代突破。

圖片

而在ARC-AGI基準中，Grok 4也直接飛升，將一眾對手遠遠甩在后面。

這項測試的難度在于，它不是傳統的問答題，而是要求 AI 具備圖形推理、模式識別等“類人類直覺”能力，被視為檢驗“是否具備 AGI 潛力”的試金石。

圖片

而在外界稱為“人類最后一場考試”（Humanity’s Last Exam）的評估中，Grok 4 Heavy 更是以 44.4% 的高分拔得頭籌，遠超 Gemini 和 OpenAI 的 o3 模型。

圖片

甚至在 Claude 曾參與過的“售貨機模擬商戰”實驗中，Grok 也橫空出世，成為最會賺錢的 AI 商人：

最終凈利潤是 Claude 的兩倍多
執行時長更長

之所以有這么出色的戰績，是因為Grok 4能有效地制定策略，并在長時間內保持一致性。

他們還提了一個超級瘋狂的計劃：如果有辦法把GPU的成本打下來。就可以嘗試搞一百萬臺自動售貨機，然后穩穩賺47億美元。。。

值得一提的是，Grok 4和Claude 4都超過了人類的經商水平。

圖片

不過，面對如此夢幻的數據，我們也不能全然“上頭”，還是可以潑一點冷水：

首先，官方數據可能具備一些水分。例如，據此前披露，Grok 3 的部分成績采用了consensus@64”的方式，也就是一題跑 64 次，挑最好的結果出來展示——而對比模型則大多是“一次跑完”的標準流程，這顯然是個有些討巧的“刷榜”策略。

所以，Grok 4 的實際能力還需要權威的獨立榜單來進一步驗證，建議大家蹲蹲民間榜單，綜合評估。

此外，這次 Grok 4 能打得這么猛，也離不開一個“外掛”：

它已經掌握了調用工具（tools）的能力 —— 不再是光靠語言模型硬算，而是能外接計算器、搜索器、甚至模擬瀏覽網頁。看來，模型即Agent也是一個大趨勢。

2.訓練飛躍：首次在訓練階段引入工具使用

在 Grok 4 的訓練過程中，xAI 做出了一項意義重大的突破：首次在訓練階段就引入了工具使用機制。不再僅依賴語言模型自身的泛化能力，而是讓模型從一開始就學會如何調用搜索引擎、計算器等外部工具來完成任務。

這不僅是方法上的革新，更帶來了量級上的性能飛躍。

這個操作到底有多猛？看看下面這張圖就懂了——

圖片

可以說，在“工具使用”這件事上，Grok 4 的可靠性和表現已經把前幾代模型遠遠甩在身后。

而且，也有眼尖的網友發現，Grok 4 heavy之后，性能還有上升空間。據爆料說，xAI內部還有更強的模型因為成本問題沒有發布！

圖片

不過，團隊也坦言，目前 Grok 使用的工具仍然比較原始。如果拿它與 Tesla 或 SpaceX 等工業場景中的工程工具相比，比如精密的物理模擬和有限元分析系統，它還遠遠不夠。但馬斯克明確表示，今年晚些時候，xAI 將為 Grok 接入這些“真正的商業級工具鏈”，讓它具備解決現實科技問題的能力。

而馬斯克也提出，終極形態是將 Grok 與 Optimus（人形機器人）結合，實現 AI 主動感知并操作現實世界。

一旦模型擁有了物理交互能力，它就可以自己“動手試驗”、修正假設、驗證反饋。換句話說，AI 不只是坐在云端思考，而是走進現實世界動手改造它。這將給整個 AI 硬件生態帶來顛覆性的沖擊。

在Grok他們看來，通向 AGI 的路徑，已經不再是“算力夠不夠”這么簡單的問題，而是一個“算力 + 工具 + 實體交互能力”三位一體的大模型工程。

而馬斯克也展望說一旦AI具備了該項能力，將引爆一個數千倍甚至百萬倍規模的新經濟體。

3.寫在最后：Gemini 3、GPT-5都在路上了

雖然 Grok 4 的發布引發熱議，但戰局遠未塵埃落定。

據X上的網友爆料，Gemini 3 很快就要登場了。谷歌最近的迭代速度真的既快又狠，眼見要成為領跑者了。

圖片

而根據奧特曼此前的透露，GPT-5 將在今夏發布，照這個節奏，接下來一到兩個月內，大模型圈還會有更多炸點。

有網友說得很形象：

“哪有什么AI撞墻期？根本看不到墻在哪里！”

你看好今天發布的Grok 4嗎？

或者，你覺得下個最令人期待的大模型會是哪一家推出的？評論區聊聊你的觀點。

責任編輯：武曉燕來源： 51CTO技術棧

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

訂閱費300刀，值嗎？馬斯克發布Grok 4登頂SOTA！一項突破上大分：訓練階段就教AI用工具！網友：地表最強AI回來了！

1.碾壓一切的基準成績——這不就是 AGI？

2.訓練飛躍：首次在訓練階段引入工具使用

3.寫在最后：Gemini 3、GPT-5都在路上了