“地表最強”Grok 3震撼登場，馬斯克演示卻“小翻車”，網友調侃：加上擎天柱才是AGI！幾個月后還將開源！原創

51CTO技術棧

發布于 2025-2-18 15:24

瀏覽

0收藏

出品 | 51CTO技術棧（微信號：blog51cto）

編輯 | 伊風、言征

跳票多次！Grok 3終于來了！

此前，DeepSeek創造的破圈奇跡，把硅谷的大模型公司全部籠罩在陰影之下。

在Grok 3發布前，馬斯克也是信心滿滿地放話出去：Grok 3將成為地表最強AI。

“我們有信心Grok 3會比其他任何AI都強，而且很有可能，再也不會有比Grok（系列）更強的AI了。”

“地表最強”Grok 3震撼登場，馬斯克演示卻“小翻車”，網友調侃：加上擎天柱才是AGI！幾個月后還將開源！-AI.x社區上圖：馬斯克稱Grok 3是地球最聰明的AI

從性能上看，Grok比起現在各家的最強基礎模型，是有一定飛躍的。

“地表最強”Grok 3震撼登場，馬斯克演示卻“小翻車”，網友調侃：加上擎天柱才是AGI！幾個月后還將開源！-AI.x社區圖片

同時，既然要做地表最強，Grok 3肯定是要做思維鏈推理的。

在推理方面，Grok 3越過了最近才發的o3 mini，可以說是非常能打。

“地表最強”Grok 3震撼登場，馬斯克演示卻“小翻車”，網友調侃：加上擎天柱才是AGI！幾個月后還將開源！-AI.x社區上圖：Grok與其他模型在數學、科學、編碼上的性能對比?

不過，號稱最強的Grok 3演示卻翻車得很災難。感覺沒學到DeepSeek R1的聰明勁，反而學到了“服務器繁忙，稍后重試”。

在這個演示里，團隊成員讓Grok 3“使用 Pygame 制作一款融合了俄羅斯方塊（Tetris）和寶石迷陣（Bejeweled）元素的游戲。代碼可能會很長，請將代碼輸出為一個文件，并使其非常出色。（原Prompt翻譯）”

或許是這個題目太難，直接給Grok 3干冒煙了。多次思考未果后就退出，演示的成員多次點擊重試，最后停留在思考界面“切屏”了。

“地表最強”Grok 3震撼登場，馬斯克演示卻“小翻車”，網友調侃：加上擎天柱才是AGI！幾個月后還將開源！-AI.x社區（視頻做了二倍速處理）

不過好在，又過去一段時間后，Grok 3還是完成了該游戲的demo。

可以看到，AI正確理解了元素融合。游戲規則不再是一行就消除，而是幾個相同顏色的色塊碰到就能進行消除了。而且俄羅斯方塊的色彩設計得很漂亮，可以稱得上是出色的應用。

“地表最強”Grok 3震撼登場，馬斯克演示卻“小翻車”，網友調侃：加上擎天柱才是AGI！幾個月后還將開源！-AI.x社區

馬斯克此前就看好AI游戲，在直播中他透露會搞一個AI游戲社區，由用戶發布與Grok的共創作品。

另一個長思維鏈的“秀肌肉”展示。則是與“火星殖民”計劃相關的，直接讓Grok 3出一段符合開普勒定律的天體模擬demo，為發射到火星的飛行器規劃軌跡。

可以看到下圖模擬了太陽、以及圍繞太陽公轉的地球和火星，并模擬了一個飛行器的路線。

“地表最強”Grok 3震撼登場，馬斯克演示卻“小翻車”，網友調侃：加上擎天柱才是AGI！幾個月后還將開源！-AI.x社區

從這里看出，Grok 3能思考相當復雜的問題，能挑戰需要更長推理時間的問題。

美中不足的是，其演示不是直接讓我們看全程的推理，所以不確定有沒有“移花接木”的存在。

令一個讓人略感失望的事情，這次的模型發布也是期貨：Grok 3需要在X上訂閱，然后會陸續開放給X用戶。估計這個等待期大概是一周左右。

而Grok 3的API則要再延遲數周上線。同時，幾周后的更新還會給Grok上線一個語音版本，使其變成用戶的個人助手。

另一個比較勁爆的消息是，馬斯克在答復觀眾提問的環節中宣布：幾個月以后將開源上一代Grok 2！

直播最后，馬斯克宣布，他也要做AI搜索了！感覺這個領域已經成為必爭之地了。

下面是Grok深度搜索的界面，據馬斯克介紹說，自家產品的優勢是在深度探索過程中，可以設計各種次任務（左側欄），讓整個搜索更加透明、結果更加可信。

“地表最強”Grok 3震撼登場，馬斯克演示卻“小翻車”，網友調侃：加上擎天柱才是AGI！幾個月后還將開源！-AI.x社區圖片

加了強推理之后，AI不止步于搜索，也能更好地做決策判斷。

在演示中，馬斯克讓AI搜索信息，預測星艦下一次的發射日期。當星艦給出發射時間是2月24日或者更晚時，馬斯克笑著說，差不多，可能是這樣吧。

另外插播一個Drama的事情，GPT 4.5也即將發布。

今天一早，奧特曼就發推炒作了一把：

“嘗試 GPT-4.5 對于那些高要求的測試者來說，比我預想的更像是一次“感受到 AGI”（通用人工智能）的時刻！”

還有人誘惑奧特曼趕在Grok發布之前用GPT 4.5截胡，奧特曼回復：這不太好吧。。。

“地表最強”Grok 3震撼登場，馬斯克演示卻“小翻車”，網友調侃：加上擎天柱才是AGI！幾個月后還將開源！-AI.x社區圖片

有傳言稱，OpenAI的團隊（包括奧特曼在內），會聚在一起觀看Grok 3，然后再決定是否要推4.5出來。

那么，你認為Grok這波能炸出GPT 4.5嗎？讓我們詳細看看“地表最強AI”的性能再下結論吧！

1.模型新霸主：性能、推理都登頂

Grok 3 的計算量比之前的初始模型高出大約十倍。于今年1 月才正式完成了預訓練。

這樣大的訓練量使得Grok 3摘得了大模型的王冠。

不只是性能方面的全面領先。

“地表最強”Grok 3震撼登場，馬斯克演示卻“小翻車”，網友調侃：加上擎天柱才是AGI！幾個月后還將開源！-AI.x社區圖片

xAI團隊還給 Grok 3 進行了多維度的評估，包括數學推理、科學常識以及計算機科學編程。

這次使用了美國數學邀請賽（AIME）2025的“新題”，可以看到Grok 3在各個領域的表現都極為出色。

“地表最強”Grok 3震撼登場，馬斯克演示卻“小翻車”，網友調侃：加上擎天柱才是AGI！幾個月后還將開源！-AI.x社區圖片

除了在基準測試中的領先，在實際應用中也有亮眼的成績。

xAI團隊對Grok 3啟動了盲測，代號為“熱巧克力”，在名為 Chaartrina 的平臺上運行了兩周。這個平臺完全剝離了產品的外殼，只對這些 AI 語言模型本身進行純粹的比較。用戶提交問題后，會看到兩個回答，但不知道這些回答來自哪個模型，然后進行選擇。

在盲測中，Grok 3 的表現非常出色，其綜合評分達到了 1400 分，沒有其他模型能達到這樣的分數。

2.大手筆的訓?練：Grok 3的實力，來自馬斯克的鈔能力

Grok 3 的開發得益于其 Colossus 超級計算機的強大算力，該系統僅用了 8 個月就完成構建。

Colossus 由 100,000 塊 Nvidia H100 GPU 提供支持（后又擴展一倍，增至200000塊），為訓練提供了 2 億 GPU 小時——比其前代模型 Grok 2 多 10 倍。

“地表最強”Grok 3震撼登場，馬斯克演示卻“小翻車”，網友調侃：加上擎天柱才是AGI！幾個月后還將開源！-AI.x社區圖片

馬斯克還在直播中爆料說，他們重構了整個數據中心，并率先實現了數據中心的液冷。為了給數據中心供能、節能，xAI的團隊重新設計了一個新的能源設計算法，最大程度地減少能耗。

這一計算資源的顯著提升，使 Grok 3 能夠更高效地處理大規模數據集，從而縮短訓練時間并提高準確性。

在具體的訓練技術上，Grok 3有這幾個重點：

合成數據集（Synthetic Datasets）——以人工生成的數據集為重點，而非從真實世界收集的數據。這些數據集可以模擬各種場景，確保數據的多樣性和可控性，從而提高學習效率，并在一定程度上解決數據隱私問題。
人類反饋循環（Human Feedback Loops）：由人工審核并提供反饋，幫助 AI 持續優化回答的準確性和相關性。
自我糾錯機制（Self-Correction Mechanisms）——這是一種 AI 技術，使模型能夠識別并糾正自身錯誤。通過評估其輸出結果，并與已知的正確答案進行比較，模型可以不斷優化自身回答，減少錯誤，提高準確性。

因此，Grok 3是能持續進化的模型，就像馬斯克在直播中說“目前，每天都在更新這個模型”。

“地表最強”Grok 3震撼登場，馬斯克演示卻“小翻車”，網友調侃：加上擎天柱才是AGI！幾個月后還將開源！-AI.x社區圖片