成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

訂閱費300刀,值嗎?馬斯克發布Grok 4登頂SOTA!一項突破上大分:訓練階段就教AI用工具!網友:地表最強AI回來了!

原創 精選
人工智能
?馬斯克在直播中說:“它在所有學科上的學術水平都超過博士,無一例外。如果到明年 Grok 還沒發現點新的科學知識,我會感到很驚訝。”

編輯 | 伊風

出品 | 51CTO技術棧(微信號:blog51cto)

馬斯克,又雙叒叕意料之中地遲到了。

Grok 4 原定的直播足足晚了一個小時,馬老板終于姍姍來遲,開始了這場發布會。

圖片圖片

更加推遲上線的,則是大家原以為會同步上線的編程模型 Grok 4 Code —— 直接鴿到下個月發布,讓人有些小失望。

不過,接下來的幾個月,xAI 還將陸續推出一款多模態智能體,以及一款具備視頻理解與生成能力的綜合模型。可以說從7月到10月,Grok 4家族都持續有大動作出來,值得期待。

圖片圖片

回到這場直播,Grok 4 成為了絕對的主角。

本次共發布兩款模型:

  • Grok 4
  • Grok 4 Heavy:xAI 稱其為“多智能體版本”,多個 Grok 4 協同工作,性能進一步提升。

“Grok 4 是全球最強大的 AI 模型。”

 馬斯克在直播中說:“它在所有學科上的學術水平都超過博士,無一例外。如果到明年 Grok 還沒發現點新的科學知識,我會感到很驚訝。”

Grok 4 Heavy 在列出的各項學術基準測試中全面登頂,拿下 SOTA。

圖片圖片

價格也拉開了差距:

  •  普通版(Grok 4)為 每月 30 美元
  •  超大杯(Grok 4 Heavy)則高達 每月 300 美元!

圖片圖片

整場直播的演示環節不像上次Grok 3的發布如此密集。

但仍然有些“整活”環節,讓人印象十分深刻!首先,就是為了展示Grok的語音交互能力,直接在直播里“拉踩”了OpenAI的4o,從下面這個演示里可以看到Grok的助手“伊芙”反應更迅速、語氣更自然。

而另一個點,則是此前Grok 3發布時馬斯克就心心念念的AI手搓電子游戲。

到了Grok 4 AI已經做的非常像模像樣了,馬斯克預計明年就有成熟的大型游戲能跑出來:

圖片圖片

1.碾壓一切的基準成績——這不就是 AGI?

當 Grok 4 的基準成績鋪天蓋地刷屏后,網友們幾乎給出了統一的結論:

這不就略等于是 AGI了嗎?

從官方發布的測試結果來看,Grok 4 在多個標桿級任務中全面碾壓對手,毫無懸念地登頂各項榜單,成為當前最強的 SOTA 模型。

圖片圖片

比如在 AI 社區關注的 Artificial Analysis 綜合測評中,Grok 從上代的 67 分,躍升至 73 分,實現了明顯的跨代突破。

圖片圖片

而在ARC-AGI基準中,Grok 4也直接飛升,將一眾對手遠遠甩在后面。

這項測試的難度在于,它不是傳統的問答題,而是要求 AI 具備圖形推理、模式識別等“類人類直覺”能力,被視為檢驗“是否具備 AGI 潛力”的試金石。

圖片圖片

而在外界稱為“人類最后一場考試”(Humanity’s Last Exam)的評估中,Grok 4 Heavy 更是以 44.4% 的高分拔得頭籌,遠超 Gemini 和 OpenAI 的 o3 模型。

圖片圖片

甚至在 Claude 曾參與過的“售貨機模擬商戰”實驗中,Grok 也橫空出世,成為最會賺錢的 AI 商人:

  •  最終凈利潤是 Claude 的兩倍多 
  •  執行時長更長

之所以有這么出色的戰績,是因為Grok 4能有效地制定策略,并在長時間內保持一致性。

他們還提了一個超級瘋狂的計劃:如果有辦法把GPU的成本打下來。就可以嘗試搞一百萬臺自動售貨機,然后穩穩賺47億美元。。。

值得一提的是,Grok 4和Claude 4都超過了人類的經商水平。

圖片圖片

不過,面對如此夢幻的數據,我們也不能全然“上頭”,還是可以潑一點冷水:

首先,官方數據可能具備一些水分。例如,據此前披露,Grok 3 的部分成績采用了consensus@64”的方式,也就是一題跑 64 次,挑最好的結果出來展示——而對比模型則大多是“一次跑完”的標準流程,這顯然是個有些討巧的“刷榜”策略。

所以,Grok 4 的實際能力還需要權威的獨立榜單來進一步驗證,建議大家蹲蹲民間榜單,綜合評估。

此外,這次 Grok 4 能打得這么猛,也離不開一個“外掛”:

 它已經掌握了調用工具(tools)的能力 —— 不再是光靠語言模型硬算,而是能外接計算器、搜索器、甚至模擬瀏覽網頁。看來,模型即Agent也是一個大趨勢。

2.訓練飛躍:首次在訓練階段引入工具使用

在 Grok 4 的訓練過程中,xAI 做出了一項意義重大的突破:首次在訓練階段就引入了工具使用機制。不再僅依賴語言模型自身的泛化能力,而是讓模型從一開始就學會如何調用搜索引擎、計算器等外部工具來完成任務。

這不僅是方法上的革新,更帶來了量級上的性能飛躍。

這個操作到底有多猛?看看下面這張圖就懂了——

圖片圖片

可以說,在“工具使用”這件事上,Grok 4 的可靠性和表現已經把前幾代模型遠遠甩在身后。

而且,也有眼尖的網友發現,Grok 4 heavy之后,性能還有上升空間。據爆料說,xAI內部還有更強的模型因為成本問題沒有發布!

圖片圖片

不過,團隊也坦言,目前 Grok 使用的工具仍然比較原始。如果拿它與 Tesla 或 SpaceX 等工業場景中的工程工具相比,比如精密的物理模擬和有限元分析系統,它還遠遠不夠。但馬斯克明確表示,今年晚些時候,xAI 將為 Grok 接入這些“真正的商業級工具鏈”,讓它具備解決現實科技問題的能力。

而馬斯克也提出,終極形態是將 Grok 與 Optimus(人形機器人)結合,實現 AI 主動感知并操作現實世界。

一旦模型擁有了物理交互能力,它就可以自己“動手試驗”、修正假設、驗證反饋。換句話說,AI 不只是坐在云端思考,而是走進現實世界動手改造它。這將給整個 AI 硬件生態帶來顛覆性的沖擊。

在Grok他們看來,通向 AGI 的路徑,已經不再是“算力夠不夠”這么簡單的問題,而是一個“算力 + 工具 + 實體交互能力”三位一體的大模型工程。

而馬斯克也展望說一旦AI具備了該項能力,將引爆一個數千倍甚至百萬倍規模的新經濟體。

3.寫在最后:Gemini 3、GPT-5都在路上了

雖然 Grok 4 的發布引發熱議,但戰局遠未塵埃落定。

據X上的網友爆料,Gemini 3 很快就要登場了。谷歌最近的迭代速度真的既快又狠,眼見要成為領跑者了。

圖片圖片

而根據奧特曼此前的透露,GPT-5 將在今夏發布,照這個節奏,接下來一到兩個月內,大模型圈還會有更多炸點。

有網友說得很形象:

 “哪有什么AI撞墻期?根本看不到墻在哪里!” 

你看好今天發布的Grok 4嗎?

或者,你覺得下個最令人期待的大模型會是哪一家推出的?評論區聊聊你的觀點。

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2023-12-13 08:46:33

人工智能ChatGPT機器人

2025-07-11 11:58:59

多智能體Grok 4AI

2024-07-23 20:37:06

2025-07-10 14:42:28

Grok 4AIO3

2025-07-14 14:36:29

馬斯克Grok 4AI

2023-12-12 17:53:27

馬斯克AIChatGPT

2025-02-18 15:09:07

2024-03-18 14:17:06

大模型開源人工智能

2025-02-11 11:19:52

2025-02-19 10:28:22

2025-07-14 01:55:00

2024-03-19 14:00:59

2025-07-10 16:58:04

2024-07-23 13:10:20

2024-01-29 01:18:02

GrokChatGPTAI

2025-03-04 08:30:00

AI馬斯克模型

2024-08-15 10:07:03

2025-02-18 15:16:25

2023-09-03 12:56:06

AI模型機器學習

2025-02-21 10:51:47

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品久久久久 | 国产一级片一区二区三区 | 国产亚洲一区二区在线观看 | 偷拍第一页 | 国产精品久久久久久久久免费高清 | 国产成人精品在线播放 | 一区二区视频在线观看 | 久久久av一区 | 亚洲欧美成人在线 | 99精品久久| 羞羞色影院 | 精品一区二区三区在线视频 | 一区二区免费 | 日韩一区二区三区在线 | 欧美不卡在线 | 日韩精品一区在线 | 成人免费在线 | 欧美亚洲第一区 | 黄色网址在线免费播放 | 国内在线视频 | 亚洲一区二区三区视频免费观看 | 欧美大片一区二区 | 亚洲欧洲日本国产 | 久久国产精品一区二区三区 | 国产精品美女一区二区 | 7777精品伊人久久精品影视 | 国产福利在线 | 在线午夜 | 99reav| 在线观看一区 | 精品视频一区二区三区在线观看 | 成人影| 日韩国产在线 | 夜夜爽99久久国产综合精品女不卡 | 99久久精品视频免费 | 成人国产精品 | 国产成人区 | 亚洲视频一区二区三区 | 黄视频网址| 欧洲视频一区二区 | 91一区二区三区 |