馬斯克又大嘴了!Grok 4 真實(shí)水平曝光,多項(xiàng)實(shí)測翻車,連前端都搞不定,還談什么AGI?網(wǎng)友怒評:上當(dāng)了,花 原創(chuàng)
編輯 | 云昭
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
上周,Grok 4 的發(fā)布給這個盛夏帶來了一片狂熱。
但太陽底下無新事,宣傳往往大于實(shí)際。
在發(fā)布直播中,馬斯克宣稱這是“目前地表最強(qiáng)的 AI”,不僅全面超越了所有競爭對手,還在多個測試中打敗了人類,比如所謂的 “人類終極考試”(Humanity’s Last Exam)、ARC-AGI 測試、Vending Bench 等。
不過,這些基準(zhǔn)測試本身就非常局限,無法真正反映 AI 在日常使用、安全性或通用推理能力方面的表現(xiàn)。
小編近幾天發(fā)現(xiàn)了一位寶藏 Youtube 博主,最近對 Grok 4 的實(shí)際體驗(yàn)做出了非常全面的反饋。事實(shí)證明:馬斯克又一次大嘴了!
“在過去幾天里,我發(fā)現(xiàn),Grok 4 在多個真實(shí)場景測試中表現(xiàn)平平,甚至在關(guān)鍵領(lǐng)域排名靠后”。
更令人擔(dān)憂的是,它在價(jià)值觀、內(nèi)容控制上出現(xiàn)了嚴(yán)重問題。
以下,是一份“可能會被馬斯克剪掉的”真實(shí)評價(jià)清單。
01、真正的測試場,Grok 4 沒“考好”
1. LiveBench:算不上頂尖
有網(wǎng)友認(rèn)為,LiveBench 是最能檢驗(yàn) AI 是否真正“聰明”的評測平臺,涵蓋數(shù)學(xué)、編程、推理、語言、指令執(zhí)行、數(shù)據(jù)分析六大方向。
這里科普一下。
LiveBench 是一個高度動態(tài)且無污染的測試平臺,專門評估大語言模型在真實(shí)世界任務(wù)中的表現(xiàn)。它不同于傳統(tǒng)靜態(tài)測試——模型可能在訓(xùn)練中“見過”的題目——LiveBench 每月都會從 arXiv、新聞文章、編程比賽等來源發(fā)布全新、模型從未見過的測試任務(wù)。
具體可以看下這六大方向的測試題目:
- 數(shù)學(xué)(如 AMC、AIME、IMO 級別題目)
- 編程(如 LeetCode、AtCoder、代碼補(bǔ)全)
- 推理(邏輯題、BigBench 變體)
- 語言(如糾錯、語序調(diào)整)
- 指令執(zhí)行(如總結(jié)、改寫)
- 數(shù)據(jù)分析(類似 Kaggle 表格任務(wù))
所以,用 LiveBench 可以檢測出模型“究竟是真聰明,還是只是背得多”。
可以看出,Grok 4 其實(shí)在編程和 Agentic 編程方面并沒有很優(yōu)秀,甚至在o3、Claude4 等多款模型的對比中敗下陣來,推理方面取得了最高分。
可以說,Groke 4 雖然不差,但算不上頂尖。
2. 創(chuàng)意寫作測試
這個測試重點(diǎn)評估語言模型創(chuàng)作原始內(nèi)容(如小說、詩歌、對話)的能力,看它是否能生成富有情感、風(fēng)格統(tǒng)一的文本。
難點(diǎn)在于:
- 沒有“標(biāo)準(zhǔn)答案”,完全靠創(chuàng)造力;
- 需要情緒表達(dá),而不僅僅是語法正確;
- 對長文本的風(fēng)格控制要求極高。
在這一維度上,Grok 4 表現(xiàn)中規(guī)中矩,遠(yuǎn)遠(yuǎn)不是“最強(qiáng) AI”,大致處于“平均水平”。
3. DesignArena(設(shè)計(jì)任務(wù))
盡管馬斯克吹噓 Grok 4 是個“編程怪獸”,但它在前端開發(fā)任務(wù)上表現(xiàn)并不理想,遠(yuǎn)不如 Claude 4。
在這個評測中,Grok 4 連前五名都沒進(jìn),特別是在 UI 和前端生成上,表現(xiàn)平庸。
4. SVG 圖像生成
在 SVG 圖形生成任務(wù)中,Grok 4 表現(xiàn)尚可,但依舊稱不上出色。從數(shù)據(jù)來看,OpenAI 的 o3 模型和 Google 的 Gemini-Pro 2.5 表現(xiàn)更優(yōu)。
所以,不管是 Vibe Coding,還是前端設(shè)計(jì),又或者是創(chuàng)意寫作,Grok 4 都在基準(zhǔn)測試中表現(xiàn)平平,更不用說是“地表最強(qiáng)”了。
02、不止是測試平平,Grok 4 在多個層面都出問題了
眾所周知,Grok 近期一直被推友們詬病,說它存在嚴(yán)重的倫理偏見和內(nèi)容失控的現(xiàn)象。還記得系統(tǒng)提示詞修改錯誤導(dǎo)致的“白人種族滅絕”的烏龍事件嗎?
在這次的新版本的 Grok 4 模型中,這些問題依舊沒有得到解決。
從一些用戶上傳的截圖來看,Grok 4 出現(xiàn)了嚴(yán)重的倫理與價(jià)值觀問題,甚至令人震驚:
1.馬斯克個人偏見
面對烏俄戰(zhàn)爭這類嚴(yán)肅問題,Grok 4 居然轉(zhuǎn)向宣傳馬斯克的個人觀點(diǎn),而非給出中立分析。
2.納粹式言論
模型在沒有任何諷刺或批判語氣的前提下,美化一個叫“機(jī)甲希特勒(MechaHitler)”的角色,使用極端右翼語言,令人不安。
甚至,今天剛剛的消息,馬斯克的 xAI 因 Grok 的“恐怖”反猶太主義帖子都要面臨歐洲的審查。
3.性騷擾對話
Grok 4 在一次用戶測試中,參與了一段種族歧視意味明顯的性暗示對話,涉及對象居然是其“CEO”(即馬斯克本人),且沒有任何屏蔽或阻止機(jī)制。
03、用戶怒評:“我花錢買的是個笑話”
正如 Reddit 上一篇爆紅的熱帖所說,很多用戶覺得自己被 Grok 4“忽悠了”,花錢買了個表現(xiàn)遠(yuǎn)遜預(yù)期的模型。
具體反饋包括:
- 無法從復(fù)雜 PDF 中提取結(jié)構(gòu)化數(shù)據(jù)(OCR 失敗);
- 圖像識別錯誤:看不出名勝古跡的位置(誤差高達(dá) 200 公里);
- 車牌國別識別失?。▽⒏鲘u車牌誤判為意大利);
- 非洲語方言寫作質(zhì)量差(語法錯誤多,流暢性差);
- 網(wǎng)站生成能力弱(WhatsApp 插件無法使用、頁面布局錯誤、整體設(shè)計(jì)質(zhì)量低)。
04、AGI 還遠(yuǎn),Grok 4 言過其實(shí)
Grok 4 不是 AGI,也不是什么“革命性”的產(chǎn)品。 它不是最聰明的 AI,甚至可能不是這個季度最聰明的聊天機(jī)器人。它是一個中等水平的語言模型,被營銷、粉絲濾鏡和馬斯克的 X 平臺宣傳所推高。
在真正重要的任務(wù)中,Grok 4 不是最好,也不是“能用即用”的安全模型。如果你認(rèn)為它代表 AI 的未來,你相信的是宣傳,不是技術(shù)。
“比人類還聰明”?別開玩笑了。
Grok 4 連最聰明的聊天機(jī)器人都算不上。
好了,今天這篇文章就到此結(jié)束了。其實(shí)但凡新品發(fā)布會,發(fā)布者很難不用一些夸張的詞語,這一點(diǎn)屢見不鮮?!按笞臁笔桨l(fā)言,大家聽歸聽,還是得上手試一下,才能見分曉。
問一嘴,你有見過哪些不錯的發(fā)布會,算是名副其實(shí)的發(fā)布呢?可以評論區(qū)交流。
參考鏈接:
??https://www.youtube.com/channel/UCQoNosQTIxiMTL9C-gvFdjA??
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:云召
