成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<strike id="ymkxw"><s id="ymkxw"></s></strike>

<code id="ymkxw"><object id="ymkxw"></object></code>

<video id="ymkxw"><abbr id="ymkxw"></abbr></video>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

馬斯克又大嘴了！Grok 4 真實(shí)水平曝光，多項(xiàng)實(shí)測翻車，連前端都搞不定，還談什么AGI？網(wǎng)友怒評：上當(dāng)了，花原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2025-7-15 18:05

瀏覽

0收藏

編輯 | 云昭

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

上周，Grok 4 的發(fā)布給這個盛夏帶來了一片狂熱。

但太陽底下無新事，宣傳往往大于實(shí)際。

在發(fā)布直播中，馬斯克宣稱這是“目前地表最強(qiáng)的 AI”，不僅全面超越了所有競爭對手，還在多個測試中打敗了人類，比如所謂的 “人類終極考試”（Humanity’s Last Exam）、ARC-AGI 測試、Vending Bench 等。

馬斯克又大嘴了！Grok 4 真實(shí)水平曝光，多項(xiàng)實(shí)測翻車，連前端都搞不定，還談什么AGI？網(wǎng)友怒評：上當(dāng)了，花-AI.x社區(qū)

不過，這些基準(zhǔn)測試本身就非常局限，無法真正反映 AI 在日常使用、安全性或通用推理能力方面的表現(xiàn)。

小編近幾天發(fā)現(xiàn)了一位寶藏 Youtube 博主，最近對 Grok 4 的實(shí)際體驗(yàn)做出了非常全面的反饋。事實(shí)證明：馬斯克又一次大嘴了！

馬斯克又大嘴了！Grok 4 真實(shí)水平曝光，多項(xiàng)實(shí)測翻車，連前端都搞不定，還談什么AGI？網(wǎng)友怒評：上當(dāng)了，花-AI.x社區(qū)

“在過去幾天里，我發(fā)現(xiàn)，Grok 4 在多個真實(shí)場景測試中表現(xiàn)平平，甚至在關(guān)鍵領(lǐng)域排名靠后”。

更令人擔(dān)憂的是，它在價(jià)值觀、內(nèi)容控制上出現(xiàn)了嚴(yán)重問題。

以下，是一份“可能會被馬斯克剪掉的”真實(shí)評價(jià)清單。

01、真正的測試場，Grok 4 沒“考好”

1. LiveBench：算不上頂尖

有網(wǎng)友認(rèn)為，LiveBench 是最能檢驗(yàn) AI 是否真正“聰明”的評測平臺，涵蓋數(shù)學(xué)、編程、推理、語言、指令執(zhí)行、數(shù)據(jù)分析六大方向。

這里科普一下。

LiveBench 是一個高度動態(tài)且無污染的測試平臺，專門評估大語言模型在真實(shí)世界任務(wù)中的表現(xiàn)。它不同于傳統(tǒng)靜態(tài)測試——模型可能在訓(xùn)練中“見過”的題目——LiveBench 每月都會從 arXiv、新聞文章、編程比賽等來源發(fā)布全新、模型從未見過的測試任務(wù)。

具體可以看下這六大方向的測試題目：

數(shù)學(xué)（如 AMC、AIME、IMO 級別題目）
編程（如 LeetCode、AtCoder、代碼補(bǔ)全）
推理（邏輯題、BigBench 變體）
語言（如糾錯、語序調(diào)整）
指令執(zhí)行（如總結(jié)、改寫）
數(shù)據(jù)分析（類似 Kaggle 表格任務(wù)）

所以，用 LiveBench 可以檢測出模型“究竟是真聰明，還是只是背得多”。

馬斯克又大嘴了！Grok 4 真實(shí)水平曝光，多項(xiàng)實(shí)測翻車，連前端都搞不定，還談什么AGI？網(wǎng)友怒評：上當(dāng)了，花-AI.x社區(qū)

可以看出，Grok 4 其實(shí)在編程和 Agentic 編程方面并沒有很優(yōu)秀，甚至在o3、Claude4 等多款模型的對比中敗下陣來，推理方面取得了最高分。

可以說，Groke 4 雖然不差，但算不上頂尖。

2. 創(chuàng)意寫作測試

這個測試重點(diǎn)評估語言模型創(chuàng)作原始內(nèi)容（如小說、詩歌、對話）的能力，看它是否能生成富有情感、風(fēng)格統(tǒng)一的文本。

難點(diǎn)在于：

沒有“標(biāo)準(zhǔn)答案”，完全靠創(chuàng)造力；
需要情緒表達(dá)，而不僅僅是語法正確；
對長文本的風(fēng)格控制要求極高。

馬斯克又大嘴了！Grok 4 真實(shí)水平曝光，多項(xiàng)實(shí)測翻車，連前端都搞不定，還談什么AGI？網(wǎng)友怒評：上當(dāng)了，花-AI.x社區(qū)

在這一維度上，Grok 4 表現(xiàn)中規(guī)中矩，遠(yuǎn)遠(yuǎn)不是“最強(qiáng) AI”，大致處于“平均水平”。

3. DesignArena（設(shè)計(jì)任務(wù)）

盡管馬斯克吹噓 Grok 4 是個“編程怪獸”，但它在前端開發(fā)任務(wù)上表現(xiàn)并不理想，遠(yuǎn)不如 Claude 4。

馬斯克又大嘴了！Grok 4 真實(shí)水平曝光，多項(xiàng)實(shí)測翻車，連前端都搞不定，還談什么AGI？網(wǎng)友怒評：上當(dāng)了，花-AI.x社區(qū)

在這個評測中，Grok 4 連前五名都沒進(jìn)，特別是在 UI 和前端生成上，表現(xiàn)平庸。

4. SVG 圖像生成

馬斯克又大嘴了！Grok 4 真實(shí)水平曝光，多項(xiàng)實(shí)測翻車，連前端都搞不定，還談什么AGI？網(wǎng)友怒評：上當(dāng)了，花-AI.x社區(qū)

在 SVG 圖形生成任務(wù)中，Grok 4 表現(xiàn)尚可，但依舊稱不上出色。從數(shù)據(jù)來看，OpenAI 的 o3 模型和 Google 的 Gemini-Pro 2.5 表現(xiàn)更優(yōu)。

所以，不管是 Vibe Coding，還是前端設(shè)計(jì)，又或者是創(chuàng)意寫作，Grok 4 都在基準(zhǔn)測試中表現(xiàn)平平，更不用說是“地表最強(qiáng)”了。

02、不止是測試平平，Grok 4 在多個層面都出問題了

眾所周知，Grok 近期一直被推友們詬病，說它存在嚴(yán)重的倫理偏見和內(nèi)容失控的現(xiàn)象。還記得系統(tǒng)提示詞修改錯誤導(dǎo)致的“白人種族滅絕”的烏龍事件嗎？

在這次的新版本的 Grok 4 模型中，這些問題依舊沒有得到解決。

從一些用戶上傳的截圖來看，Grok 4 出現(xiàn)了嚴(yán)重的倫理與價(jià)值觀問題，甚至令人震驚：

1.馬斯克個人偏見

面對烏俄戰(zhàn)爭這類嚴(yán)肅問題，Grok 4 居然轉(zhuǎn)向宣傳馬斯克的個人觀點(diǎn)，而非給出中立分析。

馬斯克又大嘴了！Grok 4 真實(shí)水平曝光，多項(xiàng)實(shí)測翻車，連前端都搞不定，還談什么AGI？網(wǎng)友怒評：上當(dāng)了，花-AI.x社區(qū)

2.納粹式言論

模型在沒有任何諷刺或批判語氣的前提下，美化一個叫“機(jī)甲希特勒（MechaHitler）”的角色，使用極端右翼語言，令人不安。

馬斯克又大嘴了！Grok 4 真實(shí)水平曝光，多項(xiàng)實(shí)測翻車，連前端都搞不定，還談什么AGI？網(wǎng)友怒評：上當(dāng)了，花-AI.x社區(qū)

甚至，今天剛剛的消息，馬斯克的 xAI 因 Grok 的“恐怖”反猶太主義帖子都要面臨歐洲的審查。

3.性騷擾對話

Grok 4 在一次用戶測試中，參與了一段種族歧視意味明顯的性暗示對話，涉及對象居然是其“CEO”（即馬斯克本人），且沒有任何屏蔽或阻止機(jī)制。

馬斯克又大嘴了！Grok 4 真實(shí)水平曝光，多項(xiàng)實(shí)測翻車，連前端都搞不定，還談什么AGI？網(wǎng)友怒評：上當(dāng)了，花-AI.x社區(qū)

03、用戶怒評：“我花錢買的是個笑話”

正如 Reddit 上一篇爆紅的熱帖所說，很多用戶覺得自己被 Grok 4“忽悠了”，花錢買了個表現(xiàn)遠(yuǎn)遜預(yù)期的模型。

馬斯克又大嘴了！Grok 4 真實(shí)水平曝光，多項(xiàng)實(shí)測翻車，連前端都搞不定，還談什么AGI？網(wǎng)友怒評：上當(dāng)了，花-AI.x社區(qū)

具體反饋包括：

無法從復(fù)雜 PDF 中提取結(jié)構(gòu)化數(shù)據(jù)（OCR 失敗）；
圖像識別錯誤：看不出名勝古跡的位置（誤差高達(dá) 200 公里）；
車牌國別識別失?。▽⒏鲘u車牌誤判為意大利）；
非洲語方言寫作質(zhì)量差（語法錯誤多，流暢性差）；
網(wǎng)站生成能力弱（WhatsApp 插件無法使用、頁面布局錯誤、整體設(shè)計(jì)質(zhì)量低）。

04、AGI 還遠(yuǎn)，Grok 4 言過其實(shí)

Grok 4 不是 AGI，也不是什么“革命性”的產(chǎn)品。 它不是最聰明的 AI，甚至可能不是這個季度最聰明的聊天機(jī)器人。它是一個中等水平的語言模型，被營銷、粉絲濾鏡和馬斯克的 X 平臺宣傳所推高。

在真正重要的任務(wù)中，Grok 4 不是最好，也不是“能用即用”的安全模型。如果你認(rèn)為它代表 AI 的未來，你相信的是宣傳，不是技術(shù)。

“比人類還聰明”？別開玩笑了。

Grok 4 連最聰明的聊天機(jī)器人都算不上。

好了，今天這篇文章就到此結(jié)束了。其實(shí)但凡新品發(fā)布會，發(fā)布者很難不用一些夸張的詞語，這一點(diǎn)屢見不鮮?！按笞臁笔桨l(fā)言，大家聽歸聽，還是得上手試一下，才能見分曉。

問一嘴，你有見過哪些不錯的發(fā)布會，算是名副其實(shí)的發(fā)布呢？可以評論區(qū)交流。

參考鏈接：

??https://www.youtube.com/channel/UCQoNosQTIxiMTL9C-gvFdjA??

????https://medium.com/data-science-in-your-pocket/grok-4-failed-these-benchmarks-elon-lied-again-412a78fcabf9???

本文轉(zhuǎn)載自??51CTO技術(shù)棧??，作者：云召

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2025-7-15 18:15:12修改

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

馬斯克的 Grok AI 開源

jiecho ? 6558瀏覽 ? 0回復(fù)
馬斯克跟甲骨文談崩了，百億大訂單泡湯！馬斯克欲買30萬臺B200,嫌棄甲骨文速度太慢！對方：根本沒那么多電

51CTO技術(shù)棧 ? 3359瀏覽 ? 0回復(fù)
馬斯克突發(fā)新版大模型，犧牲特斯拉資源叫板OpenAI，Grok-2一手實(shí)測來了

Crystalcxt ? 2333瀏覽 ? 0回復(fù)
馬斯克美大選結(jié)束前猛料談話流出：此前谷歌控制了白宮監(jiān)管，奧特曼撒謊成性，人類不能控制AI，退休是最好的

51CTO技術(shù)棧 ? 2317瀏覽 ? 0回復(fù)
對齊馬斯克，楊立昆稱AGI十年內(nèi)將實(shí)現(xiàn)！談未來：AI不會讓人失業(yè)，人類總有解決不完的問題

51CTO技術(shù)棧 ? 2152瀏覽 ? 0回復(fù)
馬斯克明顯是個惡霸！不會完全放棄非營利性質(zhì)！奧特曼罕見采訪曝猛料：馬斯克喜歡到處干架

51CTO技術(shù)棧 ? 2318瀏覽 ? 0回復(fù)
馬斯克又又又跳票了！說好年底推出的“重大飛躍”的Grok 3，遲遲未現(xiàn)身！

51CTO技術(shù)棧 ? 2291瀏覽 ? 0回復(fù)
馬斯克再開炮：974億美元買下OpenAI！馬斯克與奧特曼的恩怨局如何收場？

51CTO技術(shù)棧 ? 1928瀏覽 ? 0回復(fù)
“地表最強(qiáng)”Grok 3震撼登場，馬斯克演示卻“小翻車”，網(wǎng)友調(diào)侃：加上擎天柱才是AGI！幾個月后還將開源！

51CTO技術(shù)棧 ? 2563瀏覽 ? 0回復(fù)
馬斯克發(fā)布Grok 3，趕超OpenAI o1和Deepseek R1！

AI博物院 ? 2280瀏覽 ? 0回復(fù)
馬斯克連夜官宣Grok 3：這8個功能讓程序員集體失業(yè)

Halo咯咯 ? 3127瀏覽 ? 0回復(fù)
花6萬4才能用！馬斯克急忙上線閹割版!AI提醒駕駛員別走神，網(wǎng)友實(shí)測翻車：秒變移動路

51CTO技術(shù)棧 ? 2119瀏覽 ? 0回復(fù)
馬斯克最新預(yù)言：AI毀滅世界的概率為20%！星艦全程復(fù)用后成本將砍99%！

51CTO技術(shù)棧 ? 2751瀏覽 ? 0回復(fù)
馬斯克阻止OpenAI營利化慘遭駁回！將秋季開庭判決；法官：收購提議太雙標(biāo)了！

51CTO技術(shù)棧 ? 2025瀏覽 ? 0回復(fù)
馬斯克宣布回歸：搞DOGE不如搞AI!用第一性原理搞定萬卡集群搭建；Grok 3.5重點(diǎn)搞推理！

51CTO技術(shù)棧 ? 745瀏覽 ? 0回復(fù)
馬斯克發(fā)布Grok 4登頂SOTA！一項(xiàng)突破上大分：訓(xùn)練階段就教AI用工具！

51CTO技術(shù)棧 ? 1119瀏覽 ? 0回復(fù)
Grok 4 擊潰所有模型，馬斯克20萬GPU訓(xùn)練出最貴AI

算家計(jì)算 ? 1586瀏覽 ? 0回復(fù)
馬斯克Grok 4陷入爭議！追求真理還是個人觀點(diǎn)的「擴(kuò)音器」？

算家計(jì)算 ? 1058瀏覽 ? 0回復(fù)
馬斯克發(fā)布Grok-4，性能碾壓Claude 4兩倍！

探索AGI ? 1926瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

從播客到帶娃，看老黃、納德拉、奧特曼這些CEO 如何在生活中使用 AI 0回復(fù)

Cursor公開致歉！我們定價(jià)不清，愿意全額退款！迷惑的Pro定價(jià)終于被解釋！ 0回復(fù)

又顛覆了！Vidu Q1新功能太炸裂了，打破原有AI視頻制作流程，零分鏡、素材即劇組，小白2分鐘搞定大片！ 0回復(fù)

重磅！英偉達(dá)宣布H20芯片即將恢復(fù)對華銷售，并計(jì)劃推出全新GPU 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇： Claude背后大廠終于出手！Kiro讓氛圍編碼走出“造玩具”，開發(fā)流程結(jié)構(gòu)化了！網(wǎng)友：氛圍編程的游戲規(guī)則又要

下一篇： OpenAI前員工萬字爆料刷屏！Codex發(fā)布會前緊急部署、已有63 萬PR！工程混亂靠自造輪子；建議創(chuàng)始人去AI大廠

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：欧美日韩电影在线 | 亚洲视频中文字幕 | 一区二区福利视频 | 日韩高清一区二区 | 久久的色 | 91偷拍精品一区二区三区 | 国产精品国产成人国产三级 | 亚洲高清在线观看 | 伊人二区 | 亚洲欧美v | 欧美一区二区三区一在线观看 | 日韩毛片在线观看 | 精精国产xxxx视频在线播放7 | 久久看片 | 成人精品久久 | 欧美成人黄色小说 | 亚洲国产成人精品久久久国产成人一区 | 亚洲欧美在线一区 | 亚洲电影在线播放 | 综合二区 | 亚洲夜射 | 中文字幕爱爱视频 | 99精品久久99久久久久 | 亚洲一区二区三区乱码aⅴ 四虎在线视频 | 日韩国产一区二区 | 欧美在线一区二区三区四区 | 亚洲国产一区在线 | 成人在线影视 | 精品一区二区三区四区视频 | 久久日韩精品 | 国产精品99精品久久免费 | 欧美寡妇偷汉性猛交 | 91久久国产综合久久91精品网站 | 欧美激情五月 | 亚洲国产精品日韩av不卡在线 | 欧美日韩国产高清视频 | 久久亚洲一区二区三区四区 | 99re热这里只有精品视频 | 91 在线 | 国产精品美女www爽爽爽 | 91精品国产91久久综合桃花 |

<li id="uiuke"></li>