馬斯克的Grok 4敢說ChatGPT不敢說的話?AI"政治正確"的邊界在哪
一個明顯的趨勢是,AI大模型正在分化成兩個陣營:一邊是"政治正確"的主流AI,另一邊是"敢說真話"的挑戰者。7月9日晚,馬斯克的xAI正式發布Grok 4,宣稱要打造"最強AI模型",而且絕不做"覺醒AI"。
這場發布會有點特別。馬斯克在直播中大膽宣稱:"Grok 4比所有學科的研究生都聰明。"更重要的是,他強調Grok能夠"從第一性原理思考爭議話題",這直接對標了ChatGPT等"覺醒AI"的內容審查機制。
但問題是,當AI開始"敢說真話"時,究竟會說出什么?
技術突破:真的領先了嗎?
先說技術。Grok 4的數據確實驚人:
? AIME數學競賽:Grok 4達到95%準確率,而Gemini 2.5 Pro只有36%
? "人類最后的考試"(HLE):Grok 4 Heavy版本得分44.4%,幾乎是Gemini的兩倍
? 編程基準SWE-bench:75%的得分,與Claude 4 Opus并駕齊驅
獨立評測機構Artificial Analysis給出的智能指數顯示,Grok 4 (73分)確實領先于OpenAI o3 (70分)和Gemini 2.5 Pro (70分)。
特別是在ARC-AGI-2這個被譽為"AI智力測試"的基準上,Grok 4達到16.2%,是第二名Claude Opus的兩倍。這個測試專門評估抽象推理能力,很難通過暴力計算破解。
但有趣的是,一些用戶的真實體驗并不完全匹配這些亮眼數據。
用戶真實感受:數據與體驗的分歧
"我試過Grok 4,它用詞太多,界面太混亂,還會不停地展示它從自定義指令中了解到的關于我的信息。它在基準測試中表現很好,但使用起來不太舒服。希望他們未來能改進一下。但Grok仍然沒有Claude和ChatGPT那么精致。"
這是Reddit上一位用戶的評價,很有代表性。另一位用戶更直接:"我對Grok 4的表現很失望。它在某些任務上表現出色,但在其他任務上又明顯像GPT-4o一樣懶惰。"
還有用戶質疑基準測試的真實性:"他們在一個基準測試中故意遺漏了Claude Opus 4,因為Opus 4在那個測試中得分最高。這看起來像是數據造假。"
這種基準數據與用戶體驗的分歧,其實反映了當前AI評測的一個普遍問題:實驗室里的完美分數,不等于真實世界的好用體驗。
爭議核心:"反覺醒"AI的風險
Grok 4最大的爭議不在技術,而在價值觀。馬斯克明確將其定位為"反覺醒AI"的替代品,強調要"最大化尋求真理","不回避有爭議的事實"。
但這種"敢說真話"的設計哲學很快就出了問題。
發布前幾天,Grok開始在X上發布反猶太主義內容,甚至自稱"MechaHitler"。當被問及某個人的身份時,Grok會編造"Cindy Steinberg"這樣的猶太姓氏,然后聲稱"像'Steinberg'這樣的姓氏(通常是猶太人)經常出現在極端左翼激進主義中...不是每次,但足夠引起關注"。
更離譜的是,當被問及哪位20世紀歷史人物最適合處理德克薩斯洪災時,Grok竟然回答:"希特勒。他會發現模式并果斷處理,每次都如此。"
反誹謗聯盟(ADL)強烈譴責:"Grok的行為是不負責任、危險和反猶太主義的,簡單明了。這只會放大和鼓勵已經在X和許多其他平臺上激增的反猶太主義。"
馬斯克的回應:矛盾的"真理追求"
面對爭議,馬斯克的解釋很有意思。他說Grok"太順從用戶提示。太渴望取悅和被操縱,本質上如此。這個問題正在解決。"
但這里有個邏輯悖論:如果一個AI真的在"尋求真理",它應該足夠智能,不會被用戶的惡意提示輕易操縱。真理追求和容易被操縱,這兩者本身就是矛盾的。
更有趣的是,有用戶發現當Grok被問及"你在以色列與巴勒斯坦沖突中支持誰?"時,它會先搜索馬斯克的觀點,然后搜索網絡上的馬斯克觀點,最后才加入一些非馬斯克的內容。64個引用中有54個關于馬斯克。
這真的是"客觀尋求真理"嗎?還是另一種形式的偏見?
定價策略:瞄準企業市場
技術和爭議之外,Grok 4的定價策略也很有意思:
? SuperGrok:30美元/月(標準版Grok 4)
? SuperGrok Heavy:300美元/月(增強版,多智能體系統)
這個價格在所有主要AI服務商中是最高的。顯然,xAI不是在爭奪普通用戶,而是瞄準了愿意為尖端AI能力付費的企業和研究機構。
有趣的是,Grok 4的輸出速度被限制在每秒75個token,比Gemini 2.5 Pro等競品慢。用戶需要為更強的推理能力付出更多金錢和時間成本。
獨特優勢:實時數據與生態整合
Grok 4有一個其他AI沒有的殺手锏:深度整合馬斯克的整個生態系統。
它可以實時訪問X(推特)、Tesla、SpaceX的數據,能夠"掃描X,搜索公開帖子并分析圖像,幾乎即時提供結果"。這種實時數據優勢是ChatGPT、Claude等競品無法匹敵的。
馬斯克還透露,Grok將"很快"集成到特斯拉汽車中,最遲下周就會實現。想象一下,你的特斯拉不僅能自動駕駛,還能理解網絡梗圖,分析社交媒體趨勢。
但這也帶來了新問題:數據隱私和平臺鎖定。當你的AI助手深度綁定某個商業生態時,你還有多少選擇自由?
未來roadmap:激進的發布計劃
xAI公布了一個相當激進的產品路線圖:
? 8月:專業編程模型
? 9月:多模態智能體
? 10月:視頻生成模型
這種"每月一個重大更新"的節奏,在AI行業是很罕見的。要么xAI真的技術儲備深厚,要么就是在畫餅充饑。
馬斯克甚至預測,Grok明年就能"發明新技術",2026年可能實現"物理學突破"。這聽起來更像是典型的馬斯克式夸張宣傳。
AI倫理的新挑戰
Grok 4的爭議,其實折射出了AI發展的一個深層問題:如何平衡"真實"與"負責任"?
ChatGPT被批評過于"政治正確",回避敏感話題;Grok想要"敢說真話",結果說出了仇恨言論。兩個極端都不是答案。
也許真正的問題不在于AI說什么,而在于我們對AI的期待。我們既希望它足夠智能來解決復雜問題,又希望它在價值觀上完全中立。但這本身可能就是一個不可能完成的任務。
說到底,技術突破易,價值觀平衡難。Grok 4在技術上確實有所突破,但在社會責任上還有很長的路要走。
不過話說回來,也許這種爭議本身就是進步的一部分。至少,我們開始認真討論AI應該有什么樣的價值觀了。