AI領域的“新王”誕生! 馬斯克發布Grok 3,趕超OpenAI o1和Deepseek R1! 原創
在2月18日,馬斯克旗下的xAI公司推出新一代大語言模型Grok 3。馬斯克在發布會上自信滿滿地表示:“Grok 3比Grok 2強大一個數量級。”這話聽起來有點夸張,但看看Grok 3的表現,還真不是吹牛。根據xAI工程師的說法,Grok 3的訓練量是Grok 2的10倍,推理能力更是直接碾壓了包括ChatGPT和DeepSeek在內的其他AI模型。馬斯克甚至放話:“Grok 3是地球上最聰明的人工智能。”
Grok 3到底有多強?
咱們先來看一組數據。在數學能力測試(AIME'24)中,Grok 3拿到了52分,而DeepSeek-V3只有39分;科學知識評估(GPQA)中,Grok 3以75分領先DeepSeek-V3的65分;編程能力測試(LCB Oct-Feb)中,Grok 3更是以57分完勝DeepSeek-V3的36分。這差距,簡直像是學霸和普通學生的區別。
更讓人驚訝的是,Grok 3在AIME 2025性能測試中的表現。它的推理和計算時間復合評分高達93分,精簡版Grok-3 mini也有90分。相比之下,DeepSeek-R1只有75分,而Gemini-2 Flash Thinking更是只有54分。這差距,已經不是“碾壓”能形容的了,簡直是“降維打擊”。
Grok 3的“殺手锏”:推理能力
馬斯克特別強調了Grok 3的推理能力。在他看來,Grok 3的推理能力不僅超越了現有的AI模型,甚至可能成為AI領域的“顛覆者”。從測試數據來看,Grok 3在數學推理、科學推理和編程推理中都表現出了顯著優勢。特別是在數學推理中,Grok 3拿到了93分,而DeepSeek-R1只有73分。這差距,足以讓Grok 3在AI領域站穩腳跟。
Grok 3的“精簡版”也不簡單
除了Grok 3,xAI還推出了它的精簡版——Grok-3 mini。雖然名字里帶了個“mini”,但它的表現一點也不“迷你”。在AIME 2025測試中,Grok-3 mini拿到了90分,幾乎和Grok 3持平。這意味著,即便是精簡版,Grok-3 mini也能在復雜數學推理和計算效率方面表現出色。
越來越“卷”了
從Grok 1.5到Grok 3,xAI的進步速度讓人驚嘆。而Grok 3的發布,無疑讓AI領域的競爭更加白熱化。DeepSeek在過去幾個月里表現不俗,但在Grok 3面前,似乎還是稍遜一籌。這不禁讓人感慨:AI領域的“內卷”,已經卷到了一個新高度!
本文轉載自公眾號AI 博物院 作者:longyunfeigu
原文鏈接:??https://mp.weixin.qq.com/s/aW_55mvTVySUqvn1eRTHJw??
