物理測試暴擊AI圈，DeepSeek R1穩超o1、Claude，我們已進入RL黃金時代

作者：機器之心 2025-01-26 08:40:00

人工智能新聞

我們都沒預料到，AI 領域的 2025 年是這樣開始的。

DeepSeek R1 真是太厲害了！

最近，「神秘的東方力量」DeepSeek 正在「硬控」硅谷。

我讓 R1 詳細解釋勾股定理。這一切都是 AI 在不到 30 秒時間里一次性完成的，沒出任何錯。簡單來說，its over.

在國內外 AI 圈，普通網友發現了神奇的強大新 AI（還開源），學界專家紛紛喊出「要奮起直追」，還有小道消息稱海外的 AI 公司已經如臨大敵。

就說這個本周剛發布的 DeepSeek R1，它沒有任何監督訓練的純強化學習路線令人震撼，從去年 12 月 Deepseek-v3 基座發展到如今堪比 OpenAI o1 的思維鏈能力，似乎是很快達成的事。

但在 AI 社區熱火朝天的讀技術報告、對比實測之余，人們還是對 R1 有所懷疑：它除了能跑贏一堆 Benchmark 以外，真的能領先嗎？

能自建模擬「物理規律」

你不信？來讓大模型玩玩彈球？

最近幾天，AI 社區的一些人開始沉迷一項測試 —— 測試不同的 AI 大模型（尤其是所謂的推理模型）來處理一類問題：「編寫一個 Python 腳本，讓一個黃色球在某個形狀內彈跳。讓該形狀緩慢旋轉，并確保球停留在形狀內。」

一些模型在這項「旋轉球形」基準測試中的表現優于其他模型。據 CoreView CTO Ivan Fioravanti 稱，國內人工智能實驗室 DeepSeek 的開源大模型 R1 完勝 OpenAI 的 o1 pro 模式，后者作為 OpenAI ChatGPT Pro 計劃的一部分，每月收費 200 美元。

左邊是 OpenAI o1，右邊是 DeepSeek R1。如上所述，這里的 Prompt 是:「write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square.」

根據另一位網友在 X 上的說法，Anthropic 的 Claude 3.5 Sonnet 和谷歌的 Gemini 1.5 Pro 模型對物理原理判斷錯誤，導致球偏離了形狀。也有用戶報告稱，谷歌最新的 Gemini 2.0 Flash Thinking Experimental，以及相對更舊的 OpenAI GPT-4o 都一次性通過了評估。

但這里面也是能分出高下的：

在這個推文底下的網友表示：o1 的能力原本很好，在 OpenAI 優化速度過后就變弱了，即使是每月 200 美元的會員版也一樣。

模擬彈跳球是一個經典的編程挑戰。精確的模擬結合了碰撞檢測算法，其算法需要去識別兩個物體（例如一個球和一個形狀的側面）何時發生碰撞。編寫不當的算法會影響模擬的性能或導致明顯的物理錯誤。

AI 初創公司 Nous Research 的研究員 N8 Programs 表示，他花了大約兩個小時從頭開始編寫一個旋轉七邊形中的彈跳球。「必須跟蹤多個坐標系，了解每個系統中的碰撞是如何進行的，并從頭設計代碼以使其具有魯棒性。」

雖然彈跳球和旋轉形狀是對編程技能的合理測試，但對于大模型來說還是個新項目，即使是提示中的細微變化也可能產生出不同的結果。所以如果想讓它最終成為 AI 大模型基準測試的一部分的話，還需要改進。

無論如何，經過這一波實測之后，我們對大模型之間的能力不同有了觀感。

DeepSeek 是新的「硅谷神話」

DeepSeek 正讓大洋彼岸陷入「恐慌」。

Meta 員工發帖稱「Meta 工程師們正在瘋狂地分析 DeepSeek，試圖從中復制任何可能的東西。」

而 AI 科技初創公司 Scale AI 創始人 Alexandr Wang 也公開表示，中國人工智能公司 DeepSeek 的 AI 大模型性能大致與美國最好的模型相當。

他還認為，過去十年來，美國可能一直在人工智能競賽中領先于中國，但 DeepSeek 的 AI 大模型發布可能會「改變一切」。

X 博主 @8teAPi 則認為，DeepSeek 并不是一個「副業項目」，而是像洛克希德?馬丁以前的「臭鼬工廠」。

所謂「臭鼬工廠」，就是當初洛克希德?馬丁公司（Lockheed Martin）為了研發諸多先進飛行器專門成立的一個高度機密、相對獨立的小團隊，從事尖端或非常規的技術研究與開發。從 U-2 偵察機、SR-71 黑鳥，到 F-22 猛禽、F-35 閃電 II 戰斗機都是從這里走出來的。

后來，這個詞逐漸演變成一個通用術語，用來形容在大公司或組織內部設立的「小而精」、相對獨立且自由度更高的創新團隊。

他給出的理由有兩個：

一方面是 DeepSeek 擁有大量的 GPU，據稱有超過一萬塊，而 Scale AI 的 CEO Alexandr Wang 甚至表示可能達到 5 萬塊。
另一方面，DeepSeek 只從中國排名前三的大學招聘人才，這意味著 DeepSeek 與阿里巴巴和騰訊具有同等的競爭力。

僅憑這兩個事實，就可以看出，顯然 DeepSeek 在商業上取得了成功，并且已經足夠知名，能夠獲得這些資源。

至于 DeepSeek 的開發成本，該博主表示，中國科技公司可以獲得各種各樣的補貼，比如低用電成本和用地。

因此，DeepSeek 非常有可能大部分成本都被「安置」在核心業務之外的某個賬目上，或者以某種數據中心建設補貼的形式存在。甚至除了創始人之外，沒人完全清楚所有財務安排。有些協議可能只是「口頭協定」，只靠聲譽就能敲定。

不管怎樣，有幾點是明確的：

這個模型非常出色，與 OpenAI 兩個月前發布的版本相當，當然也有可能不如 OpenAI 和 Anthropic 尚未發布的新模型。
從目前來看，研究方向仍主要由美國公司主導，DeepSeek 模型屬于對 o1 版本的「快速跟進」，但 DeepSeek 的研發進度非常迅猛，比預期更快地迎頭趕上，他們并沒有抄襲或作弊，最多只是逆向工程。
DeepSeek 主要是在培養自己的人才，而不是依賴美國培養的博士，這大大擴展了人才庫。
與美國公司相比，DeepSeek 在知識產權許可、隱私、安全、政治等方面受到的約束較少，圍繞錯誤地使用那些不想被訓練的數據的擔憂也較少。訴訟更少，律師更少，也更少顧慮。