成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

物理測試暴擊AI圈,DeepSeek R1穩超o1、Claude,我們已進入RL黃金時代

人工智能 新聞
我們都沒預料到,AI 領域的 2025 年是這樣開始的。

DeepSeek R1 真是太厲害了!

最近,「神秘的東方力量」DeepSeek 正在「硬控」硅谷。

圖片

我讓 R1 詳細解釋勾股定理。這一切都是 AI 在不到 30 秒時間里一次性完成的,沒出任何錯。簡單來說,its over.

在國內外 AI 圈,普通網友發現了神奇的強大新 AI(還開源),學界專家紛紛喊出「要奮起直追」,還有小道消息稱海外的 AI 公司已經如臨大敵。

就說這個本周剛發布的 DeepSeek R1,它沒有任何監督訓練的純強化學習路線令人震撼,從去年 12 月 Deepseek-v3 基座發展到如今堪比 OpenAI o1 的思維鏈能力,似乎是很快達成的事。

但在 AI 社區熱火朝天的讀技術報告、對比實測之余,人們還是對 R1 有所懷疑:它除了能跑贏一堆 Benchmark 以外,真的能領先嗎?

能自建模擬「物理規律」

你不信?來讓大模型玩玩彈球?

最近幾天,AI 社區的一些人開始沉迷一項測試 —— 測試不同的 AI 大模型(尤其是所謂的推理模型)來處理一類問題:「編寫一個 Python 腳本,讓一個黃色球在某個形狀內彈跳。讓該形狀緩慢旋轉,并確保球停留在形狀內。」

一些模型在這項「旋轉球形」基準測試中的表現優于其他模型。據 CoreView CTO Ivan Fioravanti 稱,國內人工智能實驗室 DeepSeek 的開源大模型 R1 完勝 OpenAI 的 o1 pro 模式,后者作為 OpenAI ChatGPT Pro 計劃的一部分,每月收費 200 美元。

圖片

左邊是 OpenAI o1,右邊是 DeepSeek R1。如上所述,這里的 Prompt 是:「write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square.」

根據另一位網友在 X 上的說法,Anthropic 的 Claude 3.5 Sonnet 和谷歌的 Gemini 1.5 Pro 模型對物理原理判斷錯誤,導致球偏離了形狀。也有用戶報告稱,谷歌最新的 Gemini 2.0 Flash Thinking Experimental,以及相對更舊的 OpenAI GPT-4o 都一次性通過了評估。

但這里面也是能分出高下的:

圖片

在這個推文底下的網友表示:o1 的能力原本很好,在 OpenAI 優化速度過后就變弱了,即使是每月 200 美元的會員版也一樣。

模擬彈跳球是一個經典的編程挑戰。精確的模擬結合了碰撞檢測算法,其算法需要去識別兩個物體(例如一個球和一個形狀的側面)何時發生碰撞。編寫不當的算法會影響模擬的性能或導致明顯的物理錯誤。

AI 初創公司 Nous Research 的研究員 N8 Programs 表示,他花了大約兩個小時從頭開始編寫一個旋轉七邊形中的彈跳球。「必須跟蹤多個坐標系,了解每個系統中的碰撞是如何進行的,并從頭設計代碼以使其具有魯棒性。」

雖然彈跳球和旋轉形狀是對編程技能的合理測試,但對于大模型來說還是個新項目,即使是提示中的細微變化也可能產生出不同的結果。所以如果想讓它最終成為 AI 大模型基準測試的一部分的話,還需要改進。

無論如何,經過這一波實測之后,我們對大模型之間的能力不同有了觀感。

DeepSeek 是新的「硅谷神話」

DeepSeek 正讓大洋彼岸陷入「恐慌」。

圖片

Meta 員工發帖稱「Meta 工程師們正在瘋狂地分析 DeepSeek,試圖從中復制任何可能的東西。」

而 AI 科技初創公司 Scale AI 創始人 Alexandr Wang 也公開表示,中國人工智能公司 DeepSeek 的 AI 大模型性能大致與美國最好的模型相當。

他還認為,過去十年來,美國可能一直在人工智能競賽中領先于中國,但 DeepSeek 的 AI 大模型發布可能會「改變一切」。

X 博主 @8teAPi 則認為,DeepSeek 并不是一個「副業項目」,而是像洛克希德?馬丁以前的「臭鼬工廠」。

所謂「臭鼬工廠」,就是當初洛克希德?馬丁公司(Lockheed Martin)為了研發諸多先進飛行器專門成立的一個高度機密、相對獨立的小團隊,從事尖端或非常規的技術研究與開發。從 U-2 偵察機、SR-71 黑鳥,到 F-22 猛禽、F-35 閃電 II 戰斗機都是從這里走出來的。

后來,這個詞逐漸演變成一個通用術語,用來形容在大公司或組織內部設立的「小而精」、相對獨立且自由度更高的創新團隊。

他給出的理由有兩個:

  • 一方面是 DeepSeek 擁有大量的 GPU,據稱有超過一萬塊,而 Scale AI 的 CEO Alexandr Wang 甚至表示可能達到 5 萬塊。
  • 另一方面,DeepSeek 只從中國排名前三的大學招聘人才,這意味著 DeepSeek 與阿里巴巴和騰訊具有同等的競爭力。

僅憑這兩個事實,就可以看出,顯然 DeepSeek 在商業上取得了成功,并且已經足夠知名,能夠獲得這些資源。

圖片

至于 DeepSeek 的開發成本,該博主表示,中國科技公司可以獲得各種各樣的補貼,比如低用電成本和用地。

因此,DeepSeek 非常有可能大部分成本都被「安置」在核心業務之外的某個賬目上,或者以某種數據中心建設補貼的形式存在。甚至除了創始人之外,沒人完全清楚所有財務安排。有些協議可能只是「口頭協定」,只靠聲譽就能敲定。

不管怎樣,有幾點是明確的:

  • 這個模型非常出色,與 OpenAI 兩個月前發布的版本相當,當然也有可能不如 OpenAI 和 Anthropic 尚未發布的新模型。
  • 從目前來看,研究方向仍主要由美國公司主導,DeepSeek 模型屬于對 o1 版本的「快速跟進」,但 DeepSeek 的研發進度非常迅猛,比預期更快地迎頭趕上,他們并沒有抄襲或作弊,最多只是逆向工程。
  • DeepSeek 主要是在培養自己的人才,而不是依賴美國培養的博士,這大大擴展了人才庫。
  • 與美國公司相比,DeepSeek 在知識產權許可、隱私、安全、政治等方面受到的約束較少,圍繞錯誤地使用那些不想被訓練的數據的擔憂也較少。訴訟更少,律師更少,也更少顧慮。

圖片

毫無疑問,越來越多的人認為 2025 年將會是決定性的一年。與此同時各家公司都在摩拳擦掌,比如 Meta 就正在建立一個 2GW+ 的數據中心,預計在 2025 年投資 600-650 億美元,年底擁有超過 130 萬塊 GPU。

Meta 甚至用一張圖表展示了 2 千兆瓦數據中心與紐約曼哈頓的對比。

圖片

但現在 DeepSeek 用更低的成本,更少的 GPU 做到了更好,怎能不讓人焦慮?

Yann LeCun:要感謝開源

Hyperbolic 的 CTO、聯合創始人 Yuchen Jin 發帖表示,在僅 4 天時間里,DeepSeek-R1 向我們證明了 4 個事實:

  • 開源 AI 僅落后于閉源 AI 不到 6 個月
  • 中國正在主導開源 AI 競賽
  • 我們正進入大語言模型強化學習的黃金時代
  • 蒸餾模型非常強大,我們將在手機上運行高智能 AI

圖片

由 DeepSeek 引發的連鎖反應仍在繼續,比如 OpenAI o3-mini 免費可用、社區中希望能減少關于 AGI/ASI 的模糊討論以及傳聞 Meta 陷入恐慌等。

他認為,現在很難預測最終誰會獲勝,但不要忘記后發優勢的力量,畢竟我們都知道是 Google 發明了 Transformer,而 OpenAI 解鎖了其真正潛力。

此外,圖靈獎得主、Meta 首席人工智能科學家 Yann LeCun 也表達了自己的看法。

「對于那些看到 DeepSeek 的性能就認為『中國正在超越美國的 AI』的人,你理解錯了。正確的理解是:開源模型正在超越專有模型。」

LeCun 表示,DeepSeek 之所以這次一鳴驚人,是因為他們從開放研究和開源(如 Meta 的 PyTorch 和 Llama)中獲益。DeepSeek 提出了新想法,并在他人工作的基礎上構建。因為他們的工作是公開發布和開源的,每個人都可以從中受益,這就是開放研究和開源的力量。

圖片

網友們的反思還在繼續,在對于新技術發展興奮的同時,也能感受到一點點憂慮的氣氛,畢竟 DeepSeek 們的出現,可能會帶來真金白銀的影響。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-25 09:13:16

2025-01-27 12:30:07

2025-04-14 09:15:00

英偉達模型數據

2025-03-10 08:10:00

AI研究安全

2024-12-26 17:13:17

AI模型訓練

2025-02-08 14:03:25

2025-02-12 12:12:59

2025-03-11 02:00:00

AI工具Token-AI

2025-02-20 15:32:28

2025-02-07 13:10:06

2025-02-03 14:17:27

2025-01-24 15:03:27

2025-02-27 00:00:05

2025-02-03 14:06:32

2025-02-17 09:33:00

AI算法模型

2019-11-18 21:57:32

AI人工智能寒冬

2013-08-13 09:22:53

2025-01-21 11:53:53

2025-02-20 09:11:28

2025-02-11 08:35:30

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩视频一区二区三区 | 国产一区二区三区在线免费 | 日韩视频一区 | 亚洲成人毛片 | 久久久久久久久久久福利观看 | 欧美日韩三级在线观看 | 蜜桃视频在线观看免费视频网站www | 精品久久久久久亚洲精品 | 欧美三级视频在线观看 | 欧美激情免费在线 | 国产一区二区高清在线 | 天天操一操 | 亚洲激情一级片 | 久久精品日产第一区二区三区 | 免费看a| 欧美在线a | 黄色成人亚洲 | 午夜视频在线播放 | 亚洲精品日韩一区二区电影 | 色婷婷影院| 91精品导航 | 一区二区视频在线观看 | 国产高清在线 | 成人免费在线电影 | 伊人伊成久久人综合网站 | 欧美天堂| 一区二区三区国产精品 | www.成人免费视频 | 日韩羞羞 | 欧美专区日韩专区 | h在线 | 精品国产欧美一区二区三区不卡 | 国产精品高潮呻吟久久av野狼 | 激情国产视频 | 亚洲免费观看视频网站 | 精品国产一区二区三区免费 | 天天操天天干天天透 | 日一日操一操 | 久久91| 91人人爽| 亚洲欧美国产一区二区三区 |