成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

后 DeepSeek R1 時代:從資本壁壘到技術(shù)普惠 原創(chuàng) 精華

發(fā)布于 2025-3-5 10:12
瀏覽
0收藏

編者按: AI 落地又一次迎來拐點了嗎?當(dāng)模型蒸餾技術(shù)能以零頭成本復(fù)刻頂尖 AI 性能,傳統(tǒng)巨頭的商業(yè)壁壘是否已形同虛設(shè)?

我們今天為大家?guī)淼奈恼拢髡叩暮诵挠^點是:以深度求索(DeepSeek)R1 模型為代表的高效推理技術(shù),正在顛覆 AI 經(jīng)濟的底層規(guī)則,推動行業(yè)進入“輕量化革命”時代。

文章重點圍繞三大話題展開:

  1. R1 模型的革新性訓(xùn)練方案:通過純強化學(xué)習(xí)的 R1-Zero 生成合成數(shù)據(jù),結(jié)合三重獎勵機制,使模型以極低推理成本實現(xiàn)與 OpenAI 相仿的性能。
  2. 模型蒸餾的行業(yè)沖擊:小型蒸餾模型(如 7B 參數(shù))通過知識遷移能夠超越 GPT-4o,徹底瓦解頭部實驗室的資本護城河,迫使 OpenAI 等巨頭轉(zhuǎn)向消費級產(chǎn)品或基礎(chǔ)設(shè)施服務(wù)。
  3. 邊緣 AI 的終極愿景:本地設(shè)備推理(如三臺 Mac Studio 集群部署)與能力密度定律的指數(shù)級演進,或?qū)⒔K結(jié)云端依賴,催生免費 AI 應(yīng)用與超高毛利率的新商業(yè)模式。

技術(shù)迭代的速度正在以“百天減半”的節(jié)奏改寫規(guī)則。當(dāng)輕量化模型讓智能觸手可及,這場革命不僅關(guān)乎技術(shù)效率,更是一場關(guān)于“誰將主宰未來 AI 生態(tài)”的無聲博弈。

作者 | Akash Bajwa

編譯 | 岳揚

我們傾向于將人工智能的發(fā)展劃分為兩個截然不同的時代:2022 年 11 月 ChatGPT 發(fā)布前的"前 ChatGPT 時代"和其后的"后 ChatGPT 時代"。

而 2025 年 1 月或許將成為人工智能經(jīng)濟模式發(fā)生根本性變革的轉(zhuǎn)折點。

01 限制催生創(chuàng)新

1 月 20 日,中國人工智能實驗室深度求索(DeepSeek)發(fā)布了首款推理模型 R1。此前在 2024 年 12 月 26 日,該實驗室剛推出擁有 671B 參數(shù)的稀疏混合專家模型 V3,該模型在推理時激活參數(shù)為 37B。

后 DeepSeek R1 時代:從資本壁壘到技術(shù)普惠-AI.x社區(qū)

V3 模型成為了當(dāng)時的最佳“開源”模型,而 R1 模型僅以極低成本就實現(xiàn)了與 OpenAI o1 模型近乎相當(dāng)?shù)耐评硇阅堋?/p>

后 DeepSeek R1 時代:從資本壁壘到技術(shù)普惠-AI.x社區(qū)

后 DeepSeek R1 時代:從資本壁壘到技術(shù)普惠-AI.x社區(qū)

美國的半導(dǎo)體出口管制政策正迫使深度求索(DeepSeek)等中國 AI 實驗室(包括面壁智能、智譜AI、MiniMax、月之暗面、百川智能、零一萬物、階躍星辰等)在模型效率優(yōu)化領(lǐng)域持續(xù)創(chuàng)新突破。

后 DeepSeek R1 時代:從資本壁壘到技術(shù)普惠-AI.x社區(qū)

Moonshot’s Kimi k1.5

事實上,如果我們對中國實施制裁以限制其獲取算力資源,結(jié)果是否反而賦予了他們一個需要突破的約束條件?這種約束會促使他們思考:"如何讓每一單位的計算能力(FLOP)都產(chǎn)生最大的智能效果(IQ)?" 最終他們總能找到巧妙的解決方案,用更少的資源實現(xiàn)更大的突破。

——納特·弗里德曼(Nat Friedman)[1]

如果將人才成本和研究/實驗成本計算在內(nèi),訓(xùn)練這些模型的成本自然超過了 V3 模型宣稱的 560 萬美元(約 280 萬 GPU 小時)的投入[2]。

即便如此,相較于大型 AI 實驗室(無論是開源還是閉源實驗室),這些成果的計算效率還是非常高的。

要預(yù)判這些技術(shù)進步會通過怎樣的路徑對社會、行業(yè)或技術(shù)生態(tài)產(chǎn)生更深層的影響,關(guān)鍵是要先理解這些模型的訓(xùn)練順序。

早在 2024 年 5 月,深度求索(DeepSeek)就發(fā)布了 V2 模型,這個模型不僅成本低于 Llama 3 70B,性能也更優(yōu)。

后 DeepSeek R1 時代:從資本壁壘到技術(shù)普惠-AI.x社區(qū)

Source: SemiAnalysis

DeepSeek 的 V3 模型發(fā)布于去年 12 月,而 R1 模型則于 1 月 20 日剛剛發(fā)布。R1 被用于 V3 的后訓(xùn)練階段,但真正引人注目的是 R1 獨特的訓(xùn)練方案。

R1 模型的訓(xùn)練依賴于 R1-Zero 生成的合成數(shù)據(jù)。R1-Zero 是一個完全通過強化學(xué)習(xí)(無監(jiān)督微調(diào))訓(xùn)練而成的獨立推理模型。其訓(xùn)練機制包含:

  1. 輸入要素:
  • 待解決問題(數(shù)學(xué)、編程、邏輯題)
  1. 雙重獎勵機制:
  • 結(jié)果正確性:"答案是否正確?"
  • 過程規(guī)范性:"解題步驟是否符合標(biāo)準(zhǔn)格式?"

通過純粹的試錯機制,R1-Zero自發(fā)形成了三類涌現(xiàn)能力,如深度思考能力(產(chǎn)生"頓悟時刻",主動延長思考時間)、自我糾錯能力(出現(xiàn)"等等,我再檢查一遍"的反思行為)、多步推理能力(能自主拆解復(fù)雜問題為多個推理步驟)。

現(xiàn)在進入R1的訓(xùn)練流程:

  1. 冷啟動監(jiān)督微調(diào)(Cold Start SFT):向 R1 輸入 R1-Zero 生成的合成推理數(shù)據(jù),以及其他未公開的模型的合成數(shù)據(jù)。
  2. 大規(guī)模強化學(xué)習(xí)(Large-Scale RL):使用答案正確性 + 格式規(guī)范性(如強制使用\/\
  3. 拒絕采樣(Rejection Sampling):過濾 R1 的輸出,將推理能力與通用技能(寫作能力、常識處理等)融合。
  4. 最終強化學(xué)習(xí)(Final RL):將推理質(zhì)量技術(shù)指標(biāo)(如步驟完整性、結(jié)論準(zhǔn)確性)和人類偏好指標(biāo)(實用性、安全性)相結(jié)合。

當(dāng) V3 發(fā)布時,許多人都覺得它很有趣:

后 DeepSeek R1 時代:從資本壁壘到技術(shù)普惠-AI.x社區(qū)

DeepSeek 模型開源的是其模型權(quán)重,因此我們無法追溯其訓(xùn)練數(shù)據(jù)來源。可以合理推測,訓(xùn)練 V3 和/或 R1 所需的某些合成數(shù)據(jù)確實源自 OpenAI 的模型。

由于模型蒸餾的低門檻,使用其他模型的合成數(shù)據(jù)來訓(xùn)練新模型是一種必然的情況。

但還有一種理論認為:任何優(yōu)勢都可能被競爭淘汰,真正重要的是行業(yè)能獲得多少關(guān)注度 —— 如果你能每天登上所有新聞媒體的頭條,當(dāng)加入并從中分一杯羹的進入門檻足夠低時,供應(yīng)鏈中任何明顯的利潤空間都會被徹底榨干。尤其是在軟件領(lǐng)域,這種準(zhǔn)入門檻低到離譜,以至于隨便一家公司都可能突然殺進來搶奪蛋糕。我認為如果創(chuàng)業(yè)門檻是必須搭建化學(xué)實驗室才能開展 AI 研究的話,情況會完全不同。

Daniel Gross[1]

沒錯,當(dāng)你開拓技術(shù)前沿時,本質(zhì)上是在為“先發(fā)劣勢”買單 —— 因為你必須構(gòu)建那些容易被復(fù)制的昂貴模型。不過這里有個有趣的類比:就像人類一樣,聰明人通過成長和學(xué)習(xí)理解世界運作規(guī)律,這個過程其實就是在蒸餾前人積累的知識體系 —— 那可是包含了整個人類文明百萬年智慧結(jié)晶的巨大模型。我們每個人本質(zhì)上都在做相同的事。現(xiàn)在的 AI 模型同樣在通過互聯(lián)網(wǎng)數(shù)據(jù)進行知識蒸餾。

Nat Friedman[1]

后 DeepSeek R1 時代:從資本壁壘到技術(shù)普惠-AI.x社區(qū)

DeepSeek 隨后基于 MIT 開源許可證發(fā)布了 6 個蒸餾模型:基于 Alibaba Qwen 2.5(14B、32B、Math 1.5B 和 Math 7B)的版本和基于 Llama 3(Llama-3.1 8B 和 Llama 3.3 70B Instruct)的版本。

這些模型通過 R1 生成的 80 萬條高質(zhì)量樣本進行微調(diào),使小型模型習(xí)得大模型的推理范式。

這些微型(7B 參數(shù)量級)蒸餾模型最終實現(xiàn)了對 GPT-4o 的性能超越,將智能獲取成本大幅降低至 OpenAI 長期追求的水平 —— 這正是這些成果之所以具有劃時代意義的原因。

對大型 AI 實驗室而言,資本與規(guī)模曾是護城河。預(yù)訓(xùn)練一個最先進的模型需要耗費數(shù)十億美元的計算資源和數(shù)據(jù)成本,更不用說支付頂尖研究人員的天價薪酬(前提是你能招到他們!)。全球僅有少數(shù)企業(yè)能承擔(dān)這種量級的資本支出和人才投入。當(dāng)創(chuàng)新需要如此巨額的投入時,商業(yè)化收費便成為必然選擇。

然而,模型蒸餾技術(shù)正在改寫游戲規(guī)則。推理模型的蒸餾難度也同樣(甚至可能更低)較低。這說明:任何組織都能以極低的成本(僅為原始投入的零頭)對耗資數(shù)十億打造的最先進復(fù)雜模型進行知識蒸餾,最終獲得性能相近的自有模型。 這究竟意味著什么?

用最悲觀的視角看,頭部 AI 實驗室正在為全球提供免費的外包研發(fā)和資本支出服務(wù)。以定價為例:OpenAI 的 o1 模型收費高達 15 美元/百萬input token 和 60 美元/百萬output token,而 DeepSeek R1 模型的對應(yīng)成本僅為 0.14 美元/百萬 input token 和2.19美元/百萬output token —— 相差了好幾個數(shù)量級。

Jamin Ball[3]

由于我們無法獲知訓(xùn)練 R1 模型所用合成數(shù)據(jù)的具體構(gòu)成比例,關(guān)于其中包含多少(或是否包含) o1 模型生成的 token 數(shù)據(jù)只能進行推測。但這一技術(shù)路線已展現(xiàn)出多重革命性影響。

根據(jù)月之暗面(Moonshot)與深度求索(DeepSeek)的最新研究成果,還有一些關(guān)鍵突破,包括:

  • 訓(xùn)練與推理搜索范式革新:不同于 o1 宣稱的推理階段搜索機制(inference time search),R1 與 k1.5 模型轉(zhuǎn)向更高效的預(yù)訓(xùn)練強化學(xué)習(xí)路徑。這些模型能在訓(xùn)練過程中習(xí)得隱式搜索策略,從而避免在推理階段進行復(fù)雜搜索。
  • 過程獎勵模型(PRMs)演進:這些新型模型不再依賴推理過程中每一步的精細化反饋,而是更側(cè)重結(jié)果導(dǎo)向的獎勵機制。雖然仍會對單步推理進行反饋評估,但不再需要顯式訓(xùn)練獨立的獎勵模型。
  • 長思維鏈到短思維鏈的知識蒸餾:Kimi 創(chuàng)新性地提出"long2short"方法,將長上下文模型中習(xí)得的推理能力遷移至更高效的短上下文模型。這有效解決了實際應(yīng)用痛點 —— 長上下文模型運行成本高昂,將其知識蒸餾至更輕量、更快速的模型具有重要商業(yè)價值。這正是 R1 模型成功實現(xiàn) Qwen 與 Llama 系列模型蒸餾的技術(shù)基礎(chǔ)。

另一家專注邊緣 AI 的中國公司面壁智能(ModelBest)也取得了關(guān)鍵突破[4]。其聯(lián)合創(chuàng)始人劉知遠提出大模型能力密度定律(Densing Law of Large Models),揭示模型能力密度隨時間呈指數(shù)級增長的規(guī)律。

能力密度(Capability Density)定義為:給定大語言模型的有效參數(shù)規(guī)模與實際參數(shù)規(guī)模的比值。 例如,若某 3B 參數(shù)模型能達到 6B 基準(zhǔn)模型的性能,則該模型能力密度為 2(6B/3B)。

根據(jù)大模型能力密度定律:

  • 每 3.3 個月(約 100 天),實現(xiàn)同等能力所需的模型參數(shù)規(guī)模減半
  • 模型推理成本隨時間大幅下降
  • 模型訓(xùn)練成本隨時間快速降低
  • 大模型能力密度呈現(xiàn)加速提升態(tài)勢
  • 模型微型化揭示邊緣智能的巨大潛力
  • 模型壓縮技術(shù)無法提升能力密度
  • 能力密度倍增周期決定模型的"有效期"

舉個例子,2024 年 2 月發(fā)布的 2.4B 參數(shù)模型,其能力已與 2020 年發(fā)布的 GPT-3(175B 參數(shù))持平。

這些 AI 實驗室產(chǎn)出的研究成果正在引發(fā)深遠的技術(shù)變革。

02 前沿模型融資現(xiàn)狀

模型蒸餾技術(shù)的底層邏輯建立在"教師模型-學(xué)生模型"的知識傳遞機制上。

"星際之門"計劃(Stargate)疊加科技巨頭們披露的資本支出預(yù)測,共同揭示著前沿模型訓(xùn)練與推理所需的基礎(chǔ)設(shè)施投資強度。

這場 6000 億美元[5]量級的豪賭,其勝敗本質(zhì)上取決于能否創(chuàng)收。

對于任何前沿 AI 實驗室而言,在缺乏穩(wěn)健商業(yè)模式支撐的情況下持續(xù)維持所需量級的資本投入,將面臨前所未有的挑戰(zhàn)。

以 OpenAI 為例,據(jù)傳其年度營收預(yù)期已達 40-50 億美元并保持強勁增長。按科技公司發(fā)展規(guī)律,此階段的企業(yè)應(yīng)至少保持三位數(shù)的年增長率,這意味著該公司未來營收規(guī)模將很快突破百億美元門檻。

Brad Gerstner

但若模型的防御性因模型蒸餾技術(shù)而瓦解,且技術(shù)折舊周期縮短,AI 實驗室如何持續(xù)募集維持投資所需的資金?

這正是我們此前討論過的[6] —— 前沿實驗室紛紛向產(chǎn)品型公司轉(zhuǎn)型的根本動因。

后 DeepSeek R1 時代:從資本壁壘到技術(shù)普惠-AI.x社區(qū)

從 DeepSeek 登頂應(yīng)用商店榜單這一事件可見,技術(shù)遷移成本之低遠超預(yù)期 —— 這迫使大模型廠商必須在兩條道路中做出戰(zhàn)略抉擇:要么轉(zhuǎn)型為消費級科技公司(OpenAI 顯然已經(jīng)是這樣),要么深耕企業(yè)級基礎(chǔ)設(shè)施(正如 Anthropic 必然選擇依托亞馬遜生態(tài))。

后 DeepSeek R1 時代:從資本壁壘到技術(shù)普惠-AI.x社區(qū)

03 蒸餾垂直領(lǐng)域大模型

模型蒸餾技術(shù)為訓(xùn)練垂直領(lǐng)域模型提供了明確路徑。若 R1-Zero 所采用的"純強化學(xué)習(xí)+前沿 AI 實驗室合成數(shù)據(jù)"模式可規(guī)模化推廣,低成本推理模型的產(chǎn)業(yè)化道路將暢通無阻。

一個值得關(guān)注的創(chuàng)新方向是:將這類高性能、低成本的模型與各領(lǐng)域?qū)<业母哔|(zhì)量人工標(biāo)注相結(jié)合。

諸如 Mercor、Labelbox 等專業(yè)標(biāo)注平臺已為 OpenAI、Meta 等頭部實驗室提供專家標(biāo)注服務(wù) —— Mercor 的人才庫中有 30 萬名領(lǐng)域?qū)<摇?/p>

后 DeepSeek R1 時代:從資本壁壘到技術(shù)普惠-AI.x社區(qū)

Source:Mercor

除了開發(fā)垂直領(lǐng)域模型的應(yīng)用開發(fā)商外,坐擁私有數(shù)據(jù)資產(chǎn)的企業(yè)或?qū)⒅匦录ぐl(fā)對模型訓(xùn)練的熱情,這為 MosaicML(隸屬 Databricks 生態(tài))等訓(xùn)練平臺提供商帶來新機遇。

04 邊緣 AI 與應(yīng)用利潤重構(gòu)

將 DeepSeek R1 進行 4-bit 量化后,模型運行僅需 450GB 總內(nèi)存 —— 通過 3 臺配備 192GB 內(nèi)存的 Apple M2 Ultra Mac Studio(單臺售價 5,599 美元,總成本 16,797 美元)即可實現(xiàn)集群部署。

若大模型能力密度定律持續(xù)生效,本地推理的終極愿景將成為現(xiàn)實。SaaS 廠商可通過終端設(shè)備本地推理保持高利潤率,同時向用戶收取訂閱費用。

更革命性的突破在于:當(dāng)前開發(fā)者無法真正提供免費 AI 應(yīng)用,因為必須預(yù)估云端推理的累計成本并設(shè)計盈利方案。這正是訂閱制等笨拙商業(yè)模式盛行的根源。若蘋果能推出 Apple Intelligence SDK 實現(xiàn)設(shè)備端本地推理,開發(fā)者將首次能夠提供完全免費的 AI 應(yīng)用 —— 目前這根本不可行,因為沒人能承受不可預(yù)測的云端推理成本。

Chris Paik

模型蒸餾+路由技術(shù)已使應(yīng)用型 AI 公司的毛利率超越傳統(tǒng)軟件的毛利率。相比兩年前,當(dāng)今開發(fā)者的模型推理成本已下降 100-200 倍,這種成本曲線陡降速度在云計算 15 年的發(fā)展史上都前所未見。我們在 2022 年投資了初代 AI 應(yīng)用公司,當(dāng)時前沿模型的推理成本高達 15-20 美元/百萬 token。而現(xiàn)在,通過智能路由系統(tǒng)將基礎(chǔ)任務(wù)分配給小模型,企業(yè)推理成本趨近于零,特定任務(wù)的毛利率可達 95%。

Chetan Puttagunta

亞馬遜的 Nova 模型表明,他們正全力投入到模型的商品化進程中,而蘋果終于能借蒸餾模型實現(xiàn)技術(shù)追趕。

未來數(shù)月,DeepSeek 引發(fā)的模型輕量化浪潮必將催生大量追隨者。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the author

Akash Bajwa

Principal @ Earlybird Venture Capital, investing across Europe from inception onwards.

END

本期互動內(nèi)容 ??

?0.14 美元/百萬 input token 和 2.19 美元/百萬output token 的 R1 推理成本構(gòu)成中,你認為哪部分壓縮空間最大?

??文中鏈接??

[1]??https://stratechery.com/2025/an-interview-with-daniel-gross-and-nat-friedman-about-models-margins-and-moats/??

[2]??https://x.com/nabeelqu/status/1882842953728827426??

[3]??https://x.com/jaminball/status/1881718692956016713??

[4]??https://docs.google.com/document/d/1x3FM01NDdXvvQTbkaJlPhyfBoBAFpE3E60tMe_ZlUH8/edit?tab=t.0??

[5]??https://www.sequoiacap.com/article/ais-600b-question/??

[6]??https://akashbajwa.substack.com/p/vertical-integration-model-vs-product??

原文鏈接:

??https://akashbajwa.substack.com/p/the-post-r1-world??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 一区二区三区久久久 | 亚洲综合大片69999 | www.天天操.com | 久久精品视频网站 | 韩国av电影网| 一区二区三 | 久久久久国产一区二区三区四区 | 人干人人| 免费看黄视频网站 | 色天天综合 | 国产一极毛片 | 久久网一区二区 | 99精品一区二区三区 | 秋霞精品 | ww亚洲ww亚在线观看 | 亚洲免费网 | 羞羞的视频在线看 | 天天射天天干 | 91网站在线观看视频 | 亚洲国产二区 | 日韩在线中文字幕 | julia中文字幕久久一区二区 | 青春草在线 | 久久久久久久99 | 久久99久久| 亚洲va国产日韩欧美精品色婷婷 | 999久久久久久久久6666 | 午夜在线观看视频 | 天天色影视综合 | 亚洲精品一区在线 | 日韩精品在线一区 | 91亚洲精品在线 | 国产精品色哟哟网站 | 日韩一区二区三区av | 精品一二 | 亚洲欧美日韩一区二区 | 精品一区二区久久久久久久网站 | 日韩精品免费一区二区在线观看 | 亚洲综合大片69999 | 亚洲乱码国产乱码精品精的特点 | 羞羞网站免费 |