DeepSeek沖擊（含本地化部署實(shí)踐）

作者：姜海 2025-02-18 00:04:00

ChatGPT目前有兩種大模型，分別是面向普通用戶，解決日常應(yīng)用問(wèn)題的4-OMNI，以及面向?qū)I(yè)用戶，處理深度思考問(wèn)題的O1，DeepSeek與之對(duì)標(biāo)的分別是V3模型以及R1模型。

DeepSeek無(wú)疑是春節(jié)檔最火爆的話題，上線不足一月，其全球累計(jì)下載量已達(dá)4000萬(wàn)，反超ChatGPT成為全球增長(zhǎng)最快的AI應(yīng)用，并且完全開(kāi)源。那么究竟DeepSeek有什么魔力，能夠讓大家趨之若鶩，他又將怎樣改變世界AI格局和我們的生活，本篇文章將進(jìn)行簡(jiǎn)要解析。

DeepSeek與ChatGPT對(duì)比

說(shuō)到人工智能就不得不提OpenAI和ChatGPT，這是繞不開(kāi)的話題，要分析DeepSeek的實(shí)力，最簡(jiǎn)單的方式就是跟ChatGPT進(jìn)行對(duì)比。

模型分類

圖片

實(shí)用效果

據(jù)我目前的使用體驗(yàn)下來(lái)，DeepSeek的實(shí)際體驗(yàn)效果完全不輸ChatGPT，甚至在解決數(shù)學(xué)、物理和推理問(wèn)題方面表現(xiàn)出色，響應(yīng)速度比ChatGPT還要快，且能夠完整地展示其思考和給出答案的過(guò)程，例如最經(jīng)典的，讓絕大多數(shù)AI翻車的“1.11和1.9誰(shuí)大？”的問(wèn)題，ChatGPT給出的回答是：

圖片

前言不搭后語(yǔ)，而反觀DeepSeek：

圖片

可以看到DeepSeek不僅給出了正確答案，而且展示了詳細(xì)的解題思路，甚至有最后的驗(yàn)證。我也測(cè)試了許多其他的問(wèn)題，DeepSeek完全不拉垮，相對(duì)于ChatGPT，他在中文領(lǐng)域的問(wèn)題理解和處理更加到位，使用體驗(yàn)非常好。

這無(wú)疑也使得蘋(píng)果公司柳暗花明又一村，為彌補(bǔ)apple intelligence上在中國(guó)區(qū)無(wú)法使用ChatGPT提供了完美的解決方案。

成本

成本分為兩部分：硬件成本和訓(xùn)練成本。AI大模型構(gòu)建算法絕大部分都是基于公開(kāi)的論文，所以市場(chǎng)上的大模型，底層邏輯都大同小異，訓(xùn)練數(shù)據(jù)也來(lái)自于互聯(lián)網(wǎng)，所以主要的成本體現(xiàn)在硬件上，也就是提供AI算力的芯片，自從AI大爆發(fā)以來(lái)，大家的共識(shí)就是堆砌的芯片越多，大模型的表現(xiàn)就越優(yōu)秀。我先簡(jiǎn)單介紹一下為什么提升AI的性能就要堆砌大量的芯片。

AI算力的芯片領(lǐng)域是英偉達(dá)（Nvidia）一家獨(dú)大，芯片價(jià)格非常昂貴，目前該公司最先進(jìn)的B200芯片單張的價(jià)格就高達(dá)4萬(wàn)美金，而且對(duì)于AI公司來(lái)說(shuō)你還必須買，因?yàn)樾酒漠a(chǎn)能有限，如果你不搶就會(huì)被競(jìng)爭(zhēng)對(duì)手買走，導(dǎo)致你的大模型算力不如他的。

圖片

英偉達(dá)公司為自家的芯片研發(fā)了一種叫CUDA的核心的技術(shù)，其全名叫做Compute Unified Device Architecture（統(tǒng)一計(jì)算設(shè)備架構(gòu)）。

這是一種并行計(jì)算平臺(tái)和編程模型。開(kāi)發(fā)者通過(guò)它，可以間接利用GPU的處理能力，大幅提升計(jì)算性能。簡(jiǎn)單的說(shuō)，CUDA核心就像是一間間的海水提純工廠，它可以把如海洋般的GPU算力轉(zhuǎn)換成AI開(kāi)發(fā)者可以直接使用的AI算力，越多的CUDA核心數(shù)量就意味著更大的AI算力。

這也就是為什么AI行業(yè)越發(fā)展，芯片的需求量越大，英偉達(dá)的市值就越高。美國(guó)也多次通過(guò)英偉達(dá)“鎖算力”以及限制芯片出口，阻礙中國(guó)的AI發(fā)展。AI行業(yè)的發(fā)展被一家公司扼住喉嚨的現(xiàn)象顯然極度不合理，英偉達(dá)可謂是真正的萬(wàn)惡之源。

OpenAI不受限制，所以囤積了大量的英偉達(dá)芯片，訓(xùn)練ChatGPT據(jù)傳用到了5萬(wàn)張英偉達(dá)的芯片，而DeepSeek作為中國(guó)公司，在這方面相比自然相去甚遠(yuǎn)。

DeepSeek沖擊

由于CUDA技術(shù)被英偉達(dá)牢牢掌握，所以間接提高了所有AI大模型的使用成本，阻礙了AI的發(fā)展。以ChatGPT為例，4-OMNI和O1兩個(gè)大模型的研發(fā)成本高達(dá)數(shù)十億美金，免費(fèi)用戶使用有諸多限制，付費(fèi)用戶每月20美金，專業(yè)用戶每月200美金，如果企業(yè)想要接入OpenAI的人工智能服務(wù)，調(diào)用API做客服等用途，則更是按字符收費(fèi)，雖然比人工客服省錢，但也是一筆不小的開(kāi)銷。這些收入中，絕大多數(shù)都是用來(lái)平衡購(gòu)買芯片帶來(lái)的巨大成本。

DeepSeek之所以引起全球矚目，就是因?yàn)樗凇靶酒笔芟薜那疤嵯拢_(dá)到了與ChatGPT近似的使用體驗(yàn)，甚至在某些領(lǐng)域還遠(yuǎn)遠(yuǎn)超過(guò)了。OpenAI和它的母公司微軟囤積了大量的高端芯片，而DeepSeek手里的芯片，不論從數(shù)量還是質(zhì)量上都不占優(yōu)勢(shì)，甚至可以說(shuō)遠(yuǎn)遠(yuǎn)落后。

在深度解析DeepSeek開(kāi)源的模型代碼之后，研究人員發(fā)現(xiàn)，DeepSeek之所以能夠絕地反擊，秘訣就在于他繞過(guò)了CUDA核心的限制，使用了完全創(chuàng)新的技術(shù)訓(xùn)練大模型，直接利用英偉達(dá)的底層技術(shù)調(diào)用了GPU的算力，相當(dāng)于能直接使用如大海般的GPU資源，所以才能使用低端的芯片，在極短的時(shí)間內(nèi)完成了模型的訓(xùn)練，達(dá)到了與ChatGPT近似的效果。

而且此技術(shù)成功解除了AI模型對(duì)英偉達(dá)芯片的依賴，使DeepSeek可以使用華為的芯片進(jìn)行訓(xùn)練。DeepSeek服務(wù)調(diào)用的費(fèi)用只有ChatGPT的十分之一，具有非常高的性價(jià)比和廣闊的應(yīng)用前景。

整體來(lái)說(shuō)，DeepSeek用了很少的錢，很低端的工具，就把美國(guó)投入上百億美元的事給辦了。自從DeepSeek爆火之后，市場(chǎng)普遍認(rèn)為英偉達(dá)的芯片估值過(guò)高，要實(shí)現(xiàn)高性能的AI并不需要如此之貴的芯片，最高端的芯片也并不值那個(gè)價(jià)錢，這直接導(dǎo)致英偉達(dá)的股價(jià)當(dāng)天就暴跌17%，創(chuàng)造了美國(guó)股市歷史上單日最大跌幅，截至目前英偉達(dá)市值蒸發(fā)近6000億美元。

技術(shù)曝光的第二天，英偉達(dá)，微軟和亞馬遜的計(jì)算平臺(tái)都宣布接入DeepSeek模型，堪稱AI界的“斯普特尼克時(shí)刻”，就如同當(dāng)年蘇聯(lián)率先成功發(fā)射人造衛(wèi)星時(shí)一樣，讓一直以為自己在技術(shù)上遙遙領(lǐng)先的西方世界陷入了一片混亂，世界AI市場(chǎng)的格局就此改變。