后DeepSeek時代，大模型領域如何開工大吉

ceesoft

發布于 2025-2-5 17:14

瀏覽

0收藏

這個春節是DeepSeek的狂歡節，從R1發布到席卷全球僅不到兩周，霸占140多個國家AppStore下載排行榜榜首。

今日節后第一天開工，幾位朋友不約而同咨詢我大模型未來走向，這里簡單分享一下我的看法，拋磚引玉。

總結一句話：

大模型全棧都應圍繞DeepSeek做生態

重要的事情通常得說三遍，但這件事只需說一遍，卻無比重要，攸關資金、人力、時間等資源投入和業務創新與價值產出。

大模型全棧

這是筆者整理的大模型全棧：芯片 -> 編譯器 -> 設備 -> 大模型 -> Agent智能體。

后DeepSeek時代，大模型領域如何開工大吉-AI.x社區

每個方面的基本概念這里不贅述，萬事不決請DeepSeek，當一家公司把自己的名字做成動詞，都是神一樣的存在。

芯片與編譯器

這塊大部分讀者很陌生，我多說幾句。

筆者從事過幾年DB2 SQL編譯器與優化器的開發，C++代碼跑在AIX、HPUX、Linux、Windows、Sun Solaris等系統之上。

接觸過這些系統的讀者都知道，這意味著SQL需要一次編譯，卻能夠適配不同的芯片PowerPC、X86、X64、Sun Sparc，和不同的操作系統。

IBM DB2 做了芯片和操作系統層面的抽象，類似一個統一的虛擬的操作系統；SQL 被表征為有向無環圖DAG，圖中每個節點對應著不同的算子Operator。

SQL編譯器與優化器就是將這些DAG和算子翻譯成對操作系統和芯片的調用，并想盡一切辦法讓這些算子和DAG充分利用芯片和操作系統的資源（進程、線程調度，內存、磁盤與網絡IO），即所謂的優化。

后DeepSeek時代，大模型領域如何開工大吉-AI.x社區圖片

AI 的算法幾乎一回事，Pytorch、TF是封裝好了的DAG和算子，英偉達的CUDA作為編譯器優化器以及芯片和操作系統層面的抽象。

后DeepSeek時代，大模型領域如何開工大吉-AI.x社區

CPU 與 GPU有著不同的設計目標，CPU側重復雜邏輯控制，GPU側重并行。PTX是CUDA中最接近芯片硬件的并行編程模型和指令集。

如果你能夠做PTX級別的控制，意味著你可以自己編譯和優化你特定的DAG和算子，也就意味著你無需CUDA的編譯器和優化器就能夠適配國產GPU或其他什么xPU。

這里是英偉達CUDA城墻咔咔碎裂的聲音，DeepSeek崛起暴露Nvidia軟肋。如果 DeekSeek成為開源第一，芯片廠家都知道自己該干什么從而加入這個生態。

設備AIPC與AI手機

自從有了ChatGPT大模型，PC和手機大廠都在大張旗鼓的推銷自己的AIPC、AI手機。想法很好，可惜沒有能打的端側大模型。

量化縮小的大模型都損失了泛化能力，從而退化成了小模型，參考筆者的清熙其他文章。

而且沒有聯網的場景是如此的稀缺，以至于有人用南極科考站的隊員想在去往南極的科考船上，用端側大模型建議研究課題。可笑可憐。

現在有了能打的DeekSeek，但端側仍然還是demo演示層面的能力。當用戶可以隨時聯網用云端的全功能大模型能力的時候，端側不應該聚焦無聯網場景。

端側的優勢在于用戶設備上的隱私數據，得踏實想清楚用到隱私數據的端側功能，而且僅僅讓端側大模型充當意圖理解的部分，這里可參考最賺錢的大模型應用正呼嘯而來。

大模型本身

ChatGPT之后，國內群雄并起，兩年廝殺的結果是 DeepSeek此次的異軍突起。

國之幸事，世界幸事，全球科學家涌向DeepSeek，可能誕生一個超級世界模型，甚至一個DeepSeek為主干的智能互聯網。

筆者可以感受到幾家歡樂幾家愁。不僅OpenAI、Cloude、Gemini迎來最強對手，如臨大敵，國內的大模型公司同樣前途未卜。

每家都有存在的意義和價值，然而，后DeepSeek時代，他們似乎都錯過了全部正確答案。

筆者覺得，如果你有足夠的資金、足夠的人才、足夠的耐心、足夠的不同技術路線的信仰，你可以繼續投入訓練自己的大模型，但也要意識到，前路更崎嶇更陡峭。

上述因素只要有一項不足，筆者覺得，打不過就加入可能是個最現實的方向：把你原來模型的優勢蒸餾出來，注入DeepSeek，做垂直，做智能應用，做Model Store，做產業鏈服務。

后DeepSeek時代，大模型領域如何開工大吉-AI.x社區

企業可以部署DeepSeek到企業數據中心，把內部知識灌進去，讓DeepSeek更懂企業自己，然后開放賦能全員，注意不要考核降本增效。

還需關注，大模型時期的應用，需要按照人類自然溝通方式的新范式重新思考和設計，注重文本、圖像、音視頻的可聊、可視、可聽、可理解。

智能體Agent

做智能應用，還有一個繞不開的話題，智能體或Agent。著名的咨詢機構都這么講，盡管筆者覺得在大模型領域，他們也沒有什么好的經驗和洞察。

智能體通常是指以大模型理解為基礎，提供附加記憶、規劃、使用工具等能力，即所謂System2的能力，圖解LLM-Agent大模型智能體。

然而，如果大模型的理解能力不足，所有這些都是在沙地上建塔。所以DeepSeek給了所有智能體生的希望。

下圖是筆者常用來介紹智能體的用例，以人類客服話務員處理客戶撥入的服務電話為場景。存在多個不同層次的需求處理和相應的大模型智商要求。

后DeepSeek時代，大模型領域如何開工大吉-AI.x社區

設計此類智能應用的時候，還得考量目前大模型最最致命的缺陷，DeepSeek也不例外，就是無處不在、無時不有的幻覺。

幻覺某種意義上是大模型的高維度思維優勢，但不適合缺少足夠判斷力的小白用戶，至少目前如此。

降低大模型幻覺的必由之路筆者曾經理過思路，DeepSeek推理有了長足進步 GRPO 是DeepSeek魔法的源泉，然而幻覺并未消除，所以用戶得有足夠的判斷力，從代碼輔助到創意生成。

歸根結底一句話，大模型仍是一個師傅領進門的技術，修行還要在個人，特別適合有經驗的、或者愛學習鉆研的用戶。

免責聲明disclaimer

上述粗鄙的判斷都來自本人過去對AI和大模型的數學物理原理的探索和技術能力邊界的推演，因而難免帶著個人認知局限和偏見，有失偏頗。

關心大模型領域方向的讀者，請批判參考，謹慎制定符合自身資源稟賦的大模型戰略。戰略本質上是把資源（資金、人才、時間）投到什么上去，不能不慎重。

后DeepSeek時代，大模型領域如何開工大吉-AI.x社區圖片

上面這張圖是筆者過去兩年多圍繞大模型思考的凝練，涉及到大模型的能力邊界、未來走向、應用判斷都來自這個圖，目前為止還沒有大的誤判。

本文轉載自 ??清熙??，作者：王慶法

標簽

DeepSeek

大模型

數學

贊

回復

舉報

回復

相關推薦

大語言模型強化的多智能體如何使教育等關鍵領域受益？

AIGC最前線 ? 4025瀏覽 ? 0回復
大模型開始進入收益遞減的時代？

lintoms ? 2699瀏覽 ? 0回復
剖析特定領域大模型

lintoms ? 2783瀏覽 ? 0回復
ACL 2024 | 提升大模型持續學習性能，哈工大、度小滿提出共享注意力框架SAPT

輕薄滴假象 ? 2973瀏覽 ? 0回復
ACM最新論文戳破大公司「開源」謊言，GenAI時代到底如何定義「開源模型」

duhorse ? 2497瀏覽 ? 0回復
LLooM：大語言模型時代文本聚類新思路

大語言模型論文跟蹤 ? 4647瀏覽 ? 0回復
淺談—領域模型訓練

NLP工作站 ? 2546瀏覽 ? 0回復
當你研究過了900個開源大模型項目后，你能學到什么？

魚蟲子 ? 2280瀏覽 ? 0回復
撤出OpenAI后，蘋果繼續潑冷水：大模型不會推理。科技界炸鍋：大模型只會檢索拼湊答案

51CTO技術棧 ? 2511瀏覽 ? 0回復
對想從事大模型領域的技術開發者的建議或看法

AI探索時代 ? 2509瀏覽 ? 0回復
DeepSeek-VL2開源，VLM邁入MoE時代！

xuxiangda ? 3437瀏覽 ? 0回復
大語言模型時代的協作策略綜述

AIRoobt ? 3826瀏覽 ? 0回復
醫學領域大模型與多模態大模型的綜合調查

知識圖譜科技 ? 2621瀏覽 ? 0回復
DeepSeek 爆了，普通人如何3小時完全從0訓練自己的大模型

玄姐聊AGI ? 7177瀏覽 ? 0回復
強化學習與大模型后訓練：DeepSeek R1 如何獲得推理能力？

lintoms ? 4828瀏覽 ? 0回復
DeepSeek算力平權后端側AI和Agent智能體迎來爆發

數字化助推器 ? 2408瀏覽 ? 0回復
后 DeepSeek R1 時代：從資本壁壘到技術普惠

Baihai_IDP ? 2165瀏覽 ? 0回復
DeepSeek爆火后的新Scaling Law究竟是什么？

51CTO技術棧 ? 2111瀏覽 ? 0回復
大模型時代，如何跟上節奏？

唐克 ? 515瀏覽 ? 0回復

ceesoft

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

后DeepSeek時代，大模型領域如何開工大吉

大模型全棧都應圍繞DeepSeek做生態

大模型全棧

芯片與編譯器

設備AIPC與AI手機

大模型本身

智能體Agent

免責聲明disclaimer

目錄