后DeepSeek時代,大模型領域如何開工大吉
這個春節是DeepSeek的狂歡節,從R1發布到席卷全球僅不到兩周,霸占140多個國家AppStore下載排行榜榜首。
今日節后第一天開工,幾位朋友不約而同咨詢我大模型未來走向,這里簡單分享一下我的看法,拋磚引玉。
總結一句話:
大模型全棧都應圍繞DeepSeek做生態
重要的事情通常得說三遍,但這件事只需說一遍,卻無比重要,攸關資金、人力、時間等資源投入和業務創新與價值產出。
大模型全棧
這是筆者整理的大模型全棧:芯片 -> 編譯器 -> 設備 -> 大模型 -> Agent智能體。
每個方面的基本概念這里不贅述,萬事不決請DeepSeek,當一家公司把自己的名字做成動詞,都是神一樣的存在。
芯片與編譯器
這塊大部分讀者很陌生,我多說幾句。
筆者從事過幾年DB2 SQL編譯器與優化器的開發,C++代碼跑在AIX、HPUX、Linux、Windows、Sun Solaris等系統之上。
接觸過這些系統的讀者都知道,這意味著SQL需要一次編譯,卻能夠適配不同的芯片PowerPC、X86、X64、Sun Sparc,和不同的操作系統。
IBM DB2 做了芯片和操作系統層面的抽象,類似一個統一的虛擬的操作系統;SQL 被表征為有向無環圖DAG,圖中每個節點對應著不同的算子Operator。
SQL編譯器與優化器就是將這些DAG和算子翻譯成對操作系統和芯片的調用,并想盡一切辦法讓這些算子和DAG充分利用芯片和操作系統的資源(進程、線程調度,內存、磁盤與網絡IO),即所謂的優化。
圖片
AI 的算法幾乎一回事,Pytorch、TF是封裝好了的DAG和算子,英偉達的CUDA作為編譯器優化器以及芯片和操作系統層面的抽象。
CPU 與 GPU有著不同的設計目標,CPU側重復雜邏輯控制,GPU側重并行。PTX是CUDA中最接近芯片硬件的并行編程模型和指令集。
如果你能夠做PTX級別的控制,意味著你可以自己編譯和優化你特定的DAG和算子,也就意味著你無需CUDA的編譯器和優化器就能夠適配國產GPU或其他什么xPU。
這里是英偉達CUDA城墻咔咔碎裂的聲音,DeepSeek崛起暴露Nvidia軟肋。如果 DeekSeek成為開源第一,芯片廠家都知道自己該干什么從而加入這個生態。
設備AIPC與AI手機
自從有了ChatGPT大模型,PC和手機大廠都在大張旗鼓的推銷自己的AIPC、AI手機。想法很好,可惜沒有能打的端側大模型。
量化縮小的大模型都損失了泛化能力,從而退化成了小模型,參考筆者的清熙其他文章。
而且沒有聯網的場景是如此的稀缺,以至于有人用南極科考站的隊員想在去往南極的科考船上,用端側大模型建議研究課題。可笑可憐。
現在有了能打的DeekSeek,但端側仍然還是demo演示層面的能力。當用戶可以隨時聯網用云端的全功能大模型能力的時候,端側不應該聚焦無聯網場景。
端側的優勢在于用戶設備上的隱私數據,得踏實想清楚用到隱私數據的端側功能,而且僅僅讓端側大模型充當意圖理解的部分,這里可參考最賺錢的大模型應用正呼嘯而來。
大模型本身
ChatGPT之后,國內群雄并起,兩年廝殺的結果是 DeepSeek此次的異軍突起。
國之幸事,世界幸事,全球科學家涌向DeepSeek,可能誕生一個超級世界模型,甚至一個DeepSeek為主干的智能互聯網。
筆者可以感受到幾家歡樂幾家愁。不僅OpenAI、Cloude、Gemini迎來最強對手,如臨大敵,國內的大模型公司同樣前途未卜。
每家都有存在的意義和價值,然而,后DeepSeek時代,他們似乎都錯過了全部正確答案。
筆者覺得,如果你有足夠的資金、足夠的人才、足夠的耐心、足夠的不同技術路線的信仰,你可以繼續投入訓練自己的大模型,但也要意識到,前路更崎嶇更陡峭。
上述因素只要有一項不足,筆者覺得,打不過就加入可能是個最現實的方向:把你原來模型的優勢蒸餾出來,注入DeepSeek,做垂直,做智能應用,做Model Store,做產業鏈服務。
企業可以部署DeepSeek到企業數據中心,把內部知識灌進去,讓DeepSeek更懂企業自己,然后開放賦能全員,注意不要考核降本增效。
還需關注,大模型時期的應用,需要按照人類自然溝通方式的新范式重新思考和設計,注重文本、圖像、音視頻的可聊、可視、可聽、可理解。
智能體Agent
做智能應用,還有一個繞不開的話題,智能體或Agent。著名的咨詢機構都這么講,盡管筆者覺得在大模型領域,他們也沒有什么好的經驗和洞察。
智能體通常是指以大模型理解為基礎,提供附加記憶、規劃、使用工具等能力,即所謂System2的能力,圖解LLM-Agent大模型智能體。
然而,如果大模型的理解能力不足,所有這些都是在沙地上建塔。所以DeepSeek給了所有智能體生的希望。
下圖是筆者常用來介紹智能體的用例,以人類客服話務員處理客戶撥入的服務電話為場景。存在多個不同層次的需求處理和相應的大模型智商要求。
設計此類智能應用的時候,還得考量目前大模型最最致命的缺陷,DeepSeek也不例外,就是無處不在、無時不有的幻覺。
幻覺某種意義上是大模型的高維度思維優勢,但不適合缺少足夠判斷力的小白用戶,至少目前如此。
降低大模型幻覺的必由之路 筆者曾經理過思路,DeepSeek推理有了長足進步 GRPO 是DeepSeek魔法的源泉,然而幻覺并未消除,所以用戶得有足夠的判斷力,從代碼輔助到創意生成。
歸根結底一句話,大模型仍是一個師傅領進門的技術,修行還要在個人,特別適合有經驗的、或者愛學習鉆研的用戶。
免責聲明disclaimer
上述粗鄙的判斷都來自本人過去對AI和大模型的數學物理原理的探索和技術能力邊界的推演,因而難免帶著個人認知局限和偏見,有失偏頗。
關心大模型領域方向的讀者,請批判參考,謹慎制定符合自身資源稟賦的大模型戰略。戰略本質上是把資源(資金、人才、時間)投到什么上去,不能不慎重。
圖片
上面這張圖是筆者過去兩年多圍繞大模型思考的凝練,涉及到大模型的能力邊界、未來走向、應用判斷都來自這個圖,目前為止還沒有大的誤判。
本文轉載自 ??清熙??,作者: 王慶法
