作者 | 云昭
嘉賓 | 黃新平、譚中意
出品 | 51CTO技術棧(微信號:blog51cto)
“人生不無聊,有太多變化,太多好玩的事情發生。”
的確,近期圍繞DeepSeek的新發布實在太多了,亂花漸欲迷人眼。從春節期間企業搶先宣布接入DeepSeekR1、繼而接入滿血版R1,到DeepSeek一體機的出圈,再到國民應用微信的接入,潮潮迭起。可以說,從B端到C端,幾乎徹底沸騰了。
“幾乎所有做智能體的公司都很興奮,尋找落地機會,還有做企業級應用、知識庫的公司也在適配,這些都是能賺錢的領域。DeepSeek讓適配變得容易,是因為它采用了多專家路由,并且平衡了計算、通信和存儲之間的關系。這些都為未來半導體產業指明了方向。”
在AI和半導體領域持續創業的黃新平對于DeepSeek所帶來的機會,做出了非常樂觀的判斷,言語間充斥著創業者獨有的興奮和期待。
同樣,親身經歷了百度、騰訊、第四范式等國內IT基礎設施10余年變化的譚中意,更是對DeepSeek帶來的機會高度認可:我們現在處于AI Infra新一代的起飛前夜。
不過“起飛”不是一句空談,背后有無數已知或未知的難題有待探討。
3月11日,51CTO獨家技術訪談欄目《AI實戰派》有幸與算力自由創始人黃新平、中國開源推進聯盟的常務副秘書長譚中意進行了2個小時的對話,我們從DeepSeek的生態朋友圈聊起,探討了很多AI Infra創業中,那些“開放但又必須回答”的問題。
比如,在各家OEM廠商適配DeepSeek過程中,有哪些獨創性空間?黃新平舉了一個硬件互聯的例子。硬件互聯不僅涉及硬件,更多還是軟硬件一體的配置的問題。“以CPU設計為例,CPU的緩存空間和計算單元,以及包括通信的配比,都是非常秘密的一件事情。基本上都是花了無數代價,才能找到一個合適的配比,從而做出一個合適的芯片。”
此外,回顧過去中國基礎架構不斷更迭的20多年,譚中意總結出一個AI Infra的價值鐵律——“只有AI應用的流量起來了,底層 AI 基礎設施的價值才會真正體現出來。”
再比如,關于AI Infra創業“如何擺脫純賣API不掙錢、找到PMF”的問題,兩位老師提到了破局的癥結,即AI Infra的價值—— “人是為價值而付費的,不是為資源付費。”黃新平還給出了一個很好的打法:
“比如AI生成圖片,用戶文生圖生成了一張圖可能只需要花幾分錢到一毛錢,但是如果你拿這張圖去幫設計師去交付了一個東西,你可能就會賺到100-200塊錢,這時候那你的定價一定不是用幾毛錢來定價的,而是用那100到200塊錢去定價,這時候你才找到了你的PMF。”
大模型時代瞬息萬變,接下來的3到5年,AI Infra的視野又會是什么格局?
嘉賓們統一認為,“性能要上去,成本要下來”將是這段時間的主旋律。譚中意判斷,未來3年可能并不會出現革命性的東西,數據飛輪和實時性都難以達到,重點工作依舊是新有能力的進一步提升,比如更高效率的訓練,更低成本、更大容量的推理。
然而,這并不意味著不會有新的范式出現。黃新平判斷,也許在未來,通信互聯架構方面,包括像內存池這樣的技術,也許會出現新的計算范式。而在訓練層面上,顯然 AI Infra 是朝著大機方向去的,而在推理層面上可能會變成更多的異構計算。
“歷史是循環的,從大機拆成小機,現在又用小機聚合成大機。”因為,更快的互聯技術,就意味著可以在一個相對大一點的分布式計算系統,性能是能上去的。
黃新平對于中國AI Infra的互聯技術的突破滿懷期待。“互聯部分,國內外差距尤其大。國內的NVLink沒有,IB(InfiniBand)也沒有,而英偉達其實已經不滿足于現狀,開始對硅光互聯進行研究,還有谷歌奔著800G、1.6T這樣的互聯速度去前進。所以這一塊的話,國內還有很大的空間可以做,我判斷互聯這個層面上可能會進步更快。”
潮水涌來,人們總是首先將目光投向一夜爆火的AI應用。但殊不知,與之成長與進化的AI Infra,也正在開啟新的創業故事。
“即便我們判斷未來趨于漸進式發展而非革命性變化,但有需求就會有人去做。”
料還很多,還有很多關于諸如百度、騰訊、愛奇藝、英特爾、谷歌這些知名企業在過去20余年的潮落潮起的取舍敘事,可謂妙趣橫生。
篇幅原因,下面是整理的訪談內容,供諸位閱讀。
DeepSeek的中國、國際朋友圈正在形成
AI實戰派:DeepSeek作為大家看好的生態,它的朋友圈都有哪些,又會擴大到哪些領域呢?
譚中意:我最近寫了一篇博客,稱 DeepSeek為國運級創新,不是因為它在技術創新上能與 transformer 或 GPT4 相提并論,而是在于它在短短兩個月內就在國內外達成了初步的產業共識,這是前所未有的。我將它的生態圈分為四層。最底層是基石層或基礎設施層,包括 GPU、CPU、操作系統、網絡硬件、IDC 一體機等。第二層是云服務層,涵蓋公有云、私有云以及 Maas 等服務廠商。第三層是企業軟件層,像用友、金蝶等做的 ERP、CRM、BI 軟件以及行業軟件,它們紛紛用 DeepSeek增強自身功能。第四層是甲方軟件層,甲方將 DeepSeek集成到自研業務中,主要用于提升效率。目前來看,DeepSeek在生態圈內已經初步形成了產業共識,國內外的知名云廠商除了谷歌外,都支持它,芯片廠家也都宣稱支持,軟件廠商更是如此。我覺得生態圈的形成特別有意思,它已經成為了事實標準。
黃新平:我這里從時間維度來說。首先是國內服務廠商迅速跟進,各大廠商的速度之快超乎想象,他們迅速推出服務。因為 DeepSeek開源且是 MIT license,不受限制,廠商們不缺資源和人,能快速搭建應用,服務更多用戶。接著是國產芯片廠商迅速表態,生怕落后,都宣布完成適配。然后是各地反思為什么DeepSeek沒有出現在本地。之后是一體機 OEM 廠商行動起來,發揮傳統優勢制造一體機,但我認為一體機不僅僅是硬件,更多是要解決端到端的問題,目前還遠未達到這個層次。長遠來看,幾乎所有做智能體的公司都很興奮,尋找落地機會,還有做企業級應用、知識庫的公司也在適配,這些都是能賺錢的領域。
DeepSeek讓適配變得容易,是因為它采用了多專家路由,并且平衡了計算、通信和存儲之間的關系。這些都為未來半導體產業指明了方向。按照這個方向去做是沒有錯的。我認為半導體產業會發生變化,從半導體層面的優化來看,尤其是通信庫這一塊可能會有人重寫。像剛才提到的 3FS 這樣的東西,未來會變得更加通用。它現在是為了訓練而設計的,未來會在更通用的層面上做更多適配和應用場景的開發,也會有人去做這些工作。我覺得這對 AI 推理領域是比較重大的影響。
譚中意:補充一下,我覺得在上層應用層,影響也非常大。在 DeepSeek 出現之前,國內是沒有可以用的,因為效果好的 LLM 例如 Claude 在國內是不能落地的。但 DeepSeek 不僅開源,還在國內通過了注冊,是一個合規可用的產品。所以基于 DeepSeek 進行 Agent 開發,把上限打開了,降低了難度,讓大部分應用開發人員非常高興,因為他們終于可以在各個場合使用這種高性能的大模型,不用擔心部署和合規問題。
AI Infra的演進逃不開價值鐵律:只有流量起來了,Infra的價值才會真正體現出來
AI實戰派:AI Infra經歷了哪幾個階段,DeepSeek之后發生了哪些變化?
譚中意:好,我簡單回顧一下。首先,AI 推理最早是從谷歌的三篇文章開始的,那三篇文章介紹了大規模分布式存儲和計算是什么樣子的,然后 Hadoop 就出現了。在國內最早采用的是百度和騰訊。百度在2009年開始研究,2011年成立第一個基礎架構部。這是第一代 Data Infra,主要特征是大規模分布式存儲和計算,主要用于離線計算,給商業分析人員生成分析報告。主要的技術棧是 MapReduce、HDFS,再加上 HBase。雖然當時 MapReduce 很慢,但大家也能忍著用,因為業務確實需要。這是第一代 Data Infra 基礎設施,它是為大數據準備的,還不能稱之為 AI 基礎設施。
直到2011年、2012年深度學習開始火起來,各大搜索廠商開始把搜索算法從最初的邏輯回歸切換到深度學習模型算法,對底層數據和計算的要求更高了。推薦也越來越往前走,尤其是抖音出現后,大家更明白推薦要有好效果,必須跟實時數據相結合。這時候我覺得已經進入到了 AI 基礎設施的第一代,也可以稱之為基礎設施的第二代。它主要的場景是給搜索、廣告和推薦服務,相對于第一代大數據infra的不同在于它加了很多實時計算的內容。實時計算就是當時 AI 推理的主要工作,我在第四范式的時候也廣泛調研和參與了 AI 推理的相關研究。AI 推理主要保證機器學習從訓練到推理階段的數據高質量供給和一致性,這其實是最具挑戰性的。當時也出現了一堆創業公司,像tecton等,這些創業公司其實都是在整個 pipeline 里提供高效的數據供給。這一代最有代表性的大公司是 DataBricks,它的看家本領就是實時計算和批處理階段的東西。這是 AI 基礎設施的第一代。
然后大模型出來了,這時候 AI 基礎設施的主要工作是支持大模型的訓練。但能干這個活的公司不多,廣大研發人員其實很尷尬,因為應用場景沒有起來,流量也沒有起來,干活也插不上手,主要是因為大模型的能力還沒有達到商業可用,用戶不買單,這是一個很郁悶的階段。
直到現在,終于有一個開源的、性能不錯且成本低的模型出來了,這時候廣大應用開發人員終于可以去擁抱新的大模型了,然后可以轉型成為大模型應用開發人員。他們一轉型,應用起來了,流量就上來了,各種各樣的需求就出現了,對底層 AI 基礎設施的要求也從訓練變成了大規模推理,怎么去扛流量、怎么去做穩定性這些事情。之前大家可以看到,有些大廠會說服務經常被拒絕,但除了 OpenAI 之外,其他都沒有,因為各家流量都沒起來。現在只有 DeepSeek出來之后,發現流量真的起來了。而只有流量起來了,底層 AI 基礎設施的價值才會真正體現出來。因為這時候你對底層 AI 基礎設施的所有調優都會直接轉化為成本的縮減、性價比的提升。
之前,大批AI Infra的研發人員是沒有用武之地的,因為沒有流量,但現在流量起來了,AI Infra提升一點就能省很多錢,這時候廣大 AI 基礎設施研發人員也就有用武之地了。
AI實戰派:很透徹。因為現在有流量、有數據,可以看到底層調優后數據有多大提升,成就感立馬就來了。
譚中意:Infra始終是跟流量打交道的,流量不出來、上不到一個等級,你的技術價值就體現不出來。因為同樣的應用,扛十萬的 QPS 和扛百萬的 QPS,架構完全是不一樣的。
重賞之下有勇夫:接下來從業者的核心側重點需要重新定義
AI實戰派:對于從業者來說,大模型時代以后,他的核心競爭力是不是要重新定義一下?
黃新平:這個確實不太一樣。大概從 AI 剛開始興起的時候,我一開始做這一塊,第一件事其實是服務于公司內部的開發人員,那些科學家。當時 GPU 很貴,他們基本上一人占一臺,環境很難處理,數據也不容易拷貝上來。所以我在愛奇藝進去第一件事就是要優化這一塊的使用,做的第一件事就是資源池化,先把 GPU 池化管理起來,然后能夠動態調度訓練任務和開發任務,這樣能達到節省成本的效果。
很快 AI 就要進入應用了,最早的時候是訓練,然后在后面的話,搜廣推是最有價值、最有用處的一塊。當時最早的時候,線性回歸這些模型的效果跟深度模型效果差別還是很大的。當時愛奇藝一年的主要收入其實來源于廣告,接近百億級別。而當時我們看到像谷歌的 DeepMind 那樣,它號稱能夠提高10%的效果,那10%的效果就意味著十個億,重賞之下必有勇夫。然后當時我們團隊里面就把推理速度優化了一下,因為上了深度模型,它推理速度就不行。從你打開界面到看到廣告一共是100毫秒的時間,給深度模型做推理的時間,99%要在25毫秒之內完成。當時Wide&Deep 因為是個深度模型,跑下來要50多毫秒,最后優化到7個毫秒左右,這個東西就變成可用的了。
還有一個就是數量方面,因為愛奇藝日活在比較好的時候,是在一個億左右,每天對外推送的廣告推送服務量是萬億次的級別,所以這個龐大的集群在底下去服務著,你的效率一點點提升,省下來的就是成百上千臺服務器。推理的價值就體現出來了。
AI實戰派:那大家都用上大模型之后,您認為是提升推理速度還是其他方面更為重要?
黃新平:我覺得推理速度其實就表明了你的成本。現在大模型除了能力之外,還有成本。大模型要推廣,首先要能解決問題,我覺得這個基礎能力現在是有的。但對于復雜的應用,其實不是簡單一個模型就能解決所有問題,它往往需要梳理整個 TOB 的業務流程,在其中找到大模型可以發揮作用的部分,這一部分是需要比較漫長的開發過程,也比較昂貴。這是能力方面。
第二部分就是成本,你一定要成本足夠低,它才能夠體現出更好的價值。成本其實來源于軟硬件兩方面的優化。一方面,軟件的模型結構,像現在的 MOE 這樣的結構,其實使推理成本大幅度降低。如果你的優化加上硬件的發展,幾條加起來,可能不是簡單的摩爾定律那樣一倍一倍的提高,而是指數級的提高。成本大幅度下降之后,就會釋放出巨大的使用空間。
AI實戰派:那硬件方面,底層適配這塊呢?
黃新平:適配是一塊。除了英偉達的 GPU 本身對國內是禁運的,現在看起來比較好的,比如671B 的參數,正常配置是 H20 的141G 的。一個八卡機才能完整地推這個滿血版,但 H20 的141G 其實在邊緣上,很有可能就會被禁,更高檔的完全是沒有的。所以這一塊的話,國產芯片必須要跟上來。現在國產芯片很多完成了功能適配,能跑,但有些國產芯片其實跑的不是滿血版,跑的是蒸餾版的更小的,沒有實際價值。真正跑到滿血版的時候,性能必須達到跟國際相當的水平。
你的硬件已經設計成這樣了,那你就要學習 DeepSeek開源的做法,在自己的硬件特性上,實現動態任務調度、高速通信、負載均衡等。這些事情需要去寫算子、寫底層的東西,有時候國產芯片還沒有公開文檔,所以只有他們自己才能做。
適配DeeepSeek的商家很多獨創性空間在哪里?
AI實戰派:第三個問題。既然商家都在適配,那現在的技術差異性體現在哪,獨創性的空間在哪兒?
譚中意:好的。目前做適配的主要是芯片廠家,而使用這些適配成果的主要是云服務廠家。我覺得基礎差異主要體現在芯片設計和網絡組織條件上。而最大的差異點其實就是性能和成本。同樣是滿血版的配置,你用什么樣的芯片來支撐,成本是多少,能提高多大的QPS,延遲又是多少呢?我們可以來看一個極致的例子,DeepSeek公司自己在最后一篇論文中提到,他們用H800搭建的集群,服務ROI達到了545%,這是將它所有性能極致的地方都加進去后的結果,其實已經做到天花板級別了。以此為參考,你能做到多少呢?
譚中意:據傳它是用1000多張H100卡來支撐同樣的量,你能不能稍微差一點,用2000張卡就能扛住同樣的流量,或者用更便宜的卡來扛更多的流量呢?這其實就是拼實力的問題。拼實力就在于你怎么去理解DeepSeek的模型架構,怎么把性能、存儲和計算針對這種場景調得更好。我覺得在技術上,各家有各家的做法,但最終還是要看成本和性能上的PK。
能活下去的廠商,現在看芯片廠家那么多,之前大家都各說各的好,說各自的算子有什么特點,但現在說實話,有了一個統一的benchmark,DeepSeek服務,那么在這個服務上你能做到多少,服務集成廠家心里就有數了,能給我什么樣的成本,能跑什么價格,能跑什么性能。如果跑不起來,那么可能兩年、三年后這個公司就出局了。
AI實戰派:性能指標方面,大家能形成一定的共識嗎?
譚中意:我覺得還是要看大廠的指標,因為目前很多公開測試的數據,說實話都是帶有一定水分的。尤其是甲方,就是芯片廠家提供的數據。但最嚴格的測試一定是大批量采購芯片的廠家做的,例如騰訊和字節,因為誰是騾子誰是馬,一遛就清楚了。如果跑不起來,真的就跑不起來。
黃新平:我從幾個方面說。一方面,適配既體現了技術,也體現了生態,這兩個都有。在生態方面,咱們國產芯片里有一些是擴大兼容的。從擴大兼容這個層面來說,按照道理,它的適配會變得容易一些,能跑起來是沒問題的。而非擴大兼容部分,通常你就要去寫相應的算子。做運行時態的適配要難得多,這是從功能上適配。從性能上來說,我看完DeepSeek第六篇論文之后,我不覺得現在國內有哪家芯片可以做到這個水平。
因為實際上,大家可能很少會直接去看論文。原來很多的優化是我跑一個模型,用一個模型來承接一系列的請求,如果有更多的請求,就跑更多的模型,來實現分布式或者并發,也就是擴張的做法。但其實DeepSeek第六篇論文完全不是這樣子的。它是把里面的每一個小專家拆出來,每一個計算單元拆出來,在所有的卡里面均勻分布。它是在上面做這種底層的每一步運算的控制,甚至在最底層的attention部分還分成了兩個,所以它已經細致到每一個層、甚至幾個算子的調度都非常精細。這種精細來源于它對任務均分的方式,盡可能讓每個任務運行的時間都差不多,然后再給任務切分的時候盡可能切分得一致,從而充分保證整個流水線被填滿。這對計算能力的評估、對計算通信的時間評估、對時間掩蓋的控制,以及對里面很多細節部件的控制要求都非常高。而且它是跨節點的,包括跨節點之間的大規模細粒度控制,對于通信部分的要求特別高。
首先來講,咱們國內的芯片到現在為止還沒有能夠跟NVLink對標的東西。如果沒有,你就彈性不起來。在節點和節點之間還好,大家都可以用IB,但是你的GPU直接支持又成為另外一個問題。原來很多是沒有的,就變成了我在操作系統層面上要做一次轉接,那這樣你的可控程度就遠不行了。所以在這方面,我覺得在大規模承接能力上,現在還沒有做到,還是非常大的一個挑戰。所以各家所謂的適配,現在還是適配到我單獨跑一個模型,把一個模型都布在里面,至于效率如何,我不知道,反正它能跑就行。我壓榨性能也就壓榨到此為止。在中間其實有很多部件的浪費,現在是完全沒辦法優化到那個層次的。這既耗費技術資源,也耗費大家在上面花的時間和耐心。因為原來做這個圈子里的人才也非常罕見,而且非常貴。
AI實戰派:既然這么難,那我怎么找到真正屬于自己的獨創空間呢?剛才聊到大家都在一個性能基礎上跑評分,跑不贏的可能就被淘汰。他們會不會找一些自己差異的地方來彌補。
黃新平:還是有的。比如原來大家在硬件互聯這一塊其實是比較難的,它其實不光是硬件,是軟硬件一體的配置。原來做CPU設計或者做處理器設計的時候,它的緩存空間和計算單元,以及包括通信的配比,都是非常秘密的一件事情。基本上都是花了無數代價,才能找到一個合適的配比,從而做出一個合適的芯片。這是原來大家都做不到的,當然其實各家在這個上面也有各自的側重。國產有一些芯片的顯存特別大,做到96G或者更大,有的直接就上高速顯存HBM,這種帶寬比較寬的顯存,這都是它的特色。在這種特色之下,其實你要花心思把DeepSeek的結構細拆下來。你不一定非得像DeepSeek第六篇論文一樣拆成那樣才能做到最好,而是要靠自己去摸索一條獨有的路,把自己的性能提起來。也許有一種可能是,我不一定要比老虎跑得快,我只要比你跑得快就行。
國產廠商的適配DeepSeek:不要只看新聞稿
AI實戰派:現在我們能發現一個有趣的現象:R1適配國產芯片的速度挺快的,但像其他的推理模型,用國產芯片就很難做到。原因是是什么?
譚中意:不是R1去適配國產芯片,而是國產芯片去適配R1。因為國產芯片在底層做了自己的芯片設計、優化、驅動和算子,所以它可以根據DeepSeek開源模型所涉及的各種算子來進行調優。而且DeepSeek的模型權重、推理代碼和模型結構都是開源的,所以適配起來會比較容易。反過來,讓DeepSeek的工程師去適配國內各種芯片,這個活兒沒法干。假設我們將阿里通義的模型拿出來,口碑相當不錯,但你要去讓它適配各種CPU/GPU芯片,這成本太高了,不合適。
AI實戰派:對,我覺得容易理解一些。因為千問本身也是Transformer架構,但百度的模型架構雖然和它同源,肯定也有一些自己的東西。
譚中意:所以說我覺得這個事情就在于,如果模型是基于某種架構,比如Llama架構,而芯片已經支持llama架構,那么適配起來會比較容易。就怕有些算子沒有覆蓋到,在你的芯片上跑得很差,導致整個性能很弱。所以我覺得還是應該讓開源模型成為設計標準和產業共識,讓其他國產芯片去適配它,然后在甲方和乙方之間進行部署。如果反過來讓模型去適配各種芯片,成本太高,不合適。
AI實戰派:為什么DeepSeek自己不去適配一些芯片,然后形成一個標準?
黃新平:我覺得從兩個層面上來說,在過往的芯片適配上,大部分其實都是奔著訓練場景去的,訓練場景的適配要遠難于推理場景。DeepSeek出來之后,大家第一時間適配的是它的推理場景,因為在那之前,那些新模型的推理并沒有什么轟動效應,你做了也就是做了,然后說我們適配了拉馬,更多的是在訓練場景。推理其實做得也就這么一說,形不成效應。這是一個層面,就是訓練和推理的難易程度不同。
然后其實大模型時代的適配已經比以前簡單太多了,因為我做過卷積神經網絡(CNN)那一塊的適配,非常難。因為你會有前處理、后處理,會有很多非標準算子的東西,還有圖形學的東西,而國內的芯片都不是像英偉達GPU那樣既有圖形處理又有AI計算的算子,你只能靠CPU去算,那很痛苦。而且各自還會出一些所謂的奇技淫巧,比如我覺得這個算子不太好,我自己寫一個算子,把幾個算子融合起來改一改,然后再寫一個新算子出來,那就會導致這個東西又不行,又得重寫。寫完了之后,你的精度適配等方面都會有問題。但其實現在推理已經變得更簡單了,所以這次適配就會變得比較簡單。這是另外一個層面。
我覺得很多芯片廠商第一時間說他們適配了很多,但其實大部分都是小模型級別的適配,并沒有真正滿血適配。真正滿血適配的還是比較少。你想,顯存都不夠,還有沒有這個別的,你當時還沒有K-Transformer的加持,這個能力頂多也就是做個單卡的,做個14B、7B、14B的,反正能適配。很多芯片廠商只是在新聞稿里說他們適配了很多,但你不要看他說了什么,要看他沒說什么。他沒有說我適配了多少B的模型,那通常是個很小的模型。他說我適配了滿血版,他沒有說每秒處理多少個tokens的速度,這個說明他的性能不行。而且那個水很深,你的上下文開多大什么之類的,這都會嚴重影響性能,他都不會去說。所以剛才譚老師說的,你得看大廠內部的驗收報告,不能看PR報告。
開源免費的產品很多,PMF有新解?為價值而付費,非為資源付費
AI實戰派:評論區有個問題,如何為開源模型快速構建有生命力的開源生態?
黃新平:這個問題太大了。
譚中意:這個問題就是怎么為開源模型設計一個開源生態。但我覺得開源生態不是設計出來的。像英特爾,甚至像微軟,他們也說要設計一個開源生態,但做不出來。開源生態的成功都是趕在一個比較好的時間點,再加上一個巧妙的策略設計,再加上生態的合作伙伴一起共同努力長出來的。所以開源生態我覺得很難說,有人問華為砸1000個億能不能砸出來第二個DeepSeek,答案是很難。因為每一個成功的開源生態都有它自己的天時地利人和的背景。我們能做的事情,可能只能是做一些規劃,然后遵循一些基本實踐,最后能不能真正做出來,還得看時機對不對。
AI實戰派:現在開源免費的產品已經很多了,包括DeepSeek、千問。對于基礎設施層來說,這一類產品的PMF跟之前的時代相比,是不是有新解?
AI實戰派:首先我們先說,AI這一類產品,PMF是怎樣一個現狀,有沒有解。因為大家都知道做MaaS的話,基本上像包括云廠商其實都不掙錢,能保證持平就已經很難了。那對于這一類產品來說,有沒有什么好的想法?
黃新平:我覺得但凡你有很好的想法就可以出去創業了,這真的是一個世界性的難題。總體來看的話,我覺得這塊就是,當你現在所做的事情還是在用你的資源價格來定價,或者利用你的BOM(物料清單)這些東西來定價的時候,你是沒有什么利潤空間的,這個時候其實是找不到所謂的PMF的。當你創造的東西是以它創造的價值來定價的時候,這時候才真正有。比如AI生成圖片,我文生圖生成了一張圖,可能只需要花上幾分錢到一毛錢,但是如果你拿了這個圖去,你是設計師去交付了一個東西,你可能賺到100到200塊錢,那你的定價一定不是用幾毛錢來定價的,而是用那100到200塊錢去定價,這時候你才找到了你的PMF。我覺得基本想法就是這樣。
AI實戰派:那么這個算力應該包裝成什么樣的價值呢?
黃新平:如果真正去做,這真是個生態。一定要讓別人在這個生態里都賺到錢。就像我剛才補充的,因為我之前在英特爾負責過英特爾的軟件生態。英特爾在生態層面上其實是做得非常好的,源于他的江湖地位,他當時CPU的占有率是非常高,99%點幾的市場占有率。所以英特爾當時內部有一句話,凡是計算都是英特爾的。所以他在這個地位上,就是要推廣,盡可能讓所有東西納入計算這個范疇來。所以英特爾做生態有一件事情就是讓大家在這個生態里都賺到錢。一個生態健康發展是在各個層級上,每個層級都能在這個生態里生存,甚至生存得很好,這就是一個良好的、健康的生態。所以你如果要做,就是要讓別人在里面賺到錢,讓專業有分工,每個人做自己層次上的事情,這樣才能形成一個良好的生態。當最上游接觸到用戶,拿到以用戶的價值定價的物品的時候,它會把整個價值往下傳導,一直傳到Infra這一層上來。
譚中意:黃老師講得挺好的。人是為價值而付費的,不是為資源付費。如果為資源付費的話,你的利潤空間非常小。
譚中意:目前我覺得在AI Infra這個領域還沒有出現大規模創業機會就在于沒有產品化、沒有標準化。沒有產品化、沒有標準化的話,都還是大廠內部的特定的一些軟件和系統,很難進行產品化對外形成商業公司。所以我覺得可能目前還沒有Ready。
很多做AI Infra的開發人員,現在感覺還沒到創業的時候,先在大廠里蹲著吧!蹲了兩年,等標準化了、產品化了,那時候就可以出來了。我覺得可以。
AI實戰派:黃老師怎么看?
黃新平:我們做了先行者,在前頭探探路。
譚中意:這塊的話,首先還得有業務場景出來。當年搜廣推能夠持續優化,就在于搜廣推的收入是巨大的。只有這么一個高價值的商業場景,才能支撐起一個龐大的算法和工程團隊。
AI實戰派:首先得先讓他看到能賺錢,然后你才能談省成本的事。
黃新平:沒錯。
AI實戰派:譚老師,所以您認為未來還得等兩年才能出現一個成型的機會。
譚中意:我不是說現在不能做,而是說大規模的創業機會出現可能在兩年之后。但先做的人有先發優勢,就在于他對這個市場的迭代和認知會更深。當機會出現的時候,他有先發優勢。你知道,就像炒股似的,現在不好,你不能說兩年后再進場。你現在可以先練一練,先把一些坑給占住。
聯邦學習、中心化訓練,路線迥異如何看
AI實戰派:因為市面上技術路線也挺多的,在開播之前也聊了一些像超算、智算等技術路線。業內有中心化訓練、聯邦學習兩種主流方式。那現在兩位老師是如何看待這些路線的?
黃新平:我覺得從訓練技術這個層面上來說,其實DeepSeek在這方面給了一個巨大的變化。這個變化就在于原來大家需要堆卡,順勢堆十萬卡、二十萬卡,像星際之門那樣往上堆。它帶來的一個問題是什么呢?其實你知道,堆到萬卡的時候就出現了一個巨大的困難。在英偉達的方案里,它端到端的那根線,不能超過50米。也就是說,你要在一個50米的范圍內放上一萬張卡。電力、散熱都會成為巨大的挑戰。當你做不到的時候,那就意味著你的通信效率會下降。大家知道,在大規模并行計算的時候,有一條定律叫阿姆達爾定律,是說你的串行部分制約了你的增速比。如果你90%都是串行計算,只有10%是并行計算,那你最好的效果就是讓那10%全砍掉,一秒鐘都不要花時間算完,那你還需要90%的時間來算,那你的整個增速比是非常小的,沒有什么用,你加了很多臺機器,一點用都沒有。
黃新平:所以要把串行的部分減到越少越好。這就是為什么在各個大型的訓練場景里,一定要優化它的通信的原因。那在原來堆卡的情況下,就意味著你的通信占比要控制得很小,是非常難的事情。因為你想想,你每臺機器有八塊卡,里面再插 8 個IB的網卡,然后你幾個的話就把一個32口或者64口的IB交換機就占滿了。然后你當有多層要占滿,又要分二層、三層,每加一層交換機,你肯定就會有額外的負擔,而且點到點之間的連接就不再是一對一了,就會有跳距離了。那你在調度上要考慮這些調度算法,所以那個東西其實越往上,它的工程難度越來越大。就是這種Scalability(可擴展性)其實是整個非常難的。然后DeepSeek用了一個很便宜的價錢來做,是因為它是按照MOE(Mixture of Experts,混合專家模型)每一個專家去訓練的。這樣的話,每個expert很小,它不需要那么大的東西,也許就像剛才說的分布式訓練成為了一種可能,不需要一萬卡都堆在一個房間里,然后可以分機房,可以分得更遠一點,也許成了一種可能。這是從訓練層面上的。當然,袁老師(硅基流動創始人)也說了,99.9%的算力都花在推理上。
黃新平:那推理就變成了另外一個需要去做的事情。原來大家覺得推理沒啥,無非就是拿一個模型,跑完了以后再擴展一個模型。但DeepSeek告訴你,我把里面每個小部件拆出來,統一混在一起進行推理,這就給大家這一塊帶來了無限的想象力,所以這一塊其實是一個很大的變化。從技術層面上,能看到推出了一些新的東西,在推理路線上,其實都帶來了一些新的可能性。
黃新平:其實不是說你想不到那個東西,而是你要把里面每一個算子或者幾個算子組成一個團,然后動態地去調度,那你的調度的復雜度,而且你的整個工具,你要有很多工具,你要知道它到底花了多長時間,調優達到最好的一個結果。你往往在做一件事情的時候,你要具備很多的周邊能力,這些能力其實構建是比較難的。
AI實戰派:所以,大多數人基本上堆不動卡了。
黃新平:是的,又貴,然后又耗電,然后在中國還有一點,供應也有難度。
譚中意:我覺得這個問題其實對于工程師來說,更多的是關于如何學習新的技術,才能保證自己不落伍。現在我覺得目前AI的Infra領域是百花齊放的。目前能看到的很多相關的一些項目,都還處于比較早期的階段。我覺得有幾個判斷是可以參考下的。第一個就是看大廠背書,像DeepSeek這種開源的大模型所使用的。第二個看這個項目的開發者友好程度和迭代速度。一個開源項目,如果它的開發者友好做得很差,很難上手,那肯定用的人少。
第二個,看它的迭代速度。如果迭代慢,那么肯定它也適應不了這種AI的快速發展。所以說一般來說,在這種快速增長的領域內的開源項目,我要去選擇的話,我肯定會選第一個是大廠背書的、有大廠在用的。第二個就是它自己的社區真的很活躍,發版也快,然后上手也快的。我們能看到一些項目,像ollama長得很快,Dify漲得也很快,第一個是它們有大廠背書,第二個是社區活躍,迭代速度快,上手容易。
黃新平:我再補充一點。我認為如果從從業者的角度來看,應該以不變應萬變。一定要把基礎打扎實。其實在分布式計算、性能優化等領域,我做了這么多年,可以毫不客氣地說,編譯器20年來沒有什么新理論,唯一的新理論就是SSA(靜態單賦值),除此之外沒有什么特別新的理論。所以很多理論都是已經非常成熟的了。當你沒有基礎能力的時候,你看不透這些東西,會覺得什么都新鮮;但當你有了扎實的基礎,你會發現萬變不離其宗,那些優化手段、那些基本的東西在起作用。所以一定要打好自己的技術基礎,積累好自己的技術功底和工具。
三年內不會有有革命性的東西,但新范式有望產生
AI實戰派:接下來就是我們要討論的未來3年、5年、10年的一個設想或展望。
黃新平:我覺得譚老師比我更有發言權,我對未來沒什么特別的想象力。
譚中意:首先我覺得 AI Infra 說到底還是為 AI 業務服務的。我們可以做個簡單判斷,AI 的大模型業務在未來3年、5年內能發展到什么程度。我覺得未來3年內,它做的事情還是現有模型能力的進一步提升,以及現有模型的推理進入到各個企業的具體環節,比如怎么更高速地訓練,怎么以更低的成本、更大容量地進行推理。我覺得未來3年可能不會出現更革命性的東西,像數據飛輪和實時性,我覺得在未來3年還很難達到。所以我覺得未來3年左右要做的事情,可能還是如何更好地利用芯片,如何更好地進行大規模訓練和存儲,把成本降得更低。
黃新平:因為我看過一些半導體相關的技術,包括那些超出現在范疇的技術。通常來看,其實都還在3到5年內很難落地。比如存內計算、基于量子的計算方式等,都非常難,很難成為主流。我覺得剛才一再強調通信的重要性,也許在未來,通信架構方面,包括像內存池這樣的技術,比如CXL Memory(假設為某種技術)等,也許會出現新的計算范式,這是可能實現的。它不是一個革命性的,更多是演進性質的技術。未來也許會變成這樣一個場景:通過自動化調度、自動化負載均衡,以及更好的負載均衡算法,不再需要切分計算長度大小,而是通過任務動態調度的方式,也許能做到這一點。總體來看,還是朝著譚老師說的方向發展,即性能要上去,成本要下來。
AI實戰派:做基礎架構,必須有前瞻性地看接下來的3年。那么AI Infra接下來的演變速度會不會比之前的Infra更快一些?
黃新平:如果我們關注性能或者從這個角度來看的話,其實半導體這塊基本上我個人認為是快要走到頭了。因為現在都是四納米,而整個性能提升,從理論上來說有兩個部分構成:一個是半導體的制程,另一個是半導體設計的微體系架構。總體來看的話,就像英偉達的B200這樣一個層面,它已經做到了單個芯片能做到的最大面積,已經無法再擴展。后面有一些美國在單晶元上做整個大芯片,把功能都變成片內互聯,這種方式其實也是出于從另外一層面上扶正。從半導體層面上,性能提升已經到頭了。另外一部分就是互聯部分,國內外差距尤其大。國內像剛才說的,NvLink沒有,IB也沒有,而英偉達其實已經不滿足于現狀,開始對硅光互聯進行研究,還有谷歌奔著800G、1.6T這樣的互聯速度去。所以這一塊的話,我覺得還是有很大的空間可以做,所以我覺得互聯這個層面上可能會進步更快一些。互聯更快,意味著在一個相對比較大一點的分布式計算系統上面,性能是能上去的。包括像英偉達現在nv72那種,整個在做大機,你可以看到它在做大機,歷史是循環的,從大機拆成小機,現在又用小機聚合成大機。
黃新平:我覺得未來在訓練層面上,AI Infra 是朝著大機方向去的,而在推理層面上可能會變成更多的異構計算。因為現在雖然說是異構計算,都是GPU計算這種方式,但實際上很多業務是需要既有CPU計算能力,又有GPU計算能力,兩者結合在一起才能完整完成。比如我現在都是純GPU計算,也許我需要數據庫計算,需要SQL語句,需要其他一些傳統的CPU計算的部分,那這個還是需要的。我覺得這是我暢想的未來,可能這方面會有更多的融合。我覺得都是漸進性的,還算不上革命性的東西。有需求就會有人去做。
嘉賓介紹:
【黃新平】北京算力自由科技有限公司董事長,從半導體時代的編譯器專家,到AI時代的算力架構師, 從摩托羅拉、英特爾時代的編譯器開發與芯片指令集驗證, 到Solaris內核優化并推動AVX指令集落地;從構建愛奇藝支撐億級流量的深度學習平臺,到實現BERT模型33倍性能躍升的TVM編譯器深度改造,始終以底層技術突破驅動行業進化。尤其在AI工程化領域,有著深厚的積累。
【譚中意】 中國開源推進聯盟常務副秘書長,參與創建中國互聯網第一個基礎架構部,并在國內推廣Data Centric AI,在Sun、百度、騰訊、第四范式工作過多年,對AI Infra比較有經驗。