大模型需要什么樣的智算中心?七位大咖談AIGC時代算力挑戰與風口丨GACS 2023
9月14日-15日,2023全球AI芯片峰會(GACS 2023)在深圳市南山區圓滿舉行。在第二天舉行的智算中心算力與網絡高峰論壇上,來自商湯科技、中國移動研究院、浪潮信息、科華數據、首都在線、趨動科技、中科馭數等7家企業或機構的技術決策者及高管分別發表主題演講,分享有關智算中心的探索與實踐。
算力是集信息計算力、網絡運載力、數據存儲力于一體的新型生產力,主要通過算力中心等算力基礎設施向社會提供服務。10月8日,工業和信息化部、中央網信辦、教育部、國家衛生健康委、中國人民銀行、國務院國資委等6部門聯合印發《算力基礎設施高質量發展行動計劃》,提出到2025年算力規模超過300EFLOPS,智能算力占比達到35%,足見對智能計算中心發展的高度重視。
當前,新一輪科技革命和產業變革正在向縱深演進,算力基礎設施的重要性不斷提升。聚焦生成式AI與大模型浪潮帶來的算力機遇、挑戰與創新,7位行業嘉賓分別從智算中心技術瓶頸與優化方向、大模型工程實踐經驗、模塊化液冷解決方案、包含DPU的異構計算、GPU資源池化等方面,對智算中心如何進一步突破算力天花板、達成“雙碳”目標進行分享和解讀。
以下是此次論壇的核心干貨:
一、商湯科技楊帆:AI基礎設施是核心戰略,三要素規模化可降低邊際成本
商湯科技聯合創始人、大裝置事業群總裁楊帆指出AI行業的場景碎片化問題,強調行業場景極度細分,導致邊際成本高,使得AI公司難以盈利。而解決之道是通過AI基礎設施,達到算力、數據、算法等核心要素協同的最佳實踐,提供給行業低成本、高效益的AI基礎能力。
商湯認為,未來5年,AI基礎設施可能會是行業的真正發展路徑,是解決AI目前創造巨大價值但行業自身不盈利的困局,最有可能的方向之一,因此商湯科技也將其作為核心戰略之一。
▲商湯科技聯合創始人、大裝置事業群總裁楊帆
隨著AI技術的進步,智算逐漸成為一個獨立的概念。
算力方面,商湯的臨港智算中心AIDC截至今年8月底,線上算力超過6000P,可以在單一的網絡訓練中聚集4000以上的GPU卡,可支持20個千億級別超大模型同時訓練。
數據方面,商湯認為數據要素是產業智能化發展中最寶貴的資源。商湯大模型數據專家團隊通過對世界上最大的公開爬取數據集之一Common Crawl中,3PB+的原始數據進行清洗、去重、有害信息消除、質量過濾等處理動作,生成約30TB的有效數據用于大模型訓練,可極大降低AI技術研發之中的成本。
算法方面,改進的方向主要集中于優化性能和優化推理過程,用更低成本的推理去達到同樣的效果。
把算力、數據、算法這三要素中基礎的核心沉淀出來,更加規模化地向外提供,降低邊際成本,擴大邊際效益,這是商湯科技認為AI產業發展的方向。
二、中國移動陳佳媛:定義NICC新型智算中心技術體系,從五個方面進行系統性重構
中國移動研究院網絡與IT技術研究所技術經理、主任研究員陳佳媛分享了中國移動的NICC(New Intelligent Computing Center)新型智算中心技術體系。
根據信通院發布的中國綜合算力指數預測,到2025年,智能算力在全國的占比將從今年的25.4%上升到85%。中國移動研究院將智算中心的發展分為兩個階段,一是2025年之前的集群時期,主要面向百億或者是千億規模的大模型發展;其次是2025年之后的超級池化時期,將面向萬億級的大模型進行革新。
基于這個預判,中國移動定義了新型智算中心的技術體系,并從互聯、算效、存儲、平臺、節能等五個方面進行系統性重構,牽引行業在多個技術領域形成共識,加快相關技術成熟。
▲中國移動研究院網絡與IT技術研究所技術經理主任研究員陳佳媛
陳佳媛認為,在新互聯方面,為支撐更大規模的模型訓練,構建更大規模的卡間高速通信能力,產業應共同打造統一的計算總線協議,聯合AI芯片、交換芯片、服務器等上下游企業共同推動國內高速互聯技術生態成熟;對于更大規模的網絡互聯,中國移動已經創新性提出全調度以太網技術(GSE),革新以太網底層轉發機制,實現三大核心機制轉變,打造無阻塞、高帶寬、低時延、自動化的新型智算中心網絡,希望更多伙伴加入,加速落地應用的過程。
在新存儲方面,為突破GPU顯存容量的限制,簡化AI模型開發,行業應共同加速內存池技術的成熟,使得CPU、GPU/AI加速卡等異構設備共享統一內存,為大模型海量數據的高效處理奠定基礎。
在新算效方面,陳佳媛談到,產業在聚焦GPU能力升級、探索存算一體等新型芯片的同時,更要關注CPU,GPU、DPU三大芯片協同,加快驗證DPU在智算中心的場景應用,整體提升智算中心海量數據的處理能力。
在新平臺方面,中國移動原創提出算力原生技術,打造“芯合”算力原生跨架構平臺,目標是打破“框架+工具鏈+硬件”緊耦合的智算生態,屏蔽底層硬件差異,實現智算應用的跨架構遷移部署,目前中國移動已經實現至少三家芯片的跨架構遷移,希望未來能有更多AI芯片加入,構建算力原生的產業生態。
在新節能方面,針對智算中心不斷攀升的能耗需求,產業標準化程度較低的問題,中國移動堅定推進液冷技術成熟,通過制定五大統一標準,在智算中心建設項目中大規模引入,實現極致能效、極高密度、極簡運維的三“極”目標。
大模型時代,新型智算中心的相關技術受到國內外高度關注,但是目前產業存在多種解決方案,技術路線也尚未統一,希望產業凝聚力量,形成共識,共同推動智算關鍵技術成熟,共同繁榮國內AI生態發展。
三、浪潮信息Stephen Zhang:應對AIGC時代算力挑戰,開放系統、多元算力是關鍵
AI算力是驅動大模型發展的核心引擎,但當前算力荒、算力貴的供給情況,恰恰成為了制約大模型發展的關鍵因素。浪潮信息開放加速計算產品總監Stephen Zhang從開放AI算力平臺創新、促進多元算力融合發展、助推多元算力產業化應用等方面解讀了生成式AI時代下算力的挑戰與創新。
當前,多樣化的技術路線帶來了AI算力多元化的需求,但由于缺乏統一的業界規范,不同廠商的AI加速芯片存在顯著差異,需要定制化的系統硬件平臺承載,帶來了更高的開發成本和更長的開發周期。同時,大模型訓練需要更高性能、高互聯、強擴展的大規模AI算力集群支撐。因此,在芯片技術創新突破的同時,產業界也需要從更高的系統層面共同應對大模型時代的算力挑戰。
▲浪潮信息開放加速計算產品總監Stephen Zhang
浪潮信息基于開放的算力系統研發和大模型工程實踐經驗,發布了《開放加速規范AI服務器設計指南》,面向AIGC應用場景,細化完善了從節點到集群間的AI芯片應用部署全棧設計參考,并提供系統測試指導和性能評測調優方法。AI芯片廠商可以基于《指南》快速將符合開放加速規范的AI芯片落地成高可用高可靠高性能的大模型算力系統,提高系統適配和集群部署效率。
開放加速計算架構具有大算力、高互聯和強擴展的特點,天然適用于超大規模神經網絡并行訓練,近年來已經取得豐富的產業實踐成果。基于此,浪潮信息已經發布了三代AI服務器產品,和10余家芯片伙伴實現多元AI計算產品落地,并推出AIStation平臺,可高效調度30余款AI芯片,充分釋放多元算力價值。
同時,面向復雜的大模型訓練工程,浪潮信息最新推出了OGAI大模型智算軟件棧,能夠為大模型業務提供AI算力系統環境部署、算力調度及開發管理能力的完整軟件棧和工具鏈,高效釋放算力系統性能,加速生成式AI產業創新步伐。
四、科華數據魏芳偉:模塊化液冷一站式方案,助攻智算中心雙碳目標
芯片的功耗在持續上升,單顆芯片功耗的逐漸增大。英特爾2023年第一季度發布的Max9462處理器,TDP達350W;英偉達2023年第一季度發布的HGX Grace Hopper Superchip Platform,其TDP高達1000W。如用風冷技術,將很難降低CPU、GPU表面溫度。此外基于雙碳要求,工信部于2021年發布新型數據中心發展行動計劃,要求到2023年底,新建大型及以上數據中心PUE值降低到1.3以下,嚴寒和寒冷地區力爭降低到1.25以下。
科華數據智慧溫控制拓展部副總監魏芳偉談道,目前主要的散熱方式有6種,包括傳統風冷、自然冷源風冷、冷板式液冷、噴淋式液冷、單相浸沒式液冷以及兩相浸沒式液冷。其中,使用最多的是冷板式液冷和單相浸沒式液冷。魏芳偉說,冷板式液冷適合絕大多數客戶使用,優勢是高性價比,低改造、低建設難度;浸沒相變式液冷適合極致性能客戶使用,特點是高性能、高投資。
▲科華數據智慧溫控制拓展部副總監魏芳偉
魏芳偉解讀了科華的模塊化液冷一站式解決方案,主要包括三大類產品,包括主要應用在大型互聯網IDC和超算中心的液冷微模塊,應用在邊緣計算領域的液冷集裝箱,以及應用在挖潛和老舊機房改造的是液冷一體機。
液冷微模塊的特點是高度集成,集成電源、配電、風冷空調、液冷CDU、二次側管道等。每一個液冷項目具備特殊性,但是可以采用模組形式搭建多樣化的適配載體,提高通用性。
液冷集裝箱由各個模塊組成,IT模塊、電力模塊、電池模塊、消防模塊、綜合布線、液冷模塊等可以根據單機柜功率、總功率、配電架構和占地面積等因素綜合評估、選擇、確定各模塊配置數量,拼裝組成數據中心。
五、首都在線牛繼賓:解決智能算力平臺建設痛點,已有幾十個大模型客戶成功案例
首都在線副總裁牛繼賓談道,構建新一代智能算力平臺或是智算中心有很多痛點。一是英偉達高端算力供應鏈的問題,二是國產算力芯片的可用性問題,三是建成以后找不到足夠多的運行客戶。一個智算中心,如果解決不了以上幾個問題,就建造不起來或者出現運營虧損。此外大規模內網互聯、存儲高速吞吐、模型優化服務、平臺生態服務等技術因素也造成智算平臺建設的技術瓶頸。
首都在線提出的解決方案是建設大規模異構智能算力平臺。該平臺擁有異構算力的資源池,以英偉達算力為主,以國產算力為輔,實現上做了從內網互連到公網的調優,模型的適配調優,并基于此提供GPU裸金屬、GPU云主機、高速存儲、數據庫等多方面的云服務。經過一年半左右時間的迭代,首都在線打通了智算IaaS到智算MaaS,再到到客戶的端到端應用場景,提供一套從生產到業務的端到端模型適配與服務平臺,目前的客戶包括國內數家TOP大模型客戶以及終端的應用客戶等。
▲首都在線副總裁牛繼賓
牛繼賓談道,大模型的推理如果用8卡的機器,是嚴重浪費的,首都在線最早和國內大模型客戶的在線推理業務合作,能夠將千億模型做到在兩張24G顯存、月成本只有千元左右的GPU云主機進行部署,而一臺8卡A100成本得四五萬元左右,相當于超過一個數量級的降低。“這樣才能讓最終的大模型應用走到每一個終端上。”
據他分享,首都在線目前已在搭建有商用級的千卡高端訓練集群,能夠直接響應大模型用戶訓練需求,同時建設了萬卡的推理集群,目前已有數十個大模型客戶案例、也有成功的將大模型服務轉售給垂直場景用戶的多個案例。國內依托于東輸西算的業務形態進行部署,加快用戶的響應,降低用戶的研發與線上服務成本;海外在東南亞正在部署H100集群,在美國也上線了比較大的推理資源池。這就相當于打通了全球的訓練、推理、網絡。
六、中科馭數張宇:AI大模型需要新型算力底座,包含DPU的異構計算成主流
DPU是數據專用處理器,被稱為繼CPU、GPU之后數據中心的“第三塊主力芯片”。DPU能夠提供智算中心所必須的大帶寬和低時延能力,使更多的CPU、GPU算力可以真正服務于業務,從而為新型智算中心提供更高效的算力底座,成為智算中心必備的核心組件。
中科馭數高級副總裁張宇強調了DPU和普惠算力在數智系統中的重要性。隨著大模型和智能計算的崛起,傳統的算力底座已不再滿足需求成為瓶頸,AI大模型應用需要新型算力底座進行支撐。硬件架構突破以CPU為中心的體系,應用維度從芯片內、節點內向系統級分布式異構延伸,CPU+GPU+DPU+FPGA的異構計算成為主流趨勢。在新的算力架構中,云、邊、端共同構成了多層立體的泛在計算架構,通過與DPU的深度融合,構成新型算力底座。
▲中科馭數高級副總裁張宇
張宇談道,大帶寬、低時延,已成為AI大模型算力底座的核心訴求,而DPU可以提供這兩項必須的能力,異構算力、三U一體成為算力底座主流的趨勢。他認為對于所有的算力芯片而言,上層軟件生態是最重要的,有時甚至會超出芯片本身設計的重要性。
中科馭數踐行“IaaS on DPU”,從標準化的基礎設施到客制化的業務應用均進行產品布局,歷時五年打磨了開放DPU軟件開發平臺HADOS,具備豐富的算力能力接口,接口數量超過2000個,具有完備的生態兼容能力、多種開發維護工具,支持豐富的應用場景。
七、趨動科技劉渝:在業界率先提出GPU資源池化,軟件定義優化AI算力供給
在AI大模型時代,英偉達的高端先進芯片難以采購,價格也是水漲船高。在巨大需求和AI算力供不應求情況下,趨動科技華南區技術總監劉渝認為應該優化GPU,也就是AI芯片和AI算力的供給模式。
傳統的供給模式是物理卡掛載給AI應用使用,無論是基于物理機、容器或虛擬機,通過軟件對GPU做簡單的虛擬化切分,沒有辦法使算力資源動態滿足不同AI應用的彈性需求。AI開發、訓練、推理,這些不同的工作任務對于GPU資源的需求是不一樣的。
▲趨動科技華南區技術總監劉渝
軟件定義AI算力的解決方案,總體來說包含了六大典型應用場景:1、“隔空取物”,進行vGPU資源的遠程調用;2、“化零為整”,通過軟件進行GPU資源的聚合,節省算法人員的時間;3、“化整為零”,將GPU切分為多份,讓多個AI任務疊加使用,比如推理場景;4、“顯存擴展”,調用內存補顯存;5、“隨需應變”,通過軟件進行資源動態伸縮,無需重啟;6、“動態超賣”,資源高效輪轉使用。
劉渝稱,趨動科技在業界首提GPU資源池化的定義。趨動科技的OrionX GPU池化(GPU Pooling)軟件處在驅動程序以上,屬于標準化軟件;對于AI應用和框架來說,不需要修改任何代碼,就可以使用OrionX池化之后的GPU,對于用戶來說也不需要改變任何的使用習慣。OrionX對GPU資源進行池化后共享,每人按需動態進行GPU掛載和釋放,GPU硬件采購成本平均節省70%以上,GPU綜合利用率平均提升4倍以上。
結語:算力結構變化催生新型智算中心
正如智一科技聯合創始人、CEO龔倫常作為主辦方在致辭中所言,在人工智能進入新階段之后,全球對算力的需求與日俱增。隨著社會智能化、數字化快速演進,未來,每個大一點的企業都需要智算中心。
▲智一科技聯合創始人、CEO龔倫常
一方面,大模型時代下,傳統的算力中心面臨著與大模型匹配度較低、缺乏行業統一標準、豎井式發展、缺乏全局協同等多方面的挑戰。另一方面,國內企業已經發起沖鋒,從基礎設施、液冷技術、芯片協同等方面,重新定義新型智算中心,為構建更加健康、高效和可持續的AI生態系統鋪設了道路。