突破超大規模智算集群運維瓶頸 天翼云出席全球架構師峰會
近日,ArchSummit全球架構師峰會在深圳隆重開幕,本次大會以“智能進階. 架構重塑”為主題,探討AI浪潮下,企業架構如何適應大模型和云原生的時代趨勢,尋找既有應用成果又有成本效益的解決方案。國內外100余名頂尖專家齊聚一堂,圍繞AI、大模型、云原生等話題展開深度交流。天翼云云網產品事業部研發專家黃堅受邀參會,并在“智算平臺建設與應用實踐”專題會上發表主題演講,分享了天翼云在超大規模智算集群運維及管理方面的創新思路和實踐經驗。
天翼云云網產品事業部研發專家 黃堅
隨著大模型風潮來襲,加快建設超大規模智算集群,已成為增強多元算力供給的重要措施。與傳統云原生大規模場景相比,超大規模智算集群的管理復雜度和難度更高。黃堅表示,當前,在充分發揮超大規模智算集群的算力方面,整個行業還面臨著諸多挑戰:
● 首先,智算業務與底層算力高耦合。在基于transformer衍生出來的智算生態中,要求最大化使用底層算力,這就要求從業者既要懂算法,又要懂算力,同時需要具備結合算法算力的工程化思維,從算子優化、算子融合、并行計算等多個方向提升算力的使用效率。
● 其次,硬件無明確異常指標,定位難度大。雖然通過監控可以覆蓋一些明顯的軟硬件問題,但更多類似于光模塊故障等問題,需要綜合光衰、溫度、功耗等多個維度,并結合業務異常,才能實現準確定位。
● 再次,日常管理復雜度高。超大規模智算集群規模大、數量多,如何實現百萬量級元器件的系統化、模塊化、周期化管理,并與業務方進行有效協同,是運維的難點。
作為云服務國家隊,天翼云加強核心技術自主研發,積極探索超大規模智算集群運維之道,不斷升級產品和生態矩陣,為AI開發者提供“供得上、用得起、用得好”的智算服務。
在平臺層面,天翼云全新升級一體化計算加速平臺“云驍”,“云驍”具備超大規模集群管理、運營和算力加速能力,可提供通智超一體化服務,集“異構計算+高速存儲+無損網絡+算力加速+高效運營”五大能力于一體,讓智算更快、更穩。
在算力層面,天翼云加速推進多層次智算算力布局,打造萬卡級超大規模智算中心,滿足快速增長的智算算力需求。目前,天翼云上海臨港國產萬卡算力池已正式啟用,這不僅是國內首個投入正式運營的國產單池萬卡液冷算力集群,也是業內領先的全國產化云智一體公共智算中心,創新性采用網絡中置、算力分層的“魔方”型組網,實現了單一集群內萬卡高速互聯,滿足萬億級參數大模型訓練所需的多機多卡并行、高吞吐無損通信等需求。
未來,天翼云將持續堅持科技創新,深耕云智一體,不斷夯實國云智算底座,為數字經濟發展與數字中國建設注入澎湃動能。