阿里云發布神龍異構超算集群,人工智能深度學習訓練縮短至分鐘級
人工智能正在召喚“神龍”。3月21日,阿里云發布業內***公共云異構超算集群——基于彈性裸金屬服務器神龍X-Dragon的SCC-GN6,集群性能接近線性增長,將深度學習訓練時間縮短至分鐘級,可滿足無人駕駛、智能推薦、機器翻譯等人工智能場景的高性能計算需求。
阿里云發布***異構超算集群
人工智能特別是深度學習,對算力的要求永無止境。但如果只是堆砌芯片,沒有低延時網絡、高速讀寫能力,大規模集群無法發揮出***的計算性能,性能損耗通常在50%左右。且算力資源并不豐富,有研究顯示,到2030年中國研究人員每人平均只能擁有1-2個GPU,大多數研究將受到計算能力的嚴重限制。 SCC-GN6是***基于X-Dragon架構的超算異構產品,神龍云服務器與阿里云ECS、GPU云服務器等一起,最多可達512個節點,計算性能依舊接近線性增長,提供堪比超算中心的并行計算資源。
神龍異構超算集群性能接近線性增長
這不僅因為支持節點數量多,更因為集成多項自研技術:軟硬結合的X-Dragon架構兼具性能和靈活性,50G RDMA超算網絡降低網絡延時,***IOPS性能的ESSD塊存儲提供低于百微秒的讀寫延時,高性能并行文件系統CPFS讀寫吞吐達1TB/s,分布式加速框架Ali-Perseus對集群內每一顆GPU工作負載進行優化和加速。***可以實現100%的性能提升,從而***限度發揮芯片的計算性能。
以ImageNet競賽的128萬張圖片的數據集為例,用普通計算資源訓練ResNet50模型,如要達到75%的精度需要數天甚至一周的時間,而使用該神龍異構超算集群產品,模型訓練可以縮短到幾分鐘,大大提升AI算法研發效率,加速業務創新。
阿里云智能創新產品線負責人張獻濤表示:“人工智能對算力提出了新挑戰,神龍異構超算集群提供了堪比超算中心的并行計算資源,用戶可以隨時獲取高性能計算能力,更不用擔心購買、搭建GPU需要耗費的時間成本。”
此外,阿里云還發布了國內***公共云上的輕量級GPU異構計算產品——vGN5i,打破傳統直通模式局限,提供比單顆物理GPU更細粒度的服務,從而讓用戶以更低成本、更高彈性開展業務。
作為國內***、全球前三的云服務商,阿里云于2017年10月發布了全球***新一代“跨界”服務器彈性裸金屬服務器神龍X-Dragon,擁有接近物理機的性能以及虛擬機的靈活性,提供了新的計算資源獲取方式,已經大規模服務于智能客服助手、智能翻譯、無人駕駛、智能推薦等場景。
在2019阿里云峰會·北京上,阿里云還提出未來將圍繞IT基礎設施的云化、核心技術的互聯網化和應用的數據化、智能化,持續推出符合用戶需求的產品,同時致力于被生態伙伴集成,不做SaaS并幫助企業做更好的SaaS。除了神龍異構超算集群外,阿里云還發布了新版本POLARDB可兼容Oracle、SaaS加速器和小程序云。