直播周回顧日記Day2:高性能計算云時代 自在如風不為硬件所縛
6月21日,亞馬遜云科技聯合51COT共同推出的這是我的架構——直播周系列節目第二季第二集精彩繼續。本集邀請到的是亞馬遜云科技高級解決方案架構師楊志浩和亞馬遜云科技高性能計算產品經理耿煜,由他們共同分享“云端ARM助力HPC客戶擺脫硬件束縛,實現創新”的技術智慧和實踐經驗。基于亞馬遜云科技自研的Graviton實例如何在高性能計算場景下實現降本增效,讓我們一起回顧本期直播:
金風慧能的云上之旅
直播一開始楊志浩向我們介紹了金風慧能依托云上Graviton 2實例實現高性能計算的案例。金風慧能專注于提供新能源數字化、智能化產品及解決方案,以安全和提質增效為核心目標,覆蓋風電場運行的全生命周期。其氣象預報和功率預測產品正是部署在基于亞馬遜云科技Graviton實例,Graviton在HPC場景下的優越性能,為金風慧能實現降本增效提供了有力支撐。楊志浩簡單介紹了金風慧能氣象應用場景的架構,通過將來自氣象局、亞馬遜云科技托管的公開數據集和觀測儀器的數據進行處理、計算、分析,對天氣情況進行預報,并預測風電場發電量,實現高效、精準的電力調度。
為了滿足海量數據的快速、準確處理,同時兼顧業務成本,金風慧能的選擇是亞馬遜云科技Graviton。通過將WRF全流程部署在基于Graviton 2的ARM架構計算平臺上,保證了計算前后的一致性,滿足長期穩定快速運行的算力集群。據楊志浩介紹,Graviton 2獨特的長期運算價格模式,非常適用于金風慧能每日全天候的計算需求。與傳統HPC不同,亞馬遜云科技的云上HPC能夠為客戶提供更加靈活彈性的購買方式,客戶通過預留實例能夠獲得更高性價比。亞馬遜云科技針對云上HPC的快速部署,還推出了Paraller Cluster服務,為客戶提供單任務多節點,多隊列不同實例類型并行計算的靈活選擇。對于數據存儲問題,亞馬遜云科技的FSx for Lustre為客戶提供數據流轉存儲全套解決方案,同時滿足未來單任務多節點運行的共享存儲需求。在Graviton 2全套HPC架構的助力下,相較于傳統的本地數據中心解決方案,金風慧能的綜合成本降低了70%。
云計算為高性能計算賦能
隨著數據時代不斷加速前進,客戶對運算能力的要求日漸提高。然而傳統的數據中心解決方案由于其建設周期長、成本高,大大增加了企業成本,阻滯了生產效能。云計算架構的靈活優勢,幫助HPC突破了硬件束縛。耿煜為我們講述了美國笛卡爾實驗室的案例,借助云計算,笛卡爾實驗室僅用24分鐘就完成172,692個core集群的構建,計算峰值達到理論最大峰值的70%,整個測試僅花費2萬美金。耿煜坦言道,如果是采用傳統的數據中心建設方案,全部費用大概需要2,000~3,000萬美金。云上HPC作為全球范圍內高性能計算客戶的新寵兒,具備靈活的資源調度和無限的運算能力,同時有效降低成本,為客戶帶來了全新的云上體驗。
ARM身兼重任,HPC更上一層樓
2018年亞馬遜云科技發布了自研的第一代ARM架構Graviton處理器,并很快推出第一款支持Graviton的實例。而在此之前,x86架構處理器曾是亞馬遜云科技的唯一選擇。從x86到ARM,Graviton是否能夠承擔云計算的核心重任?客戶又是否能獲得平滑的切換?耿煜給出的答案是肯定的。耿煜談道,從亞馬遜云科技視角看,亞馬遜云科技正在不遺余力的打造基于Graviton的整個云上HPC生態。從市場來看,包括工業制造、電子芯片設計、生命科學、能源、地質、天氣,包括智能駕駛等等很多場景實際上都在用ARM架構構建整個集群。從HPC場景看,HPC相關軟件也在不斷地向ARM的架構進行適配。
亞馬遜云科技定制化解決方案
耿煜為我們展示了HPC工作負載的四個維度。第一個維度是解耦合工作負載,相對應的維度就是分布的/網絡化工作負載,表現出松耦合的特征。從數據存儲的體量上來看,有些場景是依賴于海量的數據,有些則是較輕量的數據存儲。亞馬遜云科技基于這四個維度對客戶需求進行劃分,針對不同需求提供全生命周期的定制化ARM架構解決方案。
HPC降本增效亞馬遜全程保駕護航
耿煜介紹了5類亞馬遜云科技推出的HPC場景服務。第一類是亞馬遜云科技最為重要的產品之一——Amazon EC2彈性計算實例,云上客戶可以使用最高達24TB的內存的計算實例,滿足對于單節點性能有很高要求的客戶,搭載的Graviton 2處理器,提高40%的性價比,非常適合高網絡吞吐且可以適配ARM的計算優化型工作負載。第二類是Parallel Cluster,能夠幫助客戶一鍵式創建集群,客戶只需要編寫簡單的腳本,就能完成集群的快速配置,根據不同任務需求,還可以彈性調整集群大小。第三類是Elastic Fabric Adapter,能為客戶提供高達400G的網絡存儲。第四類是FSx系列,將HPC場景下的集群分布式文件系統適配到用戶常用的幾大類中,在云上可以提供本地物理服務器構建的節點所達不到的性能,且其性能隨著存儲容量線性增長,非常適用于HPC任務受制于存儲的客戶。第五類是Amazon Batch,協助客戶完成容器化集群的構建。亞馬遜云科技通過這5大類服務,為客戶對性價比、高性能、安全性的需求提供了全套解決方案。
靈活自在,成本無憂
區別于傳統HPC短期計價,亞馬遜云科技運用其云上優勢,為客戶提供長期HPC計價模式,助力客戶實現成本壓縮。耿煜介紹道,亞馬遜云科技在為客戶設計HPC架構時,通常會根據客戶是否有經常性的任務、突發型任務,并且根據任務需求量、任務是否允許中斷,為客戶量身定制解決方案。同時亞馬遜云科技也支持短期HPC計算算力采購需求,耿煜呼吁,鼓勵客戶更多地使用亞馬遜云科技的云上資源,達到更高的成本優化。
這是我的架構——直播周系列節目第二季第二集完美收官,明天各路大咖又將帶來怎樣的思想碰撞,敬請期待!