華為助力中航工業空氣動力研究院構筑HPC平臺
高性能計算(HPC)是指以計算為目的,使用了很多處理器的單個計算機系統或者使用了多臺計算機集群的計算系統和環境。HPC計算集群主要有計算服務器、共享存儲、高速互聯設備以及配套的管理軟件、平臺軟件和應用軟件構成。隨著社會的發展,高性能計算被越來越多的行業例如科研、教育、生物、能源等行業廣泛應用,目前正呈逐漸擴大化趨勢,各種新興行業如電信、金融、游戲、信息安全領域也得到了越來越多的應用。
中國航空工業空氣動力研究院(以下簡稱“中航工業氣動院”),隸屬于中航工業集團,是我國航空工業領域唯一的風洞試驗基地。作為中國航空工業系統唯一的專業空氣動力研究機構,參與了幾乎所有重點飛機型號的研制工作,擁有一批國內領先或特有的先進試驗技術,如進氣道試驗技術、動態試驗技術、推力矢量試驗技術、流場顯示與測量試驗技術、高精度天平設計與標準技術、高雷諾數試驗技術、動力模擬試驗技術等,并已初步建成基于結構網格與非結構網格的航空高精度數值模擬計算平臺。
當前,中航工業氣動院正處在一個重要的加速發展期,未來5年內的科研能力建設投入將超過以往50多年來投入的總和,重點發展的業務領域將圍繞高、低速風洞群的建設與先進試驗技術、先進氣動力理論研究與CFD、新概念飛行器的氣動力創新設計三條主線全面展開,因此客戶亟需建設新的計算平臺來滿足未來業務發展對計算性能的需要。
面臨挑戰
1)中航工業氣動院現有計算平臺計算性能不足,不能滿足業務需求。原有計算集群為LC機架式服務器,設備面臨老舊、故障率較高, CPU為E5-2609 V2系列,隨著業務發展,計算性能的瓶頸越來越突出。
2)存儲的性能較低,IOPS值無法滿足要求,拉低了計算集群的整體計算性能。客戶現有HPC集群中存儲系統采用Lusture方案,OSS和MDS由一臺服務器承載,負擔較重,制約了存儲性能,也極大的拉低了計算集群的整體計算性能。
3)原有HPC集群的可靠性和可擴展性較差。OSS和MDS節點由一臺服務器承載,且存儲為兩臺集中式存儲,數據可靠性差,同時采用機架式服務器面臨組網復雜,管理復雜,擴展性不強的劣勢。
解決方案
在本次建設中,華為所提供的計算集群、存儲系統、管理系統及IPMI網絡等解決方案為中航工業氣動院構筑了全新的HPC平臺,在本次建設中通過采用高性能的華為E9000刀片服務器,可以提供300萬億次的計算能力。同時計算網絡采用100GB EDR高速Infiniband組網,通過2層胖樹無阻塞(1:1)組網,提供更高的帶寬,使計算性能得到完全發揮。
為解決存儲性能和可靠性以及可擴展性問題,本次建設采用全對稱分布式存儲OceanStor 9000代替傳統HPC解決方案中存儲系統Lusture方案中的集中式存儲,OceanStor 9000系統包含硬件平臺和軟件系統,硬件主要包含了交換機和存儲節點,且該設備支持3-288個節點可擴展,擴展性較強。存儲節點中SSD盤作為元數據存儲,NL-SAS大容量硬盤作為對象存儲,采用8+1:1的冗余比來保障節點間硬件和數據的可靠性。OceanStor 9000使用全IB組網,前端網絡對接用戶IB交換網后端網絡使用內部IB交換機,保證了存儲系統內部的高帶寬,避免了成為計算集群的性能瓶頸。
同時通過一臺CE6180萬兆交換機和一臺CE5810千兆交換機連接所有設備的管理端口實現集群的調度、硬件監控和管理功能。極大地方便管理和運維,同時本次HPC項目采用刀片式方案,E9000刀片服務器可以支持***32個節點,密度業界***,擴展性十分強大,便于擴容來滿足未來業務發展需要。
建設價值
通過本次建設,中航工業氣動院的工作效率極大提升:通過部署新的高性能仿真平臺,使得計算性能大幅提升,使得高復雜模型仿真由不可能變成可能;同時存儲性能得到極大提升,數據可靠性增強,數據存儲量極大提高;本次建設還擁有良好的擴展性,便于后續擴容:華為高性能仿真平臺采用華為的一體化解決方案,具備良好的可擴展性,后續的擴容方便快捷。同時通過管理網絡來管理所有硬件設備,極大地簡化了運維,節約了成本。