如何配置適合自己的工作站
ANSYS Mechanical是美國ANSYS公司的旗艦產品之一,已經有41年的商業化歷史,是目前全球范圍內最受歡迎的大型通用有限元分析軟件之一。在近十幾年間,運行ANSYS Mechanical的主流硬件平臺,已經完成了由曾經輝煌一時的RISC類芯片的Unix工作站,逐步向X86(64)芯片的PC工作站的遷移。HP Z800頂級工作站代表當今桌面系統的最高水準,提供了豐富的配置選項。本文通過ANSYS Mechanical對系統資源需求的角度,闡述如何將HP Z800圖形工作站配置成完美運行ANSYS Mechanical的桌面系統。
1.高內存帶寬、高QPI帶寬、高主頻CPU打造最強心臟
作為計算機的心臟,CPU的選擇至關重要。HP Z800可配備1100的電源,支持2顆130瓦當今性能最強勁的英特爾至強5600系列CPU。其中6核最高可配置到3.46Ghz的X5690,4核最高可配置到3.6Ghz的X5687。如果費用預算有限,則建議選擇不低于X5650(6核2.66Ghz)或X5667(4核3.06Ghz),因為這兩款及以上型號CPU的QPI總線帶寬才支持6.4GT/s。較低型號的CPU僅支持5.86GT/s或更低的QPI總線帶寬。E5645(6核2.4Gh)或E5649(6核2.53Ghz)這兩款CPU的QPI總線帶寬雖然是5.86GT/s,但仍然可配置DDR-3 1333Mhz的內存,每個CPU的內存帶寬仍然可達32Gb/s。其價格上具有優勢。
至于選擇4核還是6核,要根據可使用的ANSYS Mechanical的許可證(License)情況而確定。相同價格的4核與6核相比,4核的主頻要高一些,而6核整體理論浮點計算性能高一些(畢竟多了50%計算核心)。如果1臺HP Z800可用的ANSYS Mechanical的許可證(License)只支持8個并行進程(分布式)或線程(共享式),例如只有1個商業版的ANSYS HPC PACK,選擇2顆4核CPU平均每個核能獲得更高的內存帶寬和更高的主頻。如果有2個或以上HPC PACK或10個以上的ANSYS HPC,允許12個核并行求解,則推薦選擇2顆6核的方案。
總之,運行ANSYS Mechanical應選擇高內存帶寬、高QPI帶寬、高主頻的CPU。
2.大容量、高帶寬內存提升求解性能
ANSYS Mechanical不僅要作復雜3D有限元模型的圖形處理,還要進行高性能并行浮點運算。內存的容量的大小,不僅決定能求解多大規模的有限元模型,而且對于特定的模型,還將決定其使用的內存模式,從而決定求解性能。
ANSYS Mechanical缺省的求解器是Sparse Direct Solver(稀疏矩陣直接求解器)。其缺省的內存模式optimal out-of-core,求解過程中自動根據內存容量確定存放到內存和磁盤中數據的比例。對于特定的題目,內存越大,求解過程中讀寫磁盤越少,求解時間越短。如果內存足夠大,可使用in-core模式,求解過程中將數據全部放在內存中,盡可能避免磁盤的讀寫,從而成倍地提升求解速度。Optimal out-of-core模式內存占用大約每百萬自由度1GB,而in-core模式則要10GB!如果發現ANSYS Mechanical求解過程中,磁盤燈一直狂閃,而CPU占用率卻非常低,很可能是內存不足,求解過程中花費太多時間在磁盤讀寫上,造成求解性能不高。因此在選配ANSYS Mechanical工作站時,增大內存容量是首先要滿足的。HP Z800工作站安裝了可以實現高速數據傳送的12個DDR3內存插槽,最大可以擴展到192 GB內存。
以下是對in-core和optimal out-of-core的求解性能的簡單對比。一個25萬自由度的線性靜力的ANSYS Mechanical問題。以前運行在只有2GB內存的Windows 32位系統上,求解這個問題的內存模式只能是optimal out-of-core,ANSYS Mechanical統計的有效I/O率只有48MB/s,因為求解過程中持續讀寫硬盤,Sparse求解器完成時間要5.7分鐘。后來增加了內存到8GB,并更換為64位Windows系統,有效I/O率猛增到2818MB/s,求解時間縮短到100秒(不到兩分鐘),只有原來的不到1/3!因為內存的增大,其求解內存模式變為in-core。
對于內存還有要考慮是內存帶寬,尤其是平均到每個核上的內存帶寬。英特爾至強處理器自5500系列以后,將內存控制器設計到處理器上。也就是說雙路系統如果只安裝一顆5500或5600的處理器,將有一半的內存插槽無法使用,這與以前的5100到5400系列的FSB架構完全不同。每個5500或5600系列處理器有3個內存通道。對于雙路的HP Z800工作站,只有將6個內存通道的都插滿容量相同的雙面DDR3內存,才能獲得均衡的、最大的內存帶寬。也就是說內存容量應該是6的倍數,例如12GB(6X2GB)、24GB(12X2GB或6X4GB)、48GB(12X4GB或6X8GB)、96GB(12X8GB)或192GB(12X16GB, 1066Mhz),而不是以前的8/16/32/64/128GB內存。如果求解的題目的規模在1千萬自由度(300萬節點)以下的線性靜力問題,用96(12X8)GB內存就應該能使用in-core模式。如果求解更大規模的題目,可以考慮上單條16GB的內存,但內存的頻率要降低到1066Mhz,還要考慮系統功率是否能承受,比如已經選擇了130W的處理器或GPU卡等。
總之,運行ANSYS Mechanical應選擇容量盡可能大、帶寬盡可能高而且均衡的內存配置。
3.高性能磁盤I/O縮短求解時間
上述對內存需求的分析,是針對最基本的線性靜力問題的。如果遇到非線性或動力學問題,其對內存的需求一般會增加百分之幾十到幾倍。即便是線性靜力問題,幾千萬自由度(上千萬節點)甚至上億的裝配問題也已經非常普遍,尤其是最近一些年流行的從CAD直接導入CAE中、直接劃分網格,省略大量人工時間重新建模、簡化模型的工作,同時導致有限元模型的求解規模越來越大。尤其在求解模態(系統自振頻率)等動力學問題時,缺省使用Block Lanczos算法,即使用in-core模式,對磁盤的持續反復讀寫也在所難免。因此提升磁盤的持續讀寫性能,同樣是縮短ANSYS Mechanical整體求解時間的有效手段。
HP Z800可選的磁盤類型有SATA, SAS和SSD。其中SATA硬盤的單盤容量最高,可達2TB,但其持續讀寫性能較低,建議應該盡量避免用SATA硬盤做ANSYS Mechanical工作目錄。SAS硬盤中的15K RPM的持續讀寫性能要高于10K RPM,單塊SAS 15K的硬盤最大容量也可達600GB。
HP Z800工作站還提供了磁盤陣列的選項。其中對于ANSYS Mechanical求解最有意義的應該是RAID 0選項,用多塊硬盤組成條帶(Stripped)可成倍提升磁盤讀寫性能。但RAID 0中的任意一塊硬盤的損壞,將造成整個RAID0分區的破壞,因此RAID 0不適合做系統盤,只適合做工作目錄,求解結束后,建議盡快將文件備份到非RAID 0分區。
SSD可提供比SAS 15K硬盤更高的持續讀寫速率。可用多塊SSD配置成RAID 0,作為Windows操作系統的虛擬內存(或Linux系統的swap)和ANSYS Mechanical的工作目錄。以下在一臺HP Z800工作站上用4塊HP 160GB SATA X25-M配置成RAID 0作為ANSYS Mechanical工作目錄,在求解ANSYS V13cg-2標準測試算例,與普通單塊SATA 7200 RPM硬盤相比可縮短高達30%的求解時間。
總之,運行ANSYS Mechanical應選擇SAS 15K, SSD或RAID 0(非系統分區)等高持讀寫速率的磁盤系統作為工作目錄。
4.CPU+GPU加速運算帶來成倍性能提升
ANSYS Mechanical 是全球范圍內第一款支持GPU計算的商業有限元分析軟件。目前支持NVIDIA Tesla系列(如C2050/2070等)和NVIDIA Quadro 6000。HP Z800工作站最多可支持2塊TESLA C2050或C2070。以下是我們在一臺HP Z800上測試的結果。
這臺HP Z800的配置為:2顆Intel Xeon X5680, 3.33Ghz, 6C,1塊NVIDIA Tesla C2070, 64GB(4x8GB+8x4GB) DDR3 1333 Reg. ECC內存, 4XIntel X-25M SSD RAID 0, Windows Server 2008 R2, CUDA 3.2。應用軟件為ANSYS 13.0 for Windows x64,測試算例為V13sp-5, Turbine, Sparse solver, symmetric matrix, 2,100K DOFs, static, nonlinear, structural analysis with 1 iteration。
從測試結果來看,使用2個CPU核時,1個GPU帶來近3倍的性能;使用8個CPU核時,1個GPU帶來近1.57倍的加速;使用12個CPU核時,1個GPU帶來近1.36倍的性能。
對于ANSYS Mechanical商業用戶,如果有ANSYS HPC PACK,允許運行8個CPU核計算的同時可附加1個GPU加速計算,可帶來50%的性能提升,已經是相當可貴了。對于ANSYS Academic用戶,每個ANSYS Mechanical計算任務允許4個CPU核計算的同時附加1個GPU計算。上述算例用ANSYS 14.0 Preview 2運行4個CPU核附加GPU,可獲得近2.37倍的性能,GPU加速效果更明顯。
NVIDIA Quadro 6000不僅可提供頂級的圖形處理性能,其6GB的GDDR5顯存,還非常適合ANSYS Mechanical的GPU求解。比如在ANSYS Mechanical前后處理時可用GPU做復雜模型的圖形處理,而在求解時則用于加速求解,達到一卡兩用的效能。需要注意的是Quadro 6000進行GPU計算時,可能造成圖形操作緩慢,如果在求解時也需要同進進行其他模型的圖形操作(例如Workbench支持后臺求解),則建議配置一塊中高端的圖卡(例如NVIDIA Quadro 2000/4000/5000)再加一塊C2050/2070。
總之,ANSYS支持GPU計算,加速效果非常明顯。
綜上所述,CPU、內存、磁盤和GPU是決定ANSYS Mechanical計算性能的4個關鍵因素,而Z800作為惠普工作站旗艦機型,其在設計之初就將如CPU、內存等關鍵部件的協作性能調配到最佳。除此之外,惠普Z800在穩定性、兼容性以及可擴展性上亦表現非凡。其內部模塊設計方便管理升級,獨特的液冷及優化排風系統滿足長時間開機運算的環保及降噪要求。安世亞太將繼續與惠普工作站一起,根據ANSYS Mechanical對系統資源的需求的特性、分析求解的問題的種類和規模、資金預算等諸多因素,結合最新的技術,為不同用戶配置適合自身需求的“完美”的工作站整體解決方案。