初志案例分享:清華大學(xué)HPC項(xiàng)目解析
清華大學(xué)機(jī)械工程系(以下簡稱機(jī)械系)于1932年成立,是清華大學(xué)最早成立的工科系之一。其擁有多個(gè)國家一級(jí)重點(diǎn)實(shí)驗(yàn)室,近年來與材料科學(xué)、自動(dòng)化技術(shù)、信息技術(shù)、激光技術(shù)等學(xué)科一起合作了眾多科研項(xiàng)目,在學(xué)術(shù)聲譽(yù)、研究水平、研究隊(duì)伍、實(shí)驗(yàn)裝備等方面都具有國內(nèi)領(lǐng)先優(yōu)勢(shì)。
機(jī)械系日常的教學(xué)和科研項(xiàng)目中需要應(yīng)用到fluent、Vasp、Gaussian、Ansys等軟件來實(shí)現(xiàn)各種高性能計(jì)算,因此將產(chǎn)生大量的數(shù)據(jù),這對(duì)存儲(chǔ)系統(tǒng)在高并發(fā)、可靠性、共享性上都提出很高的要求。機(jī)械系現(xiàn)有的存儲(chǔ)系統(tǒng)已經(jīng)不能滿足自身快速發(fā)展的需求。
初志A2000集群存儲(chǔ)解決方案
針對(duì)機(jī)械系高性能計(jì)算的需求,初志科技為其提供了一套初志A2000集群存儲(chǔ)解決方案。初志A2000集群存儲(chǔ)解決方案主要由元數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)及智能存儲(chǔ)節(jié)點(diǎn)兩部份組成。
元數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)用于管理文件系統(tǒng)的元數(shù)據(jù)(包括文件目錄樹組織、屬性維護(hù)、文件操作日志記錄、授權(quán)訪問等),管理整個(gè)存儲(chǔ)系統(tǒng)的命名空間,對(duì)外提供統(tǒng)一的系統(tǒng)映像存儲(chǔ)池。
智能存儲(chǔ)節(jié)點(diǎn)用于存儲(chǔ)用戶的實(shí)際數(shù)據(jù),實(shí)現(xiàn)集群存儲(chǔ)功能,主要包括存儲(chǔ)設(shè)備管理,網(wǎng)絡(luò)設(shè)備管理,權(quán)限管理等。
初志A2000集群存儲(chǔ)系統(tǒng)采用先進(jìn)的分布式并行雙群存儲(chǔ)架構(gòu),多臺(tái)元數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)和智能存儲(chǔ)節(jié)點(diǎn)分離并行工作,大大提高了海量文件的讀寫效率,輕松實(shí)現(xiàn)海量數(shù)據(jù)管理。同時(shí),A2000在高并發(fā)性、高可靠性、整合性及擴(kuò)展性上都有很突出的優(yōu)勢(shì),很好地滿足了機(jī)械系對(duì)于高性能計(jì)算應(yīng)用的各項(xiàng)需求。
高性能計(jì)算應(yīng)用的持續(xù)運(yùn)行,將產(chǎn)生越來越多的數(shù)據(jù),這需要存儲(chǔ)系統(tǒng)擁有足夠的容量來滿足快速增長的需求。初志A2000集群存儲(chǔ)系統(tǒng)單卷即可支持PB級(jí)的存儲(chǔ)空間,幫助用戶高效地管理上百億個(gè)甚至更多的文件。同時(shí),系統(tǒng)還可實(shí)現(xiàn)文件全局命名空間,所有的計(jì)算節(jié)點(diǎn)都可看到一致的文件系統(tǒng)視圖(管理員也可以通過設(shè)置使用權(quán)限,讓使用者只能看到自己的應(yīng)用數(shù)據(jù)),這種數(shù)據(jù)的全局共享性可以加強(qiáng)同一應(yīng)用不同服務(wù)器之間的協(xié)作,提高了應(yīng)用的服務(wù)效率。
高并發(fā)
在機(jī)械系的存儲(chǔ)環(huán)境中,應(yīng)用種類多,并發(fā)訪問的程度較高,這給存儲(chǔ)系統(tǒng)帶來很大的壓力。A2000集群存儲(chǔ)系統(tǒng)通過多臺(tái)存儲(chǔ)節(jié)點(diǎn)同時(shí)存取數(shù)據(jù)的方法,滿足了高并發(fā)訪問的需求。在應(yīng)用服務(wù)器端,當(dāng)應(yīng)用程序向存儲(chǔ)系統(tǒng)上寫文件時(shí),文件將分片存放到多臺(tái)存儲(chǔ)節(jié)點(diǎn)上;在讀文件時(shí),系統(tǒng)則并發(fā)地從多個(gè)服務(wù)器上讀取數(shù)據(jù)。如此一來,大量的數(shù)據(jù)I/O請(qǐng)求被分散到了多臺(tái)存儲(chǔ)節(jié)點(diǎn)上,聚合帶寬由多臺(tái)的存儲(chǔ)節(jié)點(diǎn)上的帶寬相加而成,使得所有的存儲(chǔ)節(jié)點(diǎn)上的磁盤性能和網(wǎng)絡(luò)帶寬都能得到充分的利用,克服了原有系統(tǒng)單一出口點(diǎn)所造成的性能瓶頸,很好地實(shí)現(xiàn)用戶的高并發(fā)訪問需求。
高可靠
A2000集群存儲(chǔ)系統(tǒng)內(nèi)置一套完整的故障恢復(fù)流程,利用副本技術(shù)使得數(shù)據(jù)出現(xiàn)故障時(shí)能自動(dòng)恢復(fù),有效地消除了單點(diǎn)故障。對(duì)于用戶而言,任何硬件故障都無需進(jìn)行手動(dòng)處理,他們唯一的管理工作的就是在容量不夠的時(shí)候添加硬件和更換損壞的硬件,保證了A2000集群存儲(chǔ)系統(tǒng)能夠不間斷地提供穩(wěn)定的存儲(chǔ)服務(wù)。
易整合與易擴(kuò)展
A2000集群存儲(chǔ)系統(tǒng)支持現(xiàn)有的異構(gòu)存儲(chǔ)系統(tǒng),利用***的管理模塊與傳統(tǒng)存儲(chǔ)結(jié)構(gòu)實(shí)現(xiàn)無縫連接。同時(shí),它也能夠無縫兼容多種不同的操作系統(tǒng)。另外,A2000集群存儲(chǔ)系統(tǒng)可以支持動(dòng)態(tài)地?cái)U(kuò)展存儲(chǔ)容量,即利用配置工具動(dòng)態(tài)添加存儲(chǔ)節(jié)點(diǎn)以擴(kuò)大系統(tǒng)的容量和規(guī)模(期間無需中斷任何應(yīng)用),而且隨著存儲(chǔ)節(jié)點(diǎn)數(shù)據(jù)的增多,整套系統(tǒng)的聚合帶寬也會(huì)線性的增長,實(shí)現(xiàn)自動(dòng)負(fù)載均衡,完全可以滿足業(yè)務(wù)不斷發(fā)展所產(chǎn)生的容量和性能需求。
易管理
除此以外,初志A2000集群存儲(chǔ)系統(tǒng)配有簡單易用的圖形化管理和監(jiān)控界面,支持用戶通過專用的安全通道進(jìn)行遠(yuǎn)程配置和全系統(tǒng)監(jiān)控,智能地發(fā)現(xiàn)各類軟硬件故障并統(tǒng)一匯總,保證用戶能夠及時(shí)處理故障,同時(shí)也減少了他們查找故障的工作量。
初志A2000集群存儲(chǔ)解決方案幫助清華大學(xué)機(jī)械系建立了一套完善的、高效的高性能計(jì)算存儲(chǔ)系統(tǒng),得到了用戶的認(rèn)可與好評(píng)。通過使用初志A2000集群存儲(chǔ)解決方案,清華大學(xué)機(jī)械系不僅在存儲(chǔ)使用率、高并發(fā)性、高可靠性等方面都得到了較大提升,有了更強(qiáng)大的計(jì)算能力,而且通過存儲(chǔ)系統(tǒng)強(qiáng)大的整合性及易管理性的促進(jìn)下,也有效降低了采購成本及IT運(yùn)營成本。