Dell EMC NFS存儲(chǔ)解決方案|哥斯拉 vs. 金剛,誰贏了?
文章來自公眾號(hào)戴爾易安信解決方案
話說前陣子上映的
好萊塢大片
《哥斯拉大戰(zhàn)金剛》
可在全國各地
掀起了一波觀影浪潮
兩個(gè)原本在不同
電影世界里的巨獸
突然走到了同一個(gè)熒幕
成為本片的一大看點(diǎn)
而電影海報(bào)
也很好展現(xiàn)了這種戲劇性
畫面里哥斯拉和金剛
互相揮舞拳頭
大戰(zhàn)一觸即發(fā)
讓人迫切想知道
誰才是真正的怪獸“一哥”
那么,到底誰更厲害呢?
(提示:下文劇透警告)
看過電影的小編表示,金剛被哥斯拉暴打...在第一次交手的時(shí)候,哥斯拉被一拳擊中只是退了個(gè)踉蹌,而金剛被打一拳直接倒在地上。到了第三次交手,金剛更是被打得奄奄一息...
其實(shí),這也不能怪金剛太弱,實(shí)在是對(duì)手太強(qiáng)了...“哥斯拉”的原型是生活在海洋島嶼上的一種蜥蜴,因?yàn)槿祟惒患庸?jié)制地進(jìn)行核實(shí)驗(yàn),引起了基因突變而變成了怪獸。它不僅有強(qiáng)悍的肉體,還有“原子吐息”這種BUG級(jí)別的魔法攻擊。
而金剛呢,說到底只是一只長得很大的的猩猩,雖然有人類一般的智慧,但在絕對(duì)實(shí)力面前,依然只有被碾壓的份。
這是不是也從側(cè)面說明基因的重要性呢?
了解你的基因
說起基因,今年是第一版人類基因組序列圖譜發(fā)布20周年。這20年里,基因測序技術(shù)的發(fā)展勢如破竹,為生命科學(xué)的研究突破創(chuàng)造了不計(jì)其數(shù)的科學(xué)價(jià)值。
當(dāng)前,基因測序在臨床上的應(yīng)用主要有兩類,一類是針對(duì)普通人的疾病篩查,通過測定已知的與某種疾病相關(guān)的基因序列位點(diǎn),來推斷其未來罹患該種疾病的概率;另一類是針對(duì)癌癥等致命性疾病的伴隨診斷,通過測定某些特定的基因序列位點(diǎn),在一系列的藥物或治療方案中找到針對(duì)特定患者最為有效的藥物或方案。
關(guān)于基因測序的流程,主要有以下幾個(gè)步驟:
測序數(shù)據(jù)分析流程(以全基因組分析為例)如下圖:
實(shí)驗(yàn)儀器測量數(shù)據(jù)處理和分析,首先通過實(shí)驗(yàn)儀器對(duì)生物分子進(jìn)行測量,使用一些后處理軟件對(duì)原始的大量數(shù)據(jù)進(jìn)行處理和分析。然后對(duì)序列數(shù)據(jù)進(jìn)行同源及相似性搜尋、比對(duì)、序列分析、遺傳發(fā)育分析等。
基因測序技術(shù)應(yīng)用需要對(duì)海量、復(fù)雜、多變的數(shù)據(jù)進(jìn)行分析計(jì)算,因此對(duì)高性能計(jì)算機(jī)的計(jì)算性能、內(nèi)存容量、數(shù)據(jù)帶寬等要求很高,同時(shí)還必須支持完善的基因測序分析工作流。
在短短十幾年間,基因測序技術(shù)已經(jīng)形成了多個(gè)研究方向,其中與高性能計(jì)算相關(guān)的主要研究重點(diǎn)如下:
01序列比對(duì)
序列比對(duì)(SequenceAlignment)的基本問題是比較兩個(gè)或兩個(gè)以上符號(hào)序列的相似性或不相似性。在序列對(duì)比的過程中,將會(huì)產(chǎn)生巨量的數(shù)據(jù),這對(duì)我們的存儲(chǔ)系統(tǒng)帶來了較大規(guī)模的挑戰(zhàn),如下圖:
可以看出,現(xiàn)在用于存儲(chǔ)的硬盤容量每14個(gè)月會(huì)有一倍的增長,而基因序列的數(shù)據(jù)量則每5月左右會(huì)翻一番。
02序列拼接
序列拼接是將測序生成的reads短片段拼接起來,恢復(fù)出原始的序列。該問題是序列分析的最基本任務(wù),是基因組研究成功與失敗的關(guān)鍵,拼接結(jié)果直接影響到序列標(biāo)注,基因預(yù)測、基因組比較等后續(xù)任務(wù)。
基因組序列的拼接也是基因組研究必須解決的首要難題。其困難不僅來自它的海量數(shù)據(jù)(以人類基因組序列為例,從數(shù)量為10兆級(jí)的片斷恢復(fù)出長度為億級(jí)的原始序列),而且源于它含有高度重復(fù)的序列。
從計(jì)算機(jī)方面來講,在拼接初期,會(huì)有大量的初始數(shù)據(jù)導(dǎo)入內(nèi)存,然后對(duì)這些數(shù)據(jù)進(jìn)行處理。因此,序列拼接對(duì)于計(jì)算機(jī)的內(nèi)存量和計(jì)算能力都有非常大的需求。
基因測序產(chǎn)品方案配置建議
根據(jù)以上基因測序軟件的普遍特點(diǎn),戴爾科技給出了如下的集群配置建議:
(1)基因比對(duì)、拼接等計(jì)算非浮點(diǎn)密集型計(jì)算應(yīng)用,CPU利用率、idle%呈現(xiàn)規(guī)律性交替變化,并且程序起始階段CPU利用率低,主要進(jìn)行I/O處理,高主頻可加快進(jìn)度,雙路節(jié)點(diǎn)配置建議選用戴爾科技新一代PowerEdge服務(wù)器平臺(tái),提供最苛刻工作負(fù)載和卓越性能。
(2)內(nèi)存帶寬隨CPU利用率交替變化并且峰值并不高,內(nèi)存容量需求較大,基本上是輸入序列大小的5-6倍,單節(jié)點(diǎn)搭配8條或16條32GB或64GB內(nèi)存即可滿足中小規(guī)模算例需求。
對(duì)于大規(guī)模的基因拼接、比對(duì)計(jì)算,內(nèi)存容量建議配置在2TB以上,PowerEdge R940xs服務(wù)器最大可支持6TB內(nèi)存(單根128GB*48根),可充分保障計(jì)算需求。
(3)網(wǎng)絡(luò)壓力較低,僅在讀寫I/O時(shí)涉及到較多網(wǎng)絡(luò)傳輸,普通10G或25G以太網(wǎng)即可滿足網(wǎng)絡(luò)帶寬需求,選擇高速InfiniBand網(wǎng)絡(luò)也會(huì)在一定程度上降低延遲,提升效率。
(4)存儲(chǔ)讀寫壓力適中,磁盤讀寫均呈現(xiàn)階段性,小規(guī)模算例存儲(chǔ)讀寫峰值帶寬均在500MB/s以下,選用存儲(chǔ)服務(wù)器PowerEdge 740xd或740xd2即可滿足需求。
中規(guī)模算例如人體全基因組比對(duì)、拼接等,在程序初始階段輸入文件磁盤讀取、計(jì)算結(jié)果磁盤寫階段對(duì)存儲(chǔ)的帶寬壓力會(huì)比較大,此時(shí)建議選擇Dell EMC NFS存儲(chǔ)解決方案(NSS),可提供5GB/s以上的帶寬,更好地應(yīng)對(duì)存儲(chǔ)壓力。
Dell EMC NFS存儲(chǔ)解決方案介紹
Dell EMC NFS存儲(chǔ)解決方案(NSS)是一種完全基于NFS的文件存儲(chǔ),提供包括所有必須的硬件、軟件、性能指南、支持和部署服務(wù),它實(shí)現(xiàn)了功能、性能和可擴(kuò)展性的完美結(jié)合,能夠處理大量數(shù)據(jù)請(qǐng)求,從而支持高達(dá)1PB(5U空間84盤位*12TB單盤容量)的原始存儲(chǔ)空間。
它由戴爾科技HPC專家采用成熟的戴爾易安信技術(shù)進(jìn)行設(shè)計(jì)和優(yōu)化,與未經(jīng)優(yōu)化的NFS解決方案相比,吞吐量可提高30%。在下面的案例中,戴爾科技采用最新的硬件設(shè)備和xfs,lvm 及l(fā)vs等技術(shù),配置包括2臺(tái)PowerEdge R740服務(wù)器,1臺(tái)PowerVault ME4084存儲(chǔ),可用容量為640TB,以達(dá)到7GB/s的讀和4.8GB/s寫性能。
方案架構(gòu)圖圖
測試配置清單
NSS7.4-HA服務(wù)器軟件版本
測試摘要:
NSS7.4解決方案的I/O性能測試中,所有性能測試均在無故障的情況下進(jìn)行,以測量解決方案的最大能力。測試重點(diǎn)是三種類型的I/O模式:大量的順序讀取和寫入、小量的隨機(jī)讀取和寫入,以及三項(xiàng)元數(shù)據(jù)操作(文件創(chuàng)建、統(tǒng)計(jì)和刪除)。
840TB(原始存儲(chǔ)大小)配置通過EDR上的IPoIB網(wǎng)絡(luò)連接進(jìn)行了基準(zhǔn)測試。使用32個(gè)節(jié)點(diǎn)計(jì)算群集來生成基準(zhǔn)測試的工作負(fù)載。每個(gè)測試都在一系列客戶端上運(yùn)行,以測試解決方案的可擴(kuò)展性。
本研究中使用了IOzone和mdtest基準(zhǔn)。IOzone用于順序和隨機(jī)測試。對(duì)于順序測試,使用了1024KiB的請(qǐng)求大小。傳輸?shù)臄?shù)據(jù)總量為2TB,以確保NFS服務(wù)器高速緩存達(dá)到飽和。隨機(jī)測試使用了4KiB請(qǐng)求大小,每個(gè)客戶端讀取并寫入一個(gè)4GiB文件。使用mdtest基準(zhǔn)配合OpenMPI執(zhí)行了元數(shù)據(jù)測試,包括文件創(chuàng)建、統(tǒng)計(jì)和刪除操作。
IPoIB大規(guī)模順序I/O性能
IPoIB隨機(jī) I/O性能
IPoIB元數(shù)據(jù)操作
為了評(píng)估系統(tǒng)的元數(shù)據(jù)性能,使用了MDTest工具版本1.9.3。使用的MPI發(fā)行版為OpenMPI版本1.10.7。執(zhí)行元數(shù)據(jù)測試的方法是:為最多32個(gè)線程數(shù)創(chuàng)建960000個(gè)文件,然后增加文件數(shù),以測試解決方案的可擴(kuò)展性,如表列出的結(jié)果。
元數(shù)據(jù)測試:跨線程分發(fā)文件和目錄
IPoIB文件創(chuàng)建性能
IPoIB文件統(tǒng)計(jì)性能
IPoIB文件刪除性能
測試結(jié)果匯總
方案優(yōu)勢總結(jié)
適用于HPC NFS存儲(chǔ)的Dell EMC Ready解決方案具有如下優(yōu)勢:
01統(tǒng)一交付
提供基于標(biāo)準(zhǔn)的戴爾易安信PowerEdge服務(wù)器、PowerVault ME4存儲(chǔ)產(chǎn)品以及Redhat的可擴(kuò)展文件系統(tǒng)幫助用戶部署NFS服務(wù)器,以達(dá)到最佳性能及可靠性。縮短用戶的安裝時(shí)間,降低了規(guī)劃和部署存儲(chǔ)系統(tǒng)的成本。
02高性能
針對(duì)HPC NFS存儲(chǔ)的Dell EMC Ready解決方案對(duì)吞吐量性能進(jìn)行了調(diào)整,存儲(chǔ)單柜可支持5U84塊硬盤,可提供7GB/s的讀和4.8GB/s寫性能。
03可擴(kuò)展
通過在受支持的單個(gè)命名空間中輕松擴(kuò)展多達(dá)64個(gè)節(jié)點(diǎn),可以更輕松地滿足未來需求,從而以更快的吞吐量運(yùn)行更大、更復(fù)雜的應(yīng)用程序。
另外,戴爾科技提供提供針對(duì)Dell EMC HPC NFS存儲(chǔ)解決方案的安裝和實(shí)施服務(wù),戴爾科技現(xiàn)場部署工程師可將此解決方案部署至您的HPC環(huán)境或非HPC環(huán)境中,確保您的存儲(chǔ)解決方案獲得成功。
尊敬的讀者
如果你想了解更多
戴爾科技在醫(yī)療行業(yè)的
領(lǐng)先優(yōu)勢和技術(shù)成果
歡迎參加4月23日
于杭州舉辦的
2021中華醫(yī)院信息網(wǎng)絡(luò)大會(huì)
戴爾科技將攜手合作伙伴
帶來全面的醫(yī)療IT基礎(chǔ)架構(gòu)
解決方案
歡迎掃描下圖二維碼
或點(diǎn)擊文末閱讀原文
報(bào)名參會(huì)
Ps. 今天成功報(bào)名預(yù)約的同學(xué)
還有機(jī)會(huì)抽取禮品~
▼
相關(guān)內(nèi)容推薦:戴爾春季新品特惠月開啟|服務(wù)器、交換機(jī)、存儲(chǔ)等產(chǎn)品鉅惠進(jìn)行中