從病毒研究談起,聊聊冷凍電鏡及背后的HPC
了解更多數(shù)字化轉(zhuǎn)型方案查看此鏈接:
https://www.dellemc-solution.com/home/index.html
今日tips
嬰幼兒能不能戴口罩?
通常來(lái)講,1-2歲的嬰幼兒不能戴口罩。N95口罩透氣度較差,不適合孩子使用。對(duì)于兒童,推薦佩戴兒童專(zhuān)用的防護(hù)口罩,且家長(zhǎng)需隨時(shí)注意孩子有無(wú)呼吸困難等不適情況。
——來(lái)自@人民日?qǐng)?bào)
拋開(kāi)疫情不談
我們來(lái)聊聊
這次疫情的始作俑者——病毒
科學(xué)家們是如何研究病毒的
關(guān)于病毒,這是一類(lèi)沒(méi)有細(xì)胞結(jié)構(gòu)的簡(jiǎn)單的特殊生物,它們的結(jié)構(gòu)基本相似,一般由蛋白質(zhì)的外殼和內(nèi)部的遺傳物質(zhì)(核酸)組成。
對(duì)于一種新的病毒,我們只有去發(fā)現(xiàn)它、了解它、研究它,最終才能制造出能治愈患者的藥物,以及增強(qiáng)人體免疫的疫苗。
那么一般而言,對(duì)病毒的研究一般都有如下內(nèi)容和方法:
- 病毒培養(yǎng):在病毒學(xué)研究中除用做病毒增殖、病原分離以外,還用于研究病毒的復(fù)制過(guò)程及細(xì)胞的病理變化,研究病毒與宿主的互作關(guān)系,探討抗體與抗病毒物質(zhì)對(duì)病毒的作用方式與機(jī)制等。還可用于病毒的分離鑒定、抗原的制備、疫苗和干擾素的生產(chǎn)、病毒性疾病診斷和流行病學(xué)調(diào)查等。
- 病毒的分離純化與測(cè)定:屬于病毒學(xué)研究的基本技術(shù)。通過(guò)病毒的分離純化,可獲得純化的、有感染性的病毒制備物。通過(guò)病毒測(cè)定可確定病毒數(shù)量及活性。病毒的分離是將疑有病毒而待分離的標(biāo)本經(jīng)處理后,接種于相應(yīng)敏感的宿主、雞胚或感染細(xì)胞,培養(yǎng)一段時(shí)間后,通過(guò)檢查不同病毒的特異性表現(xiàn)確定病毒的存在,并對(duì)病毒進(jìn)行提取和純化。
- 病毒的鑒定:利用形態(tài)學(xué)、物理學(xué)、化學(xué)、生物學(xué)、免疫學(xué)、分子生物學(xué)、生物信息學(xué)等鑒定病毒的性質(zhì),描述病毒的特征,是病毒分類(lèi)的前提。病毒鑒定也是診斷病毒性疾病的可靠方法。
病毒如何觀察?
針對(duì)病毒做結(jié)構(gòu)研究,就少不了在微觀世界對(duì)病毒本身進(jìn)行觀察和成像。目前,電子顯微三維重構(gòu)(electroneicroscopy,也稱(chēng)電鏡三維重構(gòu))、X射線晶體學(xué)(X-ray crystallography)、核磁共振波譜學(xué)(nuclearmagnetic resonance,NMR)是結(jié)構(gòu)生物學(xué)的三大研究手段。
不過(guò)后兩種技術(shù)都有各自的局限性,比如X線晶體學(xué)只能對(duì)生長(zhǎng)極為有序的三維結(jié)晶進(jìn)行觀察,而磁共振技術(shù)則要求測(cè)樣品顆粒小,純度非常高,不能夠有重疊峰出現(xiàn)。而冷凍電子顯微鏡,簡(jiǎn)稱(chēng)冷凍電鏡(cryo-electron microscopy,cryo-EM),已成為生物大分子的結(jié)構(gòu)研究的重要手段,這項(xiàng)技術(shù)極大地推動(dòng)了生物學(xué)的發(fā)展。
什么是冷凍電鏡?
冷凍電鏡是將生物大分子快速冷凍后,在低溫環(huán)境下利用透射電子顯微鏡對(duì)樣品進(jìn)行成像,再經(jīng)圖像處理和重構(gòu)計(jì)算獲得樣品的三維結(jié)構(gòu)。
目前,冷凍電鏡三維重構(gòu)技術(shù)由冷低溫制樣、低劑量電鏡成像和計(jì)算機(jī)圖像處理三部分組成。
隨著冷凍電子顯微鏡的自動(dòng)化、分辨率、直接電子探測(cè)技術(shù)以及高性能圖像處理技術(shù)的大幅提高,越來(lái)越適合分析大的難以形成三維晶體復(fù)合體的三維結(jié)構(gòu),如膜蛋白以及病毒和蛋白質(zhì)-核酸復(fù)合物等。
▐ 簡(jiǎn)而言之:首先利用冷凍電鏡對(duì)冷凍于液氮溫度的生物大分子顆粒進(jìn)行成像,以獲得數(shù)萬(wàn)到數(shù)百萬(wàn)張生物大分子照片,然后通過(guò)一定的算法來(lái)整合這些圖像,計(jì)算出生物大分子的三維結(jié)構(gòu)。這其中三維重構(gòu)算法是核心內(nèi)容,用于測(cè)定出每一張照片的諸多參數(shù)。
它的基本原理基于中央截面定理:三維物體沿電子束方向投影的傅里葉變換是該物體所對(duì)應(yīng)的傅里葉空間中通過(guò)中心且垂直于投影方向的一個(gè)截面。那么一個(gè)物體完備投影的二維傅里葉變換一定能夠完全填充該物體的三維傅里葉空間,因此物體的完備投影與物體的三維結(jié)構(gòu)是等價(jià)的。
所以在實(shí)際應(yīng)用中,我們收集到海量的全同顆粒在不同方向的投影(單顆粒),首先通過(guò)等價(jià)線、投影匹配等方法確定每張投影圖像的取向和中心,然后對(duì)每張投影圖進(jìn)行傅里葉變換,按照投影方向填充到三維傅里葉空間對(duì)應(yīng)的切面,并進(jìn)行差值計(jì)算得到倒空間的網(wǎng)格點(diǎn)數(shù)值,最后再進(jìn)行反傅里葉變換,就可得到實(shí)空間的三維結(jié)構(gòu)。
冷凍電鏡的三維重構(gòu)流程
可以看到在整個(gè)流程中,數(shù)據(jù)采集、圖像處理、三維重構(gòu)是非常核心的三個(gè)步驟,對(duì)計(jì)算和存儲(chǔ)的需求非常高,以下是部分顆粒挑選、圖片處理和三維重構(gòu)的軟件程序:
用途 |
名稱(chēng) |
描述說(shuō)明 |
支持GPU |
官方網(wǎng)址 |
自動(dòng)化顆粒挑選 |
Leginon |
從透射電子顯微鏡自動(dòng)收集圖像。支持的儀器:FEI(Tecnai、Titan Krios、Polara)、JEOL(3200、3100、2100、1230)、CCD(TVIPS、Gatan、FEI)、直接探測(cè)器(Gatan K2、FEI Falcon、直接電子DE12、DE20) |
單GPU 單節(jié)點(diǎn) |
http://nramm.nysbc.org/software/ |
圖像處理流水線 |
Appion |
處理和分析電磁圖像的“管道”。Appion與Leginon數(shù)據(jù)采集集成,但也可以在使用一組提供的工具上傳圖像(數(shù)字或掃描顯微照片)后單獨(dú)使用。 底層包集成包含EMAN, Spider, Frealign, Imagic, XMIPP, IMOD, ProTomo, ACE, CTFFind等并行重構(gòu)程序 |
單GPU 單節(jié)點(diǎn) |
http://nramm.nysbc.org/software/ |
三維重構(gòu) |
RELION |
(for REgularised LIkelihood OptimisatioN)是一個(gè)獨(dú)立的計(jì)算機(jī)程序,它采用經(jīng)驗(yàn)貝葉斯方法對(duì)冷凍電鏡(cryo-EM)中的(多個(gè))三維重建或二維類(lèi)平均值進(jìn)行求解。在相應(yīng)的貝葉斯框架中,統(tǒng)計(jì)模型的許多參數(shù)都是從數(shù)據(jù)中獲得的,所以可以在不需要用戶有豐富專(zhuān)業(yè)知識(shí)的情況下獲得客觀和高質(zhì)量的結(jié)果。 |
多GPU 單節(jié)點(diǎn) |
https://www3.mrc-lmb.cam.ac.uk/relion/ |
三維重構(gòu) |
cryoSPARC |
CryoSPARC是全球范圍內(nèi)用于從單顆粒冷凍電鏡數(shù)據(jù)獲得三維結(jié)構(gòu)信息的先進(jìn)平臺(tái),結(jié)合先進(jìn)的算法和高性能計(jì)算機(jī)平臺(tái),實(shí)現(xiàn)了蛋白質(zhì)、病毒和分子復(fù)合物的自動(dòng)化、高質(zhì)量和高通量結(jié)構(gòu)發(fā)現(xiàn),用于研究和藥物發(fā)現(xiàn)。 |
多GPU 多節(jié)點(diǎn) |
https://cryosparc.com/ |
許多電鏡三維重構(gòu)程序目前是實(shí)現(xiàn)的任務(wù)級(jí)別的并行,如BSOFT、FREALIGN、IMOD和PRIISM/IVE等。而AUTO3DEM、IMAGIC、UCSFTOMOgraphy等則完全采用了MPI并行方式。著名的單顆粒三維重構(gòu)軟件EMAN目前所有的并行手段都已經(jīng)實(shí)現(xiàn),SPIDER和IMIRS程序則采用了OpenMP和MPI并行方式,但SPIDER保留了任務(wù)級(jí)的并行方式,而IMIRS程序沒(méi)有。XMIPP則采用了MPI和pthreads方式。
通過(guò)上面的分析,可以發(fā)現(xiàn)冷凍電鏡三維重構(gòu)的高性能計(jì)算IT需求歸納為以下幾部分:
- 主要為浮點(diǎn)計(jì)算,其中有大量的單精度或雙精度快速傅里葉(FFT)計(jì)算。
- 軟件內(nèi)存需求和I/O需求大,一般都需要配置并行文件系統(tǒng)。
針對(duì)傅里葉(FFT)計(jì)算,目前主流大量采用nVidia GPU是行業(yè)慣例,nVidia CUDA為開(kāi)發(fā)人員提供了多種庫(kù),其中cuFFT庫(kù)則是CUDA中專(zhuān)門(mén)用于進(jìn)行傅里葉變換的函數(shù)庫(kù)。“cuFFT”全稱(chēng)是CUDAFast Fourier Transform,顧名思義,它提供了一系列的函數(shù)幫助開(kāi)發(fā)者進(jìn)行快速傅里葉變換的運(yùn)算。
cuFFT庫(kù)由兩個(gè)子庫(kù)構(gòu)成,它們分別是CUFFT和CUFFTW。CUFFTW庫(kù)是一個(gè)移植工具(portingtool),它為用戶提供了一些接口,以使得用戶使用FFTW庫(kù)(一個(gè)非常流行的CPU快速傅里葉變換庫(kù))編寫(xiě)的程序能夠運(yùn)行在CUDAGPU上。而CUFFT則是純CUDA接口的快速傅里葉變換庫(kù)。
針對(duì)高性能計(jì)算文件系統(tǒng),業(yè)界解決方案有很多:Lustre、BeeGFS、分布式橫向擴(kuò)展NAS等等。
病毒研究也是對(duì)
計(jì)算和存儲(chǔ)能力的大考
戴爾科技集團(tuán)是世界500強(qiáng)的IT解決方案企業(yè),多年以來(lái)在高性能計(jì)算HPC領(lǐng)域有深厚的沉淀,在國(guó)內(nèi)很多高校生命科學(xué)院也成功實(shí)施部署了規(guī)模不等的冷凍電鏡HPC平臺(tái),例如包括清華大學(xué)生命科學(xué)與技術(shù)學(xué)院、北京大學(xué)生命科學(xué)聯(lián)合中心、西湖大學(xué)生命科學(xué)學(xué)院、哈爾濱工業(yè)大學(xué)生命科學(xué)與技術(shù)學(xué)院等,在該領(lǐng)域有豐富的規(guī)劃設(shè)計(jì)及部署實(shí)施經(jīng)驗(yàn)。
前面提到過(guò)由于冷凍電鏡三維重構(gòu)過(guò)程中,需要大量的快速傅里葉FFT計(jì)算,所以需要海量GPU算力資源來(lái)支持,戴爾科技生命科學(xué)類(lèi)HPC解決方案推薦了多款GPU服務(wù)器設(shè)備滿足該需求。
服務(wù)器型號(hào) |
支持CPU的數(shù)量及型號(hào) |
支持GPU的數(shù)量及型號(hào) |
服務(wù)器外形高度 |
R740/R740xd |
2顆Intel®至強(qiáng)®第二代可擴(kuò)展系列處理器 |
3塊雙寬度GPU(如nVidia Tesla V100) 或6塊單寬度GPU(如nVidia Tesla T4) |
2U高度機(jī)架式 |
R7515 |
1顆AMD 第二代EPYC處理器 |
4塊單寬度GPU(如nVidia Tesla T4) |
2U高度機(jī)架式 |
R6515 |
1顆AMD 第二代EPYC處理器 |
2塊單寬度GPU(如nVidia Tesla T4) |
1U高度機(jī)架式 |
R6525 |
2顆AMD 第二代EPYC處理器 |
2塊單寬度GPU(如nVidia Tesla T4) |
1U高度機(jī)架式 |
R840 |
4顆Intel®至強(qiáng)®第二代可擴(kuò)展系列處理器 |
2塊雙寬度GPU(如nVidia Tesla V100) 或4塊單寬度GPU(如nVidia Tesla T4) |
2U高度機(jī)架式 |
R940xa |
4顆Intel®至強(qiáng)®第二代可擴(kuò)展系列處理器 |
4塊雙寬度GPU(如nVidia Tesla V100) 或8塊單寬度GPU(如nVidia Tesla T4) |
4U高度機(jī)架式 |
T640 |
2顆Intel®至強(qiáng)®第二代可擴(kuò)展系列處理器 |
4塊雙寬度GPU(如nVidia Tesla V100) 或8塊單寬度GPU(如nVidia Tesla T4) |
塔式或5U高度機(jī)架式 |
C4140 |
2顆Intel®至強(qiáng)®第二代可擴(kuò)展系列處理器 |
4塊雙寬度GPU(如nVidia Tesla V100) |
1U高度機(jī)架式 |
DSS8440 |
2顆Intel®至強(qiáng)®第二代可擴(kuò)展系列處理器 |
10塊雙寬度GPU(如nVidia Tesla V100) |
4U高度機(jī)架式 |
特別需要提到的是C4140這款服務(wù)器,1U高度可以安裝4塊雙寬度GPU(如nVidia Tesla V100),且支持NVLink或PCI-E兩種架構(gòu)方式可選,用于不同的應(yīng)用業(yè)務(wù)場(chǎng)景,同時(shí)節(jié)省機(jī)柜占用空間。
▲戴爾易安信PowerEdgeC4140
不管是生命科學(xué)類(lèi)超算應(yīng)用,還是校級(jí)超算平臺(tái)綜合性應(yīng)用,近年來(lái)在國(guó)內(nèi)多所知名高校都有成功部署案例如北京大學(xué)、武漢大學(xué)等等。
說(shuō)到HPC集群,除了需要強(qiáng)大的計(jì)算資源以外,還離不開(kāi)存儲(chǔ)資源。
總的來(lái)說(shuō)冷凍電鏡HPC集群對(duì)存儲(chǔ)I/O性能和容量要求較高,原因如下:
- 電鏡投影圖片數(shù)量和尺寸不斷增加(4K × 4K, 8K × 8K);
- 生成三維重構(gòu)文件巨大(GB-TB);
- 若要達(dá)到滿意結(jié)果需要迭代計(jì)算幾十次甚至更多。
比如說(shuō)上海科技大學(xué)免疫化學(xué)研究所饒子和院士(新聞原文:https://new.qq.com/rain/a/20191018A08PWT)所率領(lǐng)的聯(lián)合團(tuán)隊(duì)通過(guò)冷凍電鏡累計(jì)獲得了7萬(wàn)余張合計(jì)超過(guò)100TB的高質(zhì)量照片,完整病毒顆粒接近6萬(wàn)5千顆,最終解析了非洲豬瘟病毒全顆粒的三維結(jié)構(gòu)。這些巨大的數(shù)據(jù)量對(duì)背后的超算系統(tǒng)都是不小的挑戰(zhàn)。
而在存儲(chǔ)領(lǐng)域,戴爾科技集團(tuán)亦有深厚的技術(shù)積累,并且經(jīng)過(guò)多年的市場(chǎng)考驗(yàn),長(zhǎng)期在IDC全球外部存儲(chǔ)設(shè)備市場(chǎng)排名前列,積累了優(yōu)秀的口碑。其針對(duì)HPC應(yīng)用領(lǐng)域,提供了如下多種存儲(chǔ)方案供選擇。既保證性能/容量要求,又提供更多功能選擇供未來(lái)擴(kuò)展業(yè)務(wù)應(yīng)用,并且考慮到客戶的投資回報(bào)。
高性能計(jì)算HPC集群項(xiàng)目,涉及產(chǎn)品眾多,技術(shù)復(fù)雜,一般還會(huì)涉及大量的開(kāi)源操作系統(tǒng)/開(kāi)源應(yīng)用軟件等,其實(shí)施部署復(fù)雜,而售后處理會(huì)涉及到多方面多供應(yīng)商。戴爾科技集團(tuán)為此推出了“適用于HPC的ProSupport附加服務(wù)”,提供了比ProSupport及ProSupportPlus基于設(shè)備本身售后服務(wù)更高級(jí)別的支持。
對(duì)客戶IT管理層來(lái)說(shuō),“適用于HPC的ProSupport附加服務(wù)”帶來(lái)了如下的好處:
- 具有完整硬件和服務(wù)組合的單一提供商:全部由戴爾科技集團(tuán)來(lái)作為售后服務(wù)接口人
- 有更多時(shí)間關(guān)注業(yè)務(wù)目標(biāo)
- 管理群集的成本降低
同時(shí)也給客戶HPC系統(tǒng)管理員帶來(lái)了好處:
- 增強(qiáng)部署/支持生命周期體驗(yàn)
- 標(biāo)準(zhǔn)化服務(wù)確保預(yù)期結(jié)果
- 更快地解決問(wèn)題
- 獲得高級(jí)疑難解答與協(xié)助:就功能、特性、群集配置問(wèn)題、固件版本、互操作性和 HPC 一般“入門(mén)”問(wèn)題提供建議;根據(jù)在部署期間運(yùn)行的性能基準(zhǔn)測(cè)試所建立的預(yù)先記錄級(jí)別,幫助解決群集性能退化問(wèn)題;協(xié)助解決您 HPC 環(huán)境特有的關(guān)鍵支持問(wèn)題。
作者說(shuō)明:本文涉及到一些生命科學(xué)等專(zhuān)業(yè)的知識(shí)內(nèi)容,作者是查閱互聯(lián)網(wǎng)公開(kāi)資料總結(jié)整理而成,由于時(shí)間倉(cāng)促,在文字內(nèi)容上恐有瑕疵或錯(cuò)誤,懇請(qǐng)讀者專(zhuān)家們給出意見(jiàn)和建議,謝謝!
點(diǎn)擊右邊給我一朵小花花
相關(guān)內(nèi)容推薦:虛機(jī)誤刪,"至暗時(shí)刻"來(lái)臨...
相關(guān)產(chǎn)品:PowerEdge C4140服務(wù)器