周五啦,講個小故事
今天周五啦~
輕松一下
小編來和大家講個小故事
還記得當年聲勢浩大,被稱為20世紀人類三大自然科學研究計劃之一的“人類基因組計劃”嗎?
對,就是那個集美、中、英、法等世界多個國家之力,預計耗時15年和耗資30億美元,旨在測定人類基因組全部DNA序列的項目。
人類基因組計劃logo
不過這個項目在進行到第八年的時候,卻發生了一段小插曲,正是這個小插曲,加速了人類基因組計劃的完成。
今天的故事
我們就從這個小插曲展開
時間回到1998年
當時人類基因組計劃正有條不紊地進行,這時突然冒出一個叫Celera的公司,竟然宣稱說,他們可以用更少的資金(僅3億美元),并在三年內完成這一項目!
▐ What?集世界上多個國家人力物力的項目,竟然抵不過一家私人公司?
顯然,Celera公司是有備而來,他們有如此底氣的原因就是采用了和人類基因組計劃不同的測序策略——全基因組霰彈槍測序法。
簡單來說,這項技術是將整個基因組直接切成許多小而重疊的片段,然后再統一將這些小片段直接進行“Sanger測序”,最后通過算法檢測小片段之間的重疊部分來直接重構人類基因組,使得基因測序的速度更快。
此外,Celera公司還想申請對基因的專利保護,他們一開始宣稱只尋求對200至300個基因的專利權保護,但隨后又修改為尋求對“完全鑒定的重要結構”的總共100至300個靶基因進行知識產權保護。到1999年,Celera想要申請對6500個完整的或部分的人類基因進行初步專利保護。Celera公司的這一舉動被認為會阻礙遺傳學研究,而招致了批評。由此,人類基因組計劃團隊感受到了巨大壓力,這使得他們不得不改進策略,進一步加速其工作進程。
最終,經過3年你追我趕,這個比賽有結果了。
2001年2月
雙方握手言和,同時發布了完成度超過90%的人類基因組草圖。這比原定計劃提早了好幾年,并且所有人類基因組數據為人類共同財富,不允許專利保護,且必須對所有研究者公開!
為慶祝人類基因組計劃完成而發行的郵票
回過頭來看,人類基因組計劃對整個生命科學研究帶來了深遠影響,相關應用已大大超出了生命科學本身,推動了一系列相關產業的發展。想象一下,曾經需要全球數個國家花費數十年,耗資超過30億美元的基因組測序,到今天只需幾小時、幾百元的成本。
不過,雖然技術在突飛猛進,但每個人身上大約31.6億個堿基對卻是始終不變,而這就帶來了一個問題——數據量太大了。
基因測序的步驟是將細胞放入基因測序儀,以此啟動破譯流程。但人類基因組數量龐大,如果從頭至尾全部測序工作量實在太大。因此,細胞中的DNA會被分解成更易于管理的很多個小片段。從本質上來說,測序儀就是拍攝所有片段的快照,并利用計算能力對快照進行初始分析,然后將分析結果按某種文件格式進行保存,以便在流程下一階段進行處理。
在這個過程中,不僅需要強大的計算能力以快速得出分析結果,并且每一次的快照都會產生大量數據,而一個人完整的基因組測序數據文件大小約為200GB,隨著近年來基因測序產業的火熱,這給基因測序公司帶來了巨大的IT挑戰。
具體來說,海量基因數據帶來的數據存儲、計算、安全等多方面挑戰,已成為行業進一步發展必須解決的問題:
◆ 數據存儲:從最初的人類基因組開始細分擴展,目前基因測序技術已經涉及到腫瘤、遺傳病檢測,擴展到植物、遠古生物、細菌、病毒、微生物的基因檢測。因此,數據種類和數據量都異常龐大,經常以PB為單位保存。
◆ 數據計算:基因序列數目龐大,對基因進行同源性搜尋、比對、分析、遺傳發育分析等需要對海量、復雜、多變的數據進行分析和挖掘。這要求海量計算資源的支持,對計算性能、內存容量、數據帶寬等要求很高。
◆ 數據安全:基因數據較為隱私,但傳統的基因公司IT能力較弱,安全措施不到位,防御能力很弱。
◆ 數據全球化:由于基因行業特殊性,很多樣本數據需要到當地采集。如果有數據共享,就需要全球化的多數據中心支持。
應當如何應對?
戴爾易安信有辦法!
在大規模樣本的數據分析和挖掘方面,戴爾易安信可以提供高性能計算(HPC)、機器學習、人工智能、大數據分析等多種應用場景的解決方案。其中的生命科學HPC方案,可以根據臨床要求,幫助生物信息學中心、遺傳學中心經濟快捷地將基因分析轉為臨床治療方案。
❖ 在數據存儲方面,戴爾易安信SC系列高端存儲每個陣列可提供最大6PB原始容量,通過存儲聯邦技術可提供更多的存儲容量,滿足未來擴展需求。同時,在戴爾易安信SC存儲上使用重復數據刪除和數據壓縮,能有效提高整個存儲的利用率。
*戴爾易安信SC系列高端存儲搭載英特爾®至強®可擴展處理器,可為任何企業提供未來就緒的性能、靈活性和長期價值。為SC系列高端存儲提供了卓越的性能和效率,可對客戶核心系統尤其是HPC系統進行支持。
❖ 在數據安全方面,戴爾易安信SC系列存儲可以讓客戶以更加簡單、自主可控的方式構建“雙活+3DC”系統,實現真正的業務永續。同時,還提供全面的解決方案,滿足復制、持續數據保護、快照、備份、歸檔的數據保護需求,例如DataDomain、Avamar、Networker、RecoverPoint、VPLEX、Unity、PowerMax、i2Box-Dell等等。
❖ 在數據共享、全球化、多數據中心方面,戴爾易安信端到端基礎架構解決方案,將服務器、存儲、網絡和軟件工具整合在一起。其優化的IT架構能夠充分發揮服務器、存儲、網絡的高可用、高動態、高可擴展的特性,通過細粒度優化資源和以負載為核心的資源集中統一管理,提高資源利用率和管理效率,并降低新增采購成本。
同時,戴爾易安信解決方案與VMware虛擬化平臺緊密整合,實現了服務器的虛擬化管理,從而為用戶提供靈活的云服務。
當數據存儲、計算與分析的
能力更上一層樓
基因研究等人類科學探索
也將獲得更大助力
不斷精進的道路上
戴爾易安信
一直都在...
尊敬的讀者
數據量爆發的時代
企業需要什么樣的存儲設備與技術
來應對呈指數級增長的數據壓力?
不同行業的企業
需要怎樣的存儲解決方案
來徹底釋放大數據的價值?
存儲作為現代化數據中心建設中關鍵的一環
將如何助力企業為迎接大數據挑戰做好準備?
戴爾科技精品課堂
帶您走進下一代存儲
挖掘存儲聯邦技術的價值
相關內容推薦:全球IT圈票選存儲領域最佳品牌企業
相關產品:Dell EMC PowerStore X 系列存儲