ENCODE變廢為寶 大數據成就基因工程
1972年,日本遺傳學家大野乾給不能編碼蛋白質的DNA片段起名為“垃圾DNA”。然而在2012年9月5日的這篇“80%的基因組是有功能”的報道中說明,這些大野乾稱為“垃圾”的DNA實際上是一個龐大的控制面板,能調控數以萬計基因的活性,并決定了一些基因的特質。如果沒有這些開關的調控,基因將不能正常工作,而這些區域也許會導致人類患上疾病。這個發現震驚了整個科學界!
但是對于計算機領域的我們來說,神奇的不僅是ENCODE項目的成果,還有那些提供支持的基礎設施。新聞稿還報道了ENCODE產生了15TB以上的原始數據,數據分析更是耗費了300年以上的執行時間!對于那些以大數據謀生的公司來說這也許算不了什么 — Facebook公布日處理數據超過500TB。但是別忘了,ENCODE的數據是在科學界中共享和存取的!
當我們試圖去建立節約和有組織的大數據時,ENCODE項目還是值得我們借鑒的。它不只是提出了一些新的遺傳物質真理 — 還是一個全球性的合作,需要32個實驗室,收集和完成多于147個組織樣本上超出1600多個實驗產生的數據,然后進一步的使用這些數據收獲更多的發現。
在近期一份來自ENCODE的報告中。UCSC Genome Browser項目主任ENCODE Data Coordination Center主事Jim Kent公布了一些難題。這些挑戰來自確定實驗是獨立的、有價值的及它仍然能夠產生精確的數據。
Kent及他的生物分子科學與工程數據協調小組(位于加州大學圣克魯茲分校中心),就項目規模提出了許多挑戰。首先,他們必須協調一部分來自世界各地制造數據的科學家。Kent還說,我們有5個數據收割者周游于各個實驗室之間,在高峰期通常1周4次的電話會議還要輔以1年兩次的大型會議,還有數不清的電子郵件和網絡電話。
數據及活動進程/QA的管理的難題更是如影隨形。基因數據管理Appistry公司的副總裁Sultan M.Meghji說,大部分的人都致力于數據的管理,好讓它能一直保持最新。
該項目還使用了龐大的數據集。研究人員同樣對結果分析工具進行了開發。其中包括為了追蹤遺傳分析細節而設計的數據庫HaploReg和RegulomeDB。還有一個預配置的虛擬機提供托管和對項目所產生數據進行分析。當然數據會對研究者開放,該項目的參與者還鼓勵有興趣人士積極的學習如何使用數據并為他們提供了一個門戶網站。
隨著信息科技的發展,世界范圍的互通性得到顯著性的提高,以往以實驗室為單位的科技研究將漸漸的被有組織的多實驗室研究所替代。而隨著云計算的發展、大數據的完善及新技術的問世,這些現有的難題必將被逐一解決!