大數據精準醫療解讀遺傳密碼 未來醫療健康的變革
11月1日-2日首屆中國智谷大會在南京舉辦。人工智能產業迅猛發展,智能化技術日新月異,將對我們的生產和生活方式帶來革命性的變化,智谷大會圍繞人工智能,智能制造領域的專家學者、領先機構、創新企業,產業集群和亟待轉型的傳統企業提供一個全面的對接平臺。
人類醫學隨著人類基因組計劃的完成,正在跨越如一個新的時代。“互聯網+精準醫療大數據”應該是今年我們醫療行業最火的組合。接連不斷的醫學突破和金融投資引領者一個全新的醫療健康時代。
不僅僅是大眾的關注,從2015年國際上在討論精準醫學以來,在很多發達國家包括我們國家都對此高度重視,并投入重金用于相關的項目研發。因為“精準醫療”不僅僅關乎個體健康,而是全人類醫療本質上飛躍式的進步。那就精準醫療,在智谷大會上,中國科學院院士、中科院生物物理所研究院陳潤生博士為我們做了很好的講解。(以下內容由無窮編輯結合陳院長的演講)
精準醫療的核心是組學大數據和醫學的結合
精準醫療,顧名思義,每個病人都是獨一無二的就如同我們的基因,如果我們將個體的遺傳密碼與癌癥進行匹配,并作出精準的判斷,從而能更精確地用藥治療,將會對我們治療疾病的方式有極大的改善。它的核心就是一點,是組學大數據跟醫學的結合。
組學大數據跟醫學的結合,說得更具體一點,就是組學大數據跟臨床醫學的結合。也就是說,把組學大數據用到臨床的醫學當中來,提高醫療診斷的準確度,提高治療的效果。那么這里,包括兩層含義,分別是:
-組學大數據:包含組學和大數據
-醫學
近年來,隨著臨床研究的發展,我們獲得了越來越以基因組為代表的分子水平的人類信息,這個是以前前所未有的。那么,隨著以基因組為代表的組學數據的發展,人們越來越多的積累了以遺傳密碼 為代表的不僅僅是基因的信息,也包括蛋白的信息,而挖掘這些信息以后會得到很多的反映人類健康和疾病的信息。所以如果把這些信息應用到臨床當中來,一定會提高臨床的效果,這就是所謂精準醫學的本質含義。
但是,只獲得這些遺傳密碼的信息是不夠的,所有遺傳密碼的信息都是非常非常多的一個大數據,這個大數據是很容易測得的。在中國,每個人花一萬塊人民幣就可以得到你的遺傳密碼,但是你得到你的遺傳密碼你是一點都不懂,因為這只有四個字,所以要讀懂他,就要發展大數據分析的理論方法和技術。那么要把這些組學數據用大臨床當中來,必須是組學數據和大數據分析方法的結合。所以一部分是組學大數據,一部分是醫學,兩個結合起來,就構成了現在精準醫學的本質和核心:組學大數據在臨床醫學當中的應用。
醫療健康的變革從診斷治療轉變成健康保證
現在的醫療體系面對的是病人,主要是對病人進行所謂的治療,但是,未來因為精準醫學的發展,由于組學大數據的介入,那么就會使得這個時候的健康不僅僅是對病人,而是對全民,對任何人在他沒有得病的時候我們測量他的組學數據,分析組學大數據,那么就可以對他未來健康發展的危險因素做出評估,根據評估進行適當干預。這樣會抑制疾病的發展,從而減輕它的程度,這樣就把整個醫療健康體系的關口前移。治胃病在沒有病之前就提出評估與保證,這樣一個根本性的概念的轉變。
精準醫療促使新興產業的出現
精準醫學帶來的本性概念的改變由此促使的產業的發展早已引起了各國領導人的注意。很多國家不管精準醫學研究已成為新一輪國家科技競爭與引領國際戰略的制高點,美國在精準醫學的發展,大家知道美國要測量100萬自然人的遺傳密碼。歐盟也在積極推動所謂精準醫學的研究,包括英國、法國等等,日本也在進行精準醫學相關的投入和計劃。
精準醫學可能在四個方面促使產業的變革和發展:
第一:促使海量的生物樣本庫和數據庫的發展。
第二:海量數據的挖掘。
第三:分子診斷和藥物設計靶點的相關產業。
第四:由精準醫學概念而產生的新的醫療設施。
第一個產業:促使海量的生物樣本庫和數據庫的發展。由于精準醫學的推動,那么需要測量百萬人量級的這些人的組學信息,首先涉及到這百萬人生物樣品的獲取,保管、提取和提供給這些人使用,這當然是一個很大的產業。同時,這些樣本測完了數據是百萬人數量級的一定要促進相應的大規模的數據庫的發展,有人估計,這個產業的規模可能是百億數量級。
第二個產業:海量數據的挖掘。 有了這些樣品,那么就要測以基因組為代表的這些組學數據,所以就要測基因組、蛋白組、轉入組,這些測序的數據,僅僅到2018年,就可以到117億美金的規模。那么有了樣本庫,有了組學數據的測量,那么下一步在這些海量數據挖掘的基礎上,就可以促進產生大量的新的分子診斷的指標。這就會增加很多跟疾病相關的信息,這些信息當中,有很多就可以作為新的疾病的標記。同時,也可以發現很多新的藥物設計的靶點,這就促進了第三個產業:所謂分子診斷和藥物設計靶點的相關產業。
第四個產業是伴隨著精準醫學概念而產生的新的醫療設施。比如說要成立一些健康源,要一些健康師,這些方面是可以和現在醫院、醫生相關系的產業大概是千億數量,這些產業必然會帶來變革,國內已經有所體現,有成百上千個小的公司在逐漸地成立了。
大數據分析、人工智能是精準醫療的基礎
精準醫學至少要具備兩個條件,第一個,要具備組學大數據的基礎。精準醫學就是把組大數據用到臨床當中來,所以第一個要獲取組學大數據,那么也就是獲取基因組,蛋白組、轉入組、代謝組等等這些組學數據。這些數據本身是沒有用的,第二步就是組學數據的挖掘,挖掘的話就會用到大數據分析的理論方法,包括人工智能的方法,深度學習的方法等等,以知識為基礎的方法用來挖掘這些組學,以獲得在分子水平上跟疾病相關的知識,這是第一個基礎。
有了這些分子知識和組學知識的用到臨床疾病當中來,還要建立第二個基礎,就是搭建分子水平的以基因型為代表的信息核,建立這種橋梁之后才能有效把分子水平的信息轉化應用到疾病的診斷和治療當中來,那么這就是要建立所謂生物信息學、生物網絡,系統生物學等等的方面。有了這兩個基礎就可以更好地實現精準醫學,當然一個非常重要的就是精準醫學的發展,是應當和當前的臨床的影象學、臨床的生化檢驗、當前臨床的知識很好地融合。
精準醫療剛剛啟程,97%的基因密碼人類無法解讀
在我們的臨床密碼當中,組學當中,還存在著大量的暗信息。我們的臨床密碼花一萬塊錢可以測得自己的遺傳密碼,但是目前能夠分析從規律上的只有一小部分,這就是基因組當中的所謂暗信息。這是一段人的遺傳密碼,我們每個人都有。那么像這樣的遺傳密碼,很多重要的地方是影響整個人的生命功能的。我們一個人是3-10個九次方,如果你花一萬塊錢很容易測一床密碼,如果轉定成冊子,每3千個量一頁,100頁一冊。如果你把自己的臨床密碼寫成書,是一萬冊,每頁3千字符。可是這個密碼我們現在還無法讀懂,如果一萬冊書每一頁一厘米,我們自己的書就是一萬厘米,就是一百米,堆起來有地面上排到四十層樓房那么高。就算集全世界科學家的智慧,包括生物醫學家的智慧,從規律上了解的部分只有這遺傳密碼的3%,另外的97%實際上集目前全世界的智慧還無法解讀。
首先從遺傳密碼來講,那3% 是遵從中心發展的蛋白質信息,就是造蛋白質的遺傳密碼。但另外的97%的遺傳密碼是跟制造蛋白組無關的,這些信息,迄今為止我們不知道他做什么用的,這就是遺傳密碼當中的所謂暗物質,也是遺傳密碼當中的非編碼序列。在而、97%的密碼還不知道的情況下我們如何做到精準呢?所以離精準還差了很大的距離。
舉一個大細胞的圓細胞生物基因組的例子,這是個連個細胞核都沒有的簡單細胞,它的85%基因都是用來編碼蛋白的。所以對一個非常低等的生物,如果測完他的遺傳密碼, 85-90%你就知道他是如何生活,基本造哪些蛋白就知道。但是生物高等一點,例如酵母,這個是單細胞的真核生物,編碼蛋白質的比例減少到70%了,而非編碼的部分增加到28%。再是到多細胞生物,例如最簡單的仙童(音),這時候編碼蛋白質的部分減少到28%,非編碼的部分增加到71%。下面是果蠅,也只是昆蟲了,非編碼的部分增加到82%,而97-98%都是非編碼序列。這樣一個比較基因組的進化邏輯告訴我們,生物從簡單到復雜,從低等到高等,增加的是迄今為止我總體上還不知道規律的非編碼序列,這將是對、精準也好,對基礎生物學也是巨大挑戰。 而這些未知的暗物質,都需要我們通過巨大的數據去發現規律,從而做出判斷。
精準醫療將為技術科研和產業發展帶來新的挑戰
精準醫學對技術研究和產業發展都提供了研究方向。其對非編碼的研究無疑會對疾病的診斷治療提供全新的診斷方向,對藥物的設計研發提供新的平臺;對新的物種,新的性狀的培育提供一個新的基礎。而精準醫療和大數據的結合,存在著核心的挑戰,第一是數據量大,導致需要巨額的資金去做這件事。在的測序儀一個普通的一次運行就可以到1T的數據,全世界有成千上萬個這樣的儀器,包括我的組里就有所謂的得到一個T的數據,所以這些數據量是非常大的。那么每個人有3×10個九次方,測他的基因組,就需要用100萬美金。用一萬美金就可以同樣得到自己的遺傳密碼。但是從數據質量來講,他的噪音很高,同時又大量缺失值的這樣一個數據源。第二個樣本很小,我們要解決腫瘤的問題,但是我們知道腫瘤的變量,自變量可能成前上萬,但是取樣本只有百數量級。這其實也涉及到數據量大的問題,因此第二是我們需要建立合適的數學模型,使得我們能夠相匹配。這將不僅僅是具體基因的問題,還牽涉到網絡、生物學數據。所以跨領域的人才,科學界、IT界的精英需要共同加入到這項事業當中。而資金方向,更需要投資家、企業家以及政府的支持。期待不久的將來,我們的健康將完全可以掌握在自己的手中,徹底變革醫療系統!