紐約醫院利用大數據化技術改變醫療
杰夫·哈默巴德(Jeff Hammerbacher)是西奈山伊坎醫學院的研究人員,他的辦公室坐落于全美國經濟兩極化最徹底的地區之一。放眼望去,辦公室南邊是紐約時髦上東區的聯排別墅,北部則是落后的東哈萊姆貧民區。
有趣的事兒是這個:去年,伊坎醫學院安裝了一臺發出嗡嗡響的超級計算機,該計算機名為密涅瓦(Minerva),以羅馬神話中掌管醫藥的智慧女神命名。
在醫院中,超級計算機是極其罕見的東西,即便是如伊坎醫學院這般大型的研究中心和醫學院。不過,同樣罕見的是像哈默巴德這樣腦袋可媲美超級計算機的天才。哈默巴德以創建Facebook的數據科學團隊而遐邇聞名,后來又聯合創辦了硅谷頂級大數據軟件公司Cloudera,如今他兼任該公司的首席科學家。
今年,他搬到紐約并全身心投入伊坎醫學院的研究工作,致力于用Cloudera軟件Demeter創建另一個強大的計算機集群以及構建可更好地儲存、處理、挖掘和建立數據模型的工具。對于醫學院現有的電子病歷系統及其數據倉庫,哈默巴德給予了肯定,“其生成的數據量頗為驚人。”光是去年,該數據倉庫便儲存了3億個“新事件”。然而,哈默巴德也指出了不足,“必須說,儲存的數據只是冰山一角。”
是否真存在三種2型糖尿病?3萬名志愿者的健康數據暗示我們,或許我們知道的遠比自己以為的要少。
綜上所述,各種情況造就了醫院中最有趣的實驗之一,該實驗讓我們得以一窺醫療保健的未來,即從基因組到顎骨追蹤裝置等等,與我們健康相關的數據正呈爆炸式增長。
“我們試圖創建的是一個學習型醫療保健系統,”伊坎醫學院生物醫學信息專業主任喬爾·達德利(Joel Dudley)說道,“首先,我們必須收集許多人的數據,并將數據與結果連接起來。”
想知道這家位于西奈山的醫院未來將呈現何種面貌,你只需在腦中想象網飛(Netflix)、亞馬遜甚至Facebook是如何運行的。這些公司收集用戶的數據,再用它們所開發的預測模型和推薦系統來處理數據,綜合考慮用戶的瀏覽或購買歷史后——或許還包括用戶在其他網站上的歷史以及“相似”用戶的歷史——它們會對未來做出最佳猜測,比如用戶想購買或想看到什么,或什么類型的廣告會對用戶產成誘惑。
通過大批量的實時數據挖掘,比如在類似密涅瓦的超級計算機上挖掘,各個醫院終將以類似的方式運行,目的在于為西奈地區的個體病人改善健康結果,以及發現能更廣泛地提高公共衛生的診斷、治療和疾病防治方式。“這好比用強子對撞機測試粒子物理學和高能物理學的各個理論,”達德利說,“讓我們將所有知道的生物學理論都投入測試,看看在大量人群中的粗糙的測量結果。最終,數據將告訴我們生物學是怎么一回事。”
達德利將眼光轉至電腦屏幕,向我們展現“大數據”將如何顛覆醫療保健和醫學研究界——雖然只是早期的模糊概念。
屏幕直觀顯示了3萬名西奈醫院病人的健康數據,這些病人均自愿為研究人員提供個人信息(見上圖)。他指出三個分開的集群,這些集群用同個顏色標出,均代表患2型糖尿病的病人。然而,映入我們眼簾的,有可能代表某種得到高度關注疾病的全新概念。“為何說這個有趣呢?因為我們認為自己看到的2型糖尿病,實際上有可能是3型或4型糖尿病,”達德利說。“直至目前,對于數據無法仔細處理的疾病,我們僅有粗糙的定義。”(圖表以病人的臨床數據對其進行歸類,比如血糖含量和膽固醇含量等等。)
從該圖表以及類似圖表中,達德利或許可以精確指出從屬不同集群糖尿病人獨有的基因,以此開辟一種新方式,讓我們更好地了解基因和環境與疾病、癥狀和治療方式之間的關聯。另一張圖中,達德利展現了不同種族和人種的基因差異將可能以何種方式造就某種疾病的不同形態,而形態的不同則需要不同的治療方式。
這些不過是幾個小例子,目的在于證明結合數據的處理能力,大量病人的數據可以做出多大的貢獻。正如Facebook是社交網絡一樣,這些數據集組成了臨床網絡。(其終極目標是將10萬名病人的數據納入名為BioMe的平臺,以探索大量數據的可能用途。)“我們是孤獨的開辟者,創先河地將預測模型引擎內置于衛生保健系統,”達德利說。“這種方法早已存在,這種技術更早已成熟。不可思議的是,為何我們就沒想將其用于醫療保健領域呢!”
西奈醫院的目標是用這些方法為多種疾病的病人進行個性化診斷和治療,比如癌癥和糖尿病病人等,以及改善醫院對病人的護理情況。然而,為了使該愿景變得切實可行,首先得克服幾個根本性挑戰。
幾乎任何一家網絡公司都誕生于輕易從用戶身上獲得或挖掘到的數據海洋中,而在醫療保健領域,與數據的斗爭還要簡單得多:將病人的健康記錄電子化及隱私化,同時為醫生、保險公司、相關部門和病人開放數據。據哈默巴德所說,這還算不上醫院版的數據搜索引擎呢,而且就如今衛生保健緩慢發展的狀態來講,各種關于如何防止疾病的預測可以說只是錦上添花。“簡單地集中管理數據并將其向研究人員和臨床醫生開放,就已足夠我們開發出可更好地了解和治療疾病的新模型了,”哈默巴德說。
西奈醫院正將某些想法付諸臨床實踐。比如,食品及藥物管理局(FDA)正為某些藥物發行標簽,為經歷某種基因變異的病人注明不同攝入劑量(或解釋為何某些病人不能服用該藥物)。這暗示未來可能實行更多的個性化用藥措施。醫院正開始使用的Clipmerge軟件會更便于醫生進行快速查找,同時,當電子醫療記錄表單上的藥物可能發生相互作用時,也能及時通知到醫生。
在預測方面,醫院已經將名為PACT的預測模型內置于電子醫療記錄系統,用以預測出院病人90天內返回醫院的可能性(新衛生保健法為醫院提供了某些財政獎勵,以減少90天內病人的再入院率)。根據預測,醫療中心的高風險病人或許將真正獲得不同的護理,比如為他們分配一個治療后協調員。
據達德利所說,最終,我們將有各種與電子病人記錄相連接又可挖掘的新數據,包括病人滿意度調查、醫生的臨床筆記以及磁共振的圖像數據等等。
舉個例子,健身和健康追蹤器產生的大量數據看似有趣,但個人很難從中搜集到什么有意義的東西。然而,正如達德利所說的,當成千上萬個人的數據被用于挖掘與健康結果相關的信號和鏈接時,這些數據很可能將發揮作用,比如可被用作預防疾病或及早檢測到疾病的新方法。
要達到此愿景,一個很大的局限性就是醫院能否接觸到這些新數據。目前,病人隱私受到聯邦法律的嚴格保護,在這種情況下,收集數據變得萬分艱難,醫生也會漸漸感到不耐和厭煩。除此之外,將病人數據從一個醫院轉到另一個醫院,或從一個醫生轉到另一個醫生的過程中存在許多條條框框,更別提利用各種健身追蹤器的數據了。若病人開始要求擁有更多健康數據的控制權,并自愿為醫生提供數據——達德利相信人們將會開始這么做——那么隱私權將變成人們無法完全控制的問題,就像互聯網上的隱私權一樣。
可以肯定的是,當保健系統受到壓縮成本和實行更多預防護理的壓力時,這些想法將會起到更大的作用。達德利如是說道,“許多人都在電腦上做研究,但我們真正需要的是創建一個含有復雜模型的醫療系統……這些模型幾乎每天都對數據進行運算和預測。當病人從電子醫療記錄系統獲得與自身相關的信息時,該引擎始終在幕后運行。”