大數(shù)據(jù)之傷——小數(shù)據(jù)思維
1980年之前,臨床醫(yī)師們主要依賴“經(jīng)驗”、“直覺”以及“觸摸不到的線索”來判斷一個發(fā)燒了的小孩子到底是由較輕的疾病(如感冒)還是由比較嚴重的疾病(如急性肺炎或腦膜炎)引起的。換句話說,他們靠直覺來看病。在1980年,一個由研究者組成的小組研究了那些有經(jīng)驗的兒科醫(yī)生是如何為他們的病人診斷的。他們發(fā)現(xiàn)了那些杰出的醫(yī)師在直覺中參考了“輸入信息”,而那些缺乏經(jīng)驗的醫(yī)師在試圖可靠地試用這些“輸入信息”時就顯得過于主觀了。
在隨后的研究中,研究人員從精確度和客觀性兩個方面上加強了他們的系統(tǒng)。在這個系統(tǒng)中,那些正在接受培訓的兒科醫(yī)師能夠像有經(jīng)驗的醫(yī)師那樣接觸到很多因嚴重疾病而導致發(fā)燒的兒童。事情發(fā)生了根本上的變化:直覺的建立被質(zhì)化和量化地形成了一種形式,并且這種形式可以被那些經(jīng)驗并不豐富的醫(yī)生所利用。如今,幾乎所有正在為發(fā)燒兒童看病的醫(yī)生都在證實這精妙的發(fā)現(xiàn)。
如果我們把目標確定為為每位兒童的每次就診都提供最好的治療,那么我們需要的就不僅僅是直覺和專業(yè)的技能了,因為人無完人。基于證據(jù)的醫(yī)療方法(EBM)通過把臨床研究整合進治療準則來幫助醫(yī)師提高治療水平。然而就普遍意義來說,EBM一般是基于“小數(shù)據(jù)”的研究——與動輒數(shù)十萬或數(shù)百萬的大數(shù)據(jù)不同,一個大型的EBM則是包含了數(shù)千例病例的系統(tǒng)。在這樣的小樣本規(guī)模系統(tǒng)中輸入信息必須被良好地定義和形式化,隨之而來的結果便是包含了所有這些信息的治療準則在解釋病人與病人之間的差異時就顯得力不從心。因而EBM有時被人們嘲笑為“菜譜式治療”,醫(yī)生們只是機械地遵循著這些治療的“配方”來治病。雞肉與菠菜對于一些人來說也許是頓美味,但是當我們要為一位素食主義者上菜時又該怎么辦呢?
大數(shù)據(jù)的容量足夠用來創(chuàng)造更加個性化的“治療菜譜”。利用一個容量為5億人的數(shù)據(jù)集,你可以為一個體重超重且高膽固醇每天必須服用阿司匹林和立普妥的35歲男人,或者為一個與上述情況完全相同但是體重偏輕的人定制治療方案。
大數(shù)據(jù)也可以允許我們通過在粗略的未經(jīng)處理的數(shù)據(jù)集中逐條比對來發(fā)現(xiàn)微小但是強有力的線索,從而進行分析研究。小數(shù)據(jù)集中通常不能處理粗糙的原始數(shù)據(jù),因為它不能分辨“心梗”與“心肌梗死”的區(qū)別,即便他們指的是同樣的事情。并且由于在小數(shù)據(jù)集中只能使用單一的術語,使得我們無法做出確鑿的歸納。同時小數(shù)據(jù)集也無法支持需要識別“心梗”與“心肌梗死”是同一種術語的研究。小數(shù)據(jù)集同樣無法支持我們使用很細節(jié)的線索作為輸入,因為它們在數(shù)據(jù)集的發(fā)生具有太大的隨機性--確鑿的歸納是無法從這樣的小樣本數(shù)據(jù)集中得到的。
目前有越來越多的爭議在討論大數(shù)據(jù)是否正在取代直覺在醫(yī)療中的地位。無論怎樣,大數(shù)據(jù)仍是我們最大的希望--計算機可以在模仿人類專家直覺方面跟進一步,那時我們就再也不用依賴EBM這樣的小數(shù)據(jù)集了。真正的問題并不是大數(shù)據(jù)正在威脅醫(yī)療中的直覺,而恰恰相反,是在于我能未能做到這一點。我們?nèi)缃裨卺t(yī)療領域并未過于依賴大數(shù)據(jù),因為這的確需要大數(shù)據(jù)量,而醫(yī)學研究者們手中并沒有真正的大型臨床數(shù)據(jù)集。
建立,維護,標識以及保密臨床臨床數(shù)據(jù)集的代價太高昂了。泄露數(shù)據(jù)集信息的懲罰很重,而建立這樣數(shù)據(jù)集的利益卻幾乎不存在。即便是政府支持的健康信息流通項目通常也不進行數(shù)據(jù)統(tǒng)計。取而代之的是,這些系統(tǒng)被用作讓登陸者進入一個外部系統(tǒng),一次只能取回一位患者的數(shù)據(jù),并且得到的數(shù)據(jù)通常是摘要形式的。大數(shù)據(jù)分析是無法在這樣的體系中實現(xiàn)的。
然而,大數(shù)據(jù)量醫(yī)療數(shù)據(jù)集受到的最大壁壘是醫(yī)療信息中盛行的所謂“最佳實踐準則”,這一準則已經(jīng)落后于其他行業(yè)一二十年了。醫(yī)療信息體系仍在持續(xù)強化使用陳舊的數(shù)據(jù)屏障,而這屏障正是維持“小數(shù)據(jù)集”研究的基礎。在這個體系中,只有通過審核的,標準的,被編輯過的數(shù)據(jù)才能被接收——這里沒有任何粗糙的原始數(shù)據(jù)!隨之產(chǎn)生的數(shù)據(jù)集便是小數(shù)據(jù)集,因為屏障式的處理過程是強化數(shù)據(jù)源的瓶頸,由于缺乏一致性,許多可用的數(shù)據(jù)被拒之門外。這個屏障創(chuàng)造了同質(zhì)化的數(shù)據(jù),而排除了能使系統(tǒng)真正有用的多樣性,這就如同白面包一樣——一個被濾去了谷物最好營養(yǎng)物質(zhì)的空空的凈化盒。如果在大數(shù)據(jù)中使用了這樣的屏障,谷歌和亞馬遜就不可能成功,原始的大數(shù)據(jù)正是他們成功的原因。
除非每個醫(yī)生都同時擁有無與倫比的直覺,否則計算機就應該用來提供更好的醫(yī)療。如果我們在處理過程中摒棄小數(shù)據(jù)思維,并開始建立真正的大數(shù)據(jù),那么大數(shù)據(jù)在醫(yī)療支持中將會發(fā)揮更加巨大的作用。