移動醫療大數據的幾個偽命題：大數據的陷阱

作者：Dr.2 2014-08-08 09:48:09

數據庫

在醫療大數據項目中，很多情況下，由于無法驗證有效性、敏感性和特異性，所以即使得出了100個結果趨勢，卻沒有幾個是有臨床參考意義的，就是說即使看起來是那么一回事，又怎么樣，能反過來指導臨床嗎？

醫療是非常特殊的行業，所以單獨強調大數據是一種很片面、盲目的做法。在這個大數據時代里，我們要重視傳統的小數據研究（或者也可以稱之為抽樣數據），其實大數據和小數據可以相互結合，相互印證，互為補充，互相借鑒的。

[[117712]]

那什么是小數據呢？小數據研究有幾個方向：

1.搜集一段時間和地點內的大量醫學資料，進行回顧性研究。

2.根據所要研究或者驗證的意圖，設計方案，通常有一比一配對，隨機對照雙盲等方法，進行前瞻性研究。

這兩類分析在搜集資料的時候都要進行統計學處理，均衡性檢驗，去除很多無效的雜波和噪音干擾，相比一些所謂大數據分析的眉毛胡子一把抓，通常得出的結果更為精準。

3.還有一類就是持續追蹤個體的小數據，也就是我們每個人的數字化信息。因為人存在很多的個體差異，所以每個人身上的小數據也是千差萬別的。它不比大數據那樣浩瀚繁雜，卻對我自己至關重要。當然把大量的人的小數據整合起來可以視為大數據分析，但是前文Dr.2也說過，有的時候整體平均趨勢對個人是無價值的，甚至有害的。前天看個笑話，有個身高1.8米的人問大數據科學家能不能過前面這條河，科學家經過全河流域的大數據分析后，得出平均水深1.2米，于是他放心地趟過去，結果淹死了！

再比如癌癥治療，現在有十分火熱的個體化治療，基因治療和細胞治療，不是僅僅“對癥下藥”，而是要同時“對人下藥”。與其他行業不同，一些重大疾病的治療是一個“非標”的過程，這其中需要組織醫生、患者、醫療資源等，治療每個疾病，不同患者所需要的時間、財力、流程和預后都是不同的，而且每個人的基礎和個性需求也是多樣化的，不可能達到標準化。因此，這些個性化的治療都需要記錄和分析個人的小數據，并進行預判和綜合評估。

當然，Dr.2從來沒有說過大數據不重要。事實上，在醫學上發現的一般規律，往往是從大量數據中隱藏的一些重要線索。歐美各國都在計劃編制患者信息的整體數據庫，不僅是為了統計分析，也是為開發新藥物、新技術和新方法，更好地服務整個人群。集成大量的在線數據庫也可以指導個性化用藥（如計算安全性的概率），減輕他們的痛苦。

從大數據中得到規律，用小數據去驗證，在小數據中發現問題，再觀察相關大數據的變化，交互印證是非常重要的，但是目前很多的商業行為充斥著我們的移動醫療圈，過分強調大數據的背后，是有利益驅動的故事在的！

接下來，我就來跟大家說一說大數據的陷阱！

1．數據采集帶有傾向性。

我們在對海量數據進行分析，這其中存在了一個概念的偷換，就是你首先假設了你分析的大數據都是有價值的，然后才會去做這個事情。打個不恰當的比喻，好像現在的各大媒體，無論結果如何，不需審判，就可以都對郭美美進行“有罪推定”，而不再考慮什么嚴謹啊，法律合規啊，人權之類的事情（即使是罪犯也有人權），那么無窮無盡批評中國缺乏法制精神的這批道貌岸然的人，其法制精神何在？一切只為利益、眼球和收視率！

采用嚴重有偏的數據幾乎能夠產生任何人需要的任何結果。Dr.2在第一章就曾經說過，我們經常能夠看到有些公司說“通過XX大數據分析，得出YY的結論，而我們的產品符合啥啥的結論，所以是多么多么好！”你乍一看就不怎么樣，仔細一看還不如乍一看！因為這樣帶來的結果能給他們帶來商業價值。

2.大數據本身的“陷阱”。

大數據“采礦”常犯的錯誤之一，就是由于因為相關性存在于多種可能性之中，但是你會怎么選擇呢？這是系統性問題，理論上來說，只要有超大樣本和很多變量，我們都可能找到無厘頭式的相關性。它完全符合統計方法的嚴格要求，但兩者之間是個什么關系呢？只要我們對著一堆足夠多的數據進行反復研究，進行不同模型的嘗試，上千次后，一定會找到統計學意義上成立的相關性。這就是常見的大數據分析所犯的另一個人為的錯誤——由相關性去論證因果關系。

在剛剛結束不久的2014年百度聯盟峰會中，李彥宏在大數據和醫療的結合中提到：“未來真正的大數據積累應該是可以提前預測人的疾病情況，因為疾病不是一天出現的，而是天長日久累計出來的，各種數據一定發生變化。有價值的數據，不是無用的信息爆炸，而是有價值的慢數據，可以預測個性化信息的數據。”Dr.2深表同意，在大數據之上的慢數據，去掉了很多雜波干擾的數據，才是真正有價值的。

醫療監測是時下行業內很熱的一個話題。現在已經出現了某種監測技術通過對周圍的大數據進行監測并分析周邊疫情動態來預測下一場變異性流感等流行病的大規模爆發。人們再也不必恐慌和擔心被傳染，早就有相應提示及時應對預防；而與此密切相關的醫療行業，可以及時獲悉疾病爆發趨勢，合理分配和部署好醫務人員，同時提醒和建議市民預防疫病，降低人們染病幾率……這是不是看似很美好很強大？其實不然。

大數據監測流行病忽略了一個事實：大數據是根據所收集到的海量數據，與目前醫學領域中已有的傳統疾病進行對照研究、數據分析等一系列工作。所以其通常很難預測未知的新疾病，像SARS、甲型H1N1流感和現在的埃博拉病毒的爆發等。去年衛生部發言人就曾提到：“中國面臨傳統流行病威脅持續存在、新發流行病不斷出現的嚴峻形勢。”所以我們要對大數據的疾病預測能力有客觀的評估，一邊倒地鼓吹并無價值，從系統上來說，想預測黑天鵝，這本身就是一個“mission impossible”的哲學命題！

3. 統計學一樣會欺騙你。

統計學是通過搜索、整理、分析數據等手段，以達到推斷所測對象的本質，甚至預測對象未來的一門綜合性科學。它是一種模型，是一種探索未知世界的工具，試圖對事物本身有所認知上的突破。但通過統計學所得來的認知是僅供參考的，誰說90%的人說它正確，它就一定正確了？就像千百年前，所有人都認為太陽圍繞地球轉一樣。

其實這與“市場失靈”是一個道理，再比如物理課上我們還總是假設一個小球從沒有摩擦的斜坡上滾下，然后以此來計算小球的各種數據……然在現實生活中，怎么可能呢？所以統計學經常會出錯的，黑天鵝無處不在。

谷歌雖然在09年的流感預測上做出了漂亮的成績，但是在2013年初，谷歌流感趨勢被媒體大量批評，原因就在于其數據總是大幅偏高于真實的流感數據。因為在進行數據分析的時候，我們需要盡可能地利用各種統計分析方法來剔除系統誤差。但是在谷歌流感案例中因為它無法剔除殘差的“自相關性”以及季節性（因為到了換季時節容易感冒，所以即使我沒有生病，那時也會去進行相關的檢索），也就是Dr.2前文中提到的“大數據反作用于大數據”，所以導致它的分析結果出現系統性誤差。

4. 無法確定“主觀性數據”是否經過數據來源者的美化。

移動醫療大數據分析確實有一部分是客觀資料，但是也有很多是來自于受眾的“主觀性數據”。如果普通大眾愿意配合提供自身數據，那我們如何保證這些數據都是真實有效的目標數據呢？這也是移動醫療需要提前考慮的一個重要問題。

我們假設某移動醫療企業，不帶偏向性地深入市場調研然后進行大數據分析證明，20~40歲群體中有20%的人每日鍛煉時間在2小時以上。從該公司的整個調查和分析過程中，確實是沒有什么問題，均衡性檢驗我們也發現不了異常。但是！有時候我們忽略了，被調查的人他們自己會虛報情況！出于這樣那樣的原因，比如跟別人說自己從來不運動，是不是不好啊，沒面子啊，感覺很low啊，于是就會將自己的數據向上統計。

所以喬布斯說，我從來不做所謂的市場調查，這是有原因的。因為主觀性數據非常容易出現虛假！在進行街頭調查的時候，你可能會得出，喜歡閱讀各類時尚雜志和財經雜志的人特別多，但是當大伙冷靜地看一下銷售量，你就會發現故事會、知音和青年文摘這種有深度的期刊，其月銷量是某些“高大上”雜志的幾十倍！

全文連載至現在將告一段路，Dr.2收到了很多小伙伴們的反饋、鼓勵與批評，我將其整理了一下，發現這也是一個有意思的小規模“大數據分析”。一般移動醫療從業者，他們中性或者批評意見比較多，不明真相的群眾一般都是“好，太棒了，漲姿勢”之類的話，專業人士多會針對某一點進行辯論和探討，并給我列出不少參考文獻，在此一并感謝，我會繼續努力學習，與時俱進的！

最近我讀了美國頗有影響力的預測專家納特·西爾弗的《信號與噪聲》，他在書中分析到：“如果信息的數量以每天250兆億字節的速度增長，其中有用的信息肯定接近于零。大部分信息都只是噪聲而已，而且噪聲的增長速度要比信號快得多。”由此看來，當數據信息鋪天蓋地而來之時，我們也有可能距離真相越來越遠。最后我也提出一個問題讓大家進行思考，因為批評一件事很容易，構建一個體系很困難，在現實中，對于一個想以大數據分析來運營驅動的移動醫療企業來說，到底該如何去做才能一步一步實現我們的理想呢？

責任編輯：彭凡來源：雷鋒網

移動醫療大數據

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

移動醫療大數據的幾個偽命題：大數據的陷阱