醫療健康大數據:應用實例與系統分析
1 概述
隨著信息技術和物聯網技術的發展、個人電腦和智能手機的普及以及社交網絡的興起,人類活動產生的數據正以驚人的速度增長。根據國際數據公司(International DataCorporation,IDC)的報告,僅2011年,全世界產生的數據就有1.8 ZB(1 ZB≈1 021 byte),并且平均每5年增長9倍[1]。大數據一詞由此而生。
大數據是指難以被傳統數據管理系統有效且經濟地存儲、管理、處理的復雜數據集。大數據一般以PB為單位計量,并包含結構化、半結構化、無結構化的數據,大數據給數據的采集、運輸、加密、存儲、分析和可視化帶來了嚴峻的挑戰[2]。與傳統數據相比,大數據包含5個V特性:Volume(數據規模巨大)、Variety(數據類型繁多)、Velocity(數據產生的數據非??欤?、Veracity(分析結果取決于數據準確性)、Value(大數據一般包含非常重要的價值)[3]。大數據帶來了存儲、管理、處理數據的挑戰,也帶來了發掘數據中新的價值的機遇。多個行業已經利用大數據改善業務,例如金融業、零售業、生命科學、環境研究。大數據市場估計每年會增長50億美元的價值,到2020年將達到600億美元的價值[4]。
醫療健康行業目前面臨著巨大的挑戰,其中,最主要的挑戰包括:急劇升高的醫療支出、人口老齡化帶來的慢性疾病問題、醫療人員短缺、醫療欺詐[5]等。國家統計局的數據顯示,我國2013年醫療衛生總支出為31 668億元,較2012年上升12.6%,并且已經連續8年每年增長超過10%。醫療支出已經占據了社會總支出很大的比例,在可以預見的將來,醫療支出將會持續增長。然而,根據美國醫學研究院(Institute of Medicine,IOM)的一篇報告,如今醫療健康支出的1/3被浪費而沒有用于改善醫療。這些浪費包括不必要的服務、行政浪費、昂貴的醫療費用、醫療欺詐和錯失預防的機會[6]。為了保持競爭力,醫療機構必須把數據作為一種戰略資產,分析數據以達到提高診斷準確度、提高療效、降低費用、減少浪費的目的。
醫療健康機構采用大數據可以有效地幫助醫生進行更準確的臨床診斷;更精確地預測治療方案的成本與療效;整合病人基因信息進行個性化治療;分析人口健康數據預測疾病爆發等。利用大數據技術還能有效減少醫療成本,麥肯錫全球研究院預計使用大數據分析技術將每年為美國節省3 000億美元開支。其中,最有節省開支潛力的兩個方面包括臨床操作和研發[7]。利用大數據技術幫助醫療企業實現其業務的例子正在快速增多。比如,ActiveHealthManagement收集用戶健康方面的數據以幫助用戶實現健康管理;CancerIQ整合臨床數據和基因數據幫助實現癌癥的風險評估、預防和治療;CliniCast利用大數據預測治療效果以及降低花費。
本文首先介紹醫療健康行業的大數據特點以及大數據技術背景,然后舉例說明目前大數據在醫療健康行業的應用,最后分析目前的醫療健康大數據系統及其相關技術。
2 背景知識
2.1 大數據處理方法
根據麥肯錫全球研究院2011年的報告,適合大數據的處理技術包括:關聯規則學習、分類、聚類分析、數據融合、機器學習、自然語言處理、回歸、信號處理、仿真、可視化[8]等。其中,關聯規則學習是挖掘各個變量間有趣的關系,比如在零售中發現經常被一起買的商品,便于促銷;分類是通過訓練已有的數據集來有效識別新的數據,比如預測用戶的購買行為;聚類分析是按數據相似程度將整個數據集分為多個小規模的數據集;數據融合是將多個數據源的信息整合分析以產生新的更加精確、連續、有價值的信息;機器學習是一類算法的總稱,關注設計算法自動識別數據中的復雜模式;自然語言處理關注計算機與自然語言的聯系,幫助計算機識別人類語言;回歸是一組統計算法,用來判斷因變量與自變量的關系,以幫助預測。信號處理是一組用來識別、分析、處理信號的技術;仿真是模擬一個復雜系統行為的技術,經常被用來預測;可視化是將數據處理為圖像、圖標、動畫,以幫助人類直觀了解數據。
2.2 大數據處理平臺
大數據的特點決定了傳統的數據庫軟件和數據處理軟件無法應對存儲、處理、分析大數據的任務。大數據處理任務由運行在數十臺,甚至數百臺服務器的大規模并行軟件完成[8]。常見的大數據處理平臺和工具有:MapReduce,其提供了一種分布式編程的抽象方法;Hadoop,其包含了多個系統和工具以幫助完成大數據任務; HDFS,其用來可靠地分布式存儲數據; Hive,其提供了Hado op上的SQL支持; HBase,它是基于HDFS的一種非關系型數據庫;Zookeeper,其提供了集群節點的一個管理方法。
2.3 醫療健康數據來源
醫院信息系統(hospital information system,HIS)是醫療數據的重要來源。醫院信息系統包括:電子病例系統(electronic medicalrecord system,EMRS)、實驗室信息系統(laboratory information system,LIS)、醫學影像存檔與通信系統(picture archiving &communicationsystem,PACS)、放射信息管理系統(radiology information system,RIS)、臨床決策支持系統(clinical decision support system,CDSS)等。根據中國醫院信息化狀況調查報告中對于醫院信息系統的總體實施現狀報告,截至2006年,電子病例系統、實驗室信息系統、醫學影像存檔與通信系統、臨床決策支持系統的已有或在建率分別為27.46%、37.70%、25.20%、12.30%[9]。
除此之外,各種健康設備可以幫助收集用戶的生命體征信息,比如心電數據、血氧濃度、呼吸、血壓、體溫、脈搏、運動量。社交網絡和搜索引擎也包含了潛在的人口健康信息。
2.4 醫療健康大數據特點
醫療大數據除了包含了大數據5 個V 的特點之外,還有多態性、時效性、不完整性、冗余性、隱私性等特點[10]。多態性指醫師對病人的描述具有主觀性而難以達到標準化;時效性指數據僅在一段時間內有用;不完整性指醫療分析對病人的狀態描述有偏差和缺失;冗余性指醫療數據存在大量重復或無關的信息;隱私性指用戶的醫療健康數據具有高度的隱私性,泄漏信息會造成嚴重后果。
3 醫療健康大數據應用舉例
信息化的醫療數據、醫療研究數據、病人特征數據以及移動設備、社交網絡和傳感器產生的醫療健康相關的數據為醫療健康從業人員提供了新的思路,利用大數據技術可以從中發現潛在的關系、模式,從而幫助醫師提高診斷精度、預測治療效果、降低醫療成本,幫助醫藥公司發現潛在的藥物不良反應、幫助公共衛生部門及時發現潛在的流行病。下面將從公共衛生、藥物副作用評估、治療預測與降低醫療成本、輔助診斷與個性化治療等幾個方面介紹大數據的用處。
3.1 助力公共衛生檢測
2009年,Google比美國疾病控制與預防中心提前1~ 2周預測到了甲型H1N1流感爆發,此事件震驚了醫學界和計算機領域的科學家,Google的研究報告發表在Nature雜志上[11]。Google正是借助大數據技術從用戶的相關搜索中預測到流感爆發。隨后百度公司也上線了“百度疾病預測”借助用戶搜索預測疾病爆發。借助大數據預測流感爆發分為主動收集和被動收集,被動收集利用用戶周期提交的數據分析流感的當前狀況和趨勢,而主動收集則是利用用戶在微博的推文、搜索引擎的記錄進行分析預測。
FluNear You[12]借助用戶周期提交的自我流感檢測來預測流感的爆發。首先,用戶在Flu Near You的網站上注冊,隨后每個星期用戶將收到一封電子郵件,指引用戶登錄Flu Near You網站。在網站上,用戶填寫一份關于自己是否有流感癥狀的調查。最終Flu Near You收集信息并利用大數據技術生成目前流感疾病和未來流感疾病預測的可視化圖表。
流感爆發初期,通常伴隨著用戶在搜索引擎搜索相關內容或在社交網絡上發布相關內容,這些信息可以作為流行病爆發的初期預警[13,14]。參考文獻[15]以用戶在Twitter上的推文以及英國健康保健局發布的城市流感樣病例率(influenza like illnessrate)為數據源,通過LASSO算法進行特征選擇,選擇推文關鍵字,建立未來數天流感樣病例率的預測模型,取得了比較精確的結果。在疾病傳播中,長時間與病原體接觸會增加感染的幾率,因此追蹤人口接觸信息以及人口位置信息將有助于了解流行病的行為[16,17]。參考文獻[18]設計了一套使用智能手機自動收集人口位置信息與接觸信息的應用。參考文獻[19]將流行病數據源分為媒體(包括官方媒體)、移動設備、社交網絡、Pro-Med郵件列表、實驗室和醫院數據,并根據不同數據來源設計了一套收集數據、分析數據、驗證數據、數據可視化的系統,用以直觀表現流行病的情況。
3.2 幫助發現藥物副作用
藥品上市后的不良反應檢測一般依賴被動檢測和主動檢測。被動檢測依賴于醫生、患者、制藥公司提供的不良反應報告。被動檢測最大的問題是漏報,參考文獻[20]認為94%的不良反應沒有被報告。主動檢測則是利用文本挖掘、數據挖掘技術從EHR、EMR、社交網絡、搜索引擎中發現潛在藥品導致不良反應事件[20]。參考文獻[21]利用藥品不良反應存在時間先后順序,挖掘電子病例中可能存在的藥物不良反應。參考文獻[22]將引起不良反應的條件分為使用一種藥品、兩種藥品、一種藥品和病人的一種特點、一種藥品和一種藥品過敏事件,根據決策樹、聚類等數據挖掘方法發現條件和不良反應結果的關系。當藥物使用與不良反應存在低頻率的因果關系時,一般的數據挖掘算法將難以分辨因果關系和偶然事件[23],參考文獻[23]基于預認知決策模型(RPD model)設計了多種算法用以發現藥品不良反應中的低頻因果關系[23~25]。
3.3 助力治療預測與降低醫療成本
目前,醫療健康行業成本高昂的部分原因來自醫療失誤和醫療浪費。根據1998年美國醫療協會的報告,僅僅在美國,可以避免的醫療失誤每年造成了98 000起死亡案例[26]。美國花在醫療健康上的費用超過1 700億美元,而中國每年花費在醫療健康上的費用超過30 000億元。在此背景下,多國通過改革醫療系統以減少醫療失誤及醫療浪費,最終削減醫療開支。美國于2011年通過的關于醫療健康信息技術的HITECH法案宣布:決定投入500億美元在5年內使用信息技術解決醫療行業存在的問題[27]。而中國在2009年宣布了花費1 200億元的10年醫療系統改革計劃的第一部分。
參考文獻[28]中分析了澳大利亞的醫療保險行業,認為使用目前的驗證技術無法有效發現醫療服務中存在的欺詐、濫用、浪費、錯誤等現象,原因在于舊的驗證技術只關注單個病例,無法利用多個病例間的聯系。作者以醫療賬單為數據源,建立關于治療費用、住院時間等數據的預測模型,使用數據挖掘技術發現賬單中的異常數據;使用領域專家建立的規則庫分析異常賬單,發現其中可能存在的問題并給出警告。典型的應用環境包括醫療器材濫用、手術過程與病情診斷不符、過度收費等。提早檢測出醫療過程中的問題將為國家保險機構、患者、私立保險機構節省大量花費。
3.4 輔助診斷
參考文獻[29,30]認為患者的基因型、生活方式、身體特征、多重病患嚴重影響了治療效果。提早根據患者的特征設計個性化的治療方案將有助于降低成本,減少醫療事故。參考文獻[31]認為通過挖掘用戶基因信息和電子病例可以做到:根據患者基因信息和患者的其他特征預測各種治療方案可能的副作用;選擇更好的治療方案,而不是嘗試各種治療方案;幫助用戶預防疾病或削弱疾病的影響。之后,參考文獻[31]設計了一套系統Mayo用來收集、存儲個性化治療所需要的數據,并為數據分析師提供分析數據的平臺。參考文獻[32]則通過分析病人的特征數據并匹配相似病例以幫助醫師診斷。
4 醫療健康大數據平臺
為了利用大數據技術處理醫療健康問題,需要針對數據特點以及處理方式設計專門的系統。下面主要介紹目前醫療健康大數據平臺如何設計以應對挑戰。
4.1 個人數據收集系統
iEpi[1]是一個便于流行病醫療科研人員快速搭建起收集用戶接觸信息、位置信息平臺的系統,本文主要對其進行介紹分析。
4.1.1 背景
智能手機的普及為獲取個人醫療數據提供了一個絕佳的機會,利用這些信息服務個人醫療、公共衛生成了關注的焦點。多個應用給予用戶控制自己健康狀況的自由,為醫療服務提供商提供病人的詳細狀態信息。這些應用主要提供非聚集的信息。而聚集化的信息可以更容易地提供準確、一致性的信息。
人口的接觸信息提供了了解流行病傳播模式的機會。人口活動信息加上位置信息,可幫助城市規劃者了解建筑環境對健康的影響;加上環境質量監控器,可以幫助了解環境污染對健康的影響。
4.1.2 目標
- 設計一個個人數據收集系統,周期性收集用戶數據,包括位置、加速度、溫度、心跳等信息;
- 考慮到需要提供接觸信息,位置信息應盡可能精準;
- 用戶可以設定所要收集的數據以及數據收集的頻率和持續時間;
- 考慮到醫療研究人員可能沒有編程經驗,配置方式應該簡單。
4.1.3 設計
iEpi系統包含2個部分(如圖1所示):數據收集部分(HealthLogger)和輔助處理部分。其中,HealthLogger由5個模塊組成。
- 任務管理器:HealthLogger的任務包括上傳數據、傳輸數據、讀取傳感器。任務分連續性和周期性兩種方式調度,其中,周期性任務需要設置周期和持續時間。任務管理器也調度其他服務。
- 數據流和過濾器:數據流提供了訪問Android傳感器API和其他數據的標準接口,過濾器幫助用戶剔除不需要的數據。
- 數據日志和數據緩存:數據日志存放收集的數據,數據緩存為數據日志提供臨時存放功能。
- 數據傳輸器:數據傳輸器是一個通用的文件上傳器,被HealthLogger的其他組件用來上傳數據到服務器。
- iEpian:是HealthLogger提供的一種簡易腳本,用來為沒有編程經驗的醫療研究員提供控制數據采集方式的功能。
因此,用戶可以在沒有編程經驗的情況下完成數據采集器的設計。HealthLogger還提供了藍牙接口以幫助用戶采集其他設備提供的數據,比如體重信息和飲食信息。當用戶數據被收集后,會以文件形式存放在Apache服務器,iEpi周期性地檢查新文件,對數據解密并解析,然后按用戶和數據采集周期存放到數據庫中。由于在室內時GPS提供的位置信息不準確,為了提高位置信息的準確性,iEpi定位器采用SaskEPS算法利用接入點位置及信號強度提高室內位置計算精確度。
4.2 面向病人的醫療健康網絡社區
DiabeticLink[27,33]為糖尿病患者及相關利益人員提供了一個多功能的健康網絡社區,下面將分析其設計思路。
4.2.1 背景
目前,在美國,糖尿病影響了8%的人口,建立為糖尿病人服務的醫療健康網絡社區有助于幫助他們。該網絡社區主要提供以下4個方面的服務:
- 糖尿病門戶及在線健康社區,主要包括為病人提供論壇、博客等交流醫療經驗及感情的服務,還包括匿名交流的服務;
- 糖尿病追蹤及可視化,包括記錄病人的醫療數據與健康數據并生成可視化報告;
- 糖尿病風險報告,使用病人數據預測患病風險,促進病人自我管理;
- 提供建議,為病人提供改善其狀態的建議,并鼓勵病人達成長期目標。
4.2.2 目標
設計一個面向病人的醫療健康網絡門戶,為患者、患者家屬、護士、醫師、制藥公司提供服務。其中,病人可以利用醫療健康網絡社區交流治療經驗和疾病信息,學習醫療知識,以更好地了解自己的病情、控制病情發展;病人家屬可以利用醫療健康網絡社區了解病人疾病、討論治療經驗、閱讀教育書籍,以提供更好的照顧;護士需要快速建立起疾病相關知識,以引導病人積極應對治療。醫療健康網絡社區還提供了以下功能:醫師在面對不熟悉的疾病時,需要快速獲取相關工具和資源的通道;部分醫療健康網絡社區提供匿名的電子健康記錄,醫學研究員可以從中挖掘信息;制藥公司可以從醫療健康網絡社區挖掘藥物不良反應信息。
4.2.3設計
為了滿足多方面的需求,除了提供簡單的醫療健康社區功能外,該系統還包含以下4個部分。
- 個性化病人智能工具:使用數據挖掘方法挖掘病人電子病例和病人博客以發現生活方式、治療和療效的關系,并為病人提供預防性建議。
- 疾病管理工具:記錄患者糖尿病參數(血糖、血壓、糖化血紅蛋白等)、營養、運動量、用藥量,并形成可視化報表,以幫助用戶管理自己的狀況。
- 社交功能:提供用戶分享經驗和感情,提出回答問題,尋找情感支撐等功能。
- 教育功能:提供可信的醫療文章、研究報告、健康食譜等內容,并為用戶提供知識搜索引擎。
4.3 個人體征數據收集與處理系統
參考文獻[34]為用戶提供了一個便于開發個人體征分析應用的基于Hadoop的框架。
4.3.1 背景
醫療健康行業的重心正逐步從醫療轉向預防[35],而可穿戴醫療設備的興起為醫療健康行業的轉變提供了獨一無二的機會。利用可穿戴醫療設備從用戶身上收集生命體征數據,比如心電圖、體溫、心跳,幫助提早檢測用戶患病危險、主動預防、管理健康。
生命體征數據包括像體溫、血壓這樣的間隔數據,也包括像呼吸、心電圖這樣的連續測量才有意義的數據。前者可以用傳統數據庫存放,后者一般采用文件存放。
4.3.2 目標
設計一個個人健康分析系統,以便用戶在此之上快速搭架生命體征分析應用。系統應該提供的服務包括:體征數據接收、數據存儲管理、數據分析接口、個性化服務(發送用戶服務數據到用戶的智能設備)。考慮到兩種不同體征數據形態,系統應該提供統一的處理方式。
4.3.3 設計
系統分為5個部分,如圖2所示。
圖2 u-He althcare 平臺構架
- 生命體征傳輸:為了提供可拓展性,系統采用符合W3C的SOAP標準傳輸數據。
- 中間服務層:為了對用戶提供統一的數據形式,系統添加中間服務層來預處理數據,將數據轉換為符合HL7規范的數據,中間服務層還提供接收體征數據、傳送數據到處理平臺、接收處理平臺結果并發送給用戶以及信號處理的功能(例如將加速度數據轉換為記步數據)。
- 數據存儲服務:系統接收中間服務層的數據,存放至分布式數據庫HDFS中。
- 分析服務:系統采用Hadoop作為主要的數據分析平臺。
4.4 小結
在設計醫療健康大數據處理平臺時,必須把數據放在優先考慮的位置。下面總結了前文提到的醫療健康大數據平臺設計思路,提出了定義數據源、確定數據處理方式、分析數據流向、設計系統的一般步驟。
(1)定義數據源
醫療健康大數據的數據來源包括結構化、半結構化、無結構化的醫療單位數據、個人健康數據和公共健康數據。例如醫療單位的電子病例數據、放射信息管理系統數據,傳感器收集的體溫、脈搏等個人數據,公共健康數據(包括政府發布的流感信息、社交媒體信息)等。為了實現良好的數據流,必須首先將平臺所要收集的信息分類,分析每種數據的特點,包括:是否是結構化、無結構化或半結構化數據;是否需要預處理;包含何種有用信息。
(2)確定數據處理方式
大數據的處理方式包括前文提到機器學習、分類、聚類、回歸等。根據上一步分析得到的數據特點和數據價值選擇相應的處理方式。比如參考文獻[34]中,為了得到用戶的運動數據,需要用戶的記步數據,而記步數據可以通過將源數據中的用戶加速度信息經過信號處理獲得。
(3)分析數據流向
根據數據源、數據處理方法和數據結構確定數據流方向。iEpi[1]中的各類傳感器數據經過在手機端匯總后到達服務器,以臨時文件方式存儲,經過分析后存放在數據庫中,最后提供給用戶挖掘其中的關系、模式。
(4)設計系統
根據數據流的特點和數據處理方式選擇現有的大數據處理平臺作為子系統,然后設計中間系統以連接多個子系統。
5 醫療健康大數據技術
5.1 可視化技術
醫療可視化技術一直存在,比如X光、CT、核磁共振、遠程醫療等。醫療可視化的功能在于為病人、醫生以及利益相關者提供更深的理解,以幫助其做出更好的決策。
隨著醫療信息化的到來以及移動設備、社交網絡的流行,醫療健康數據呈爆發式增長,醫生、制藥公司、公共衛生機構無法在面對海量數據時有直觀的了解,需要利用可視化技術將數據以直觀的方式呈現給相關人員。
5.1.1 分析
醫療健康大數據來源主要包含3個方面[6]:個人健康數據、醫療數據、人口健康數據。在個人健康數據方面,數據來源主要是傳感器信息和在線信息。使用可視化技術處理個人健康數據、個人疾病數據可以幫助用戶更容易地實現健康管理、疾病管理。處理個人飲食、運動數據可以幫助用戶直觀了解身體狀況,有助于用戶保持身體健康。在醫療數據方面,數據來源主要是醫學研究數據、電子病例數據。醫生無法跟上從這些數據中發現新的醫學知識的速度并將其用到病人的治療上,醫療可視化將為醫生提供直觀了解新知識的機會。人口健康數據以及疾病監控數據可以通過可視化技術幫助用戶了解人口健康狀況、疾病爆發狀況。
5.1.2 挑戰
由于需要處理大量數據以提供可視化的分析報告,可視化服務需要較長時延才能提供。當作為臨床決策支持系統時,醫師希望在短時間內獲得服務,這對可視化服務提供者提出了實時性服務的挑戰。
5.2 個性化醫療
考慮到患者間存在很大的差異,不存在針對一種病癥的適應所有情況的治療方案[36],實際上,研究人員一直在尋找針對病人的治療經歷、基因信息、遺傳信息、環境信息、生活方式等信息給予個性化治療的方案[37]。鑒于人類基因工程的原因,人類可以從基因角度給予患者個性化治療。
5.2.1 分析
個性化治療一般使用以下工具:家族健康歷史,利用家族健康歷史整合遺傳信息可以有效幫助預測疾病,進行主動的預防性措施;基因信息,指利用基因信息及其衍生物信息,包括RNA、蛋白質、代謝產物信息進行疾病預測和個性化治療,然而,基因檢測費用高昂[38],基因多態性的特質可能導致評估錯誤及預測錯誤,導致了通過基因檢測提供個性化治療難以獲得較高的性價比;臨床決策支持系統,其提供了一個利用所有信息為患者提供個性化治療方案的機會。
5.2.2 挑戰
個性化醫療的挑戰主要在于部分用于疾病預測、療效預測的數據源難以獲得。首先,平價的個人基因分析技術應該被提上日程;其次,用戶不愿意提交個人醫療數據的部分原因是擔心隱私泄露[39],這就對醫療數據提供商的安全和隱私保護提出了要求。
6 結束語
本文首先介紹了大數據概念、特點與處理平臺,之后分析了醫療健康行業的數據來源與特點,然后討論了利用大數據技術應對醫療健康行業挑戰的例子,最后介紹了醫療健康大數據系統與關鍵技術。目前醫療健康大數據還處于初期發展階段,但是它已經展現了改變醫療服務的潛力。醫療健康服務提供商利用大數據分析技術可以從臨床數據、研究數據、個人健康數據、公共健康數據中挖掘潛在的關系,為臨床決策、公共衛生、個人健康提供幫助。將來,醫療健康大數據將會快速地發展。目前,醫療健康大數據還面臨著諸多挑戰,隱私問題關系到用戶的數據不會被用作惡意用途,數據安全和標準化需要成立專門的機構來管理。然而,隨著技術的發展,醫療技術和大數據技術的結合將更好地為人類健康提供服務。