漫談醫療大數據建設
醫療大數據是當前醫療信息化最熱門的話題之一。然而,面對如何建設醫療大數據的問題,大部分醫療信息化從業者都是非常迷茫的。
我們先來看看現階段大家對醫療大數據的期望是什么。業界廣泛認為,醫療大數據目前可以應用在疾病預防、臨床決策、藥品研發、就診行為分析、費用監管和分析等方面。觀察這部分應用的基礎對象—數據,被用于分析的數據包括就診記錄、檢查報告、用藥情況、費用情況等等,從EMR、HIS、PACS、LIS等系統中獲取,數據源會有結構化數據和非結構化數據。然而,在實際大數據分析過程中,使用的基本上是結構化數據或者轉化為結構化數據的信息,我們目前沒有太好的辦法對非結構化數據直接進行大數據分析,例如Pacs的影像文件,一般只能分析從Pacs圖像中提取出來的病理信息來用于分析。這樣,醫療大數據處理數據的類型和方式就基本確定:結構化數據以及非機構化數據提取出來的結構化信息用于復雜、快速的大數據分析應用;非結構化文件不用于分析,大數據系統提供統一存放管理非結構化數據的資源池,并且提供快速檢索查詢文件的能力。
先看看大數據分析拿結構化數據來做什么。例如,疾病預防應用主要分析歷史的流行病相關數據,多維度歸納分析出影響各類疾病流行的因素以及影響程度大小,從而判斷預測疾病流行的趨勢和可能性。該應用屬于事后分析,不要求實時性,但是有時效性需求,也就是越快越好,預期是在分析數據規模非常龐大的時候。分析的算法其實就是使用數據庫的排序,對比,條件查詢、篩選等基礎操作組合成算法,數據規模不大的情況下關系型數據庫完成可以勝任,數據規模達到一定程度之后,可以使用MPP DB、Hadoop Hive/Hbase等方式處理,從實際測試驗證過程得知,當前階段,采用MPP DB效率***,并不一定要用到Hadoop。部分情況下,處理該類算法,MPP DB效率會比HBase高出一個數量級。藥品研發、臨床決策、就診行為分析等應用情況類似。此類應用一般要求將分析結果多維度展示和提供報告,目前看來,傳統BI的展示工具是最為成熟和適用的。綜上所述,使用大數據系統的MPP DB取代BI原有單機數據庫,結合BI展示工具組成整體方案,是事后分析型業務***選擇之一。
另一類結構化數據大數據業務是需求實時性的,例如違規用藥監管,異常醫保監管,過度醫療監管等,海量數據流實時不斷流入,需求實時判斷和監管。此類應用***的選擇是Storm類的實時流處理引擎,設定簡單的判定算子,所有數據經算子過濾,實時篩選出異常情況供人工處理,這里也不需要Hadoop。
我們回頭再看非結構數據部分,這部分數據量是最為龐大的,目前缺乏有效的工具對醫療行業非機構化數據直接進行大數據分析,但這并不意味著醫療大數據不需要考慮非結構化數據。現有的技術條件下,對非結構化數據的大數據價值挖掘手段有這么兩種:其一,抽取非機構化數據中關鍵信息,利用結構化數據處理手段進行分析;其二,構建非機構化數據資源池,統一存放管理原本分散的非結構化數據,部署檢索引擎,建立資料庫供醫務人員、研究人員查閱和參考。
說到這里,可能大家會有疑問,醫療大數據僅僅這么簡單?業界風起云涌的各種大數據技術、趨勢、工具好像都沒怎么用上呀。就我國醫療行業信息化現狀來說,目前的確只能是這樣。我們的醫療信息化缺乏基礎,這個基礎并非是指技術或者工具,這些都可以借鑒和學習,無法照搬的是醫療行業對大量數據的使用思路和使用效率,這類經驗必須在實踐過程中逐步積累和成型,無捷徑可走。所以,對于國內醫療行業來說,機器學習、人工智能太遙遠,給了也用不上或者不知道怎么用,從簡單的應用開始,逐步摸索,逐步積累才是效率***的方式,無捷徑可走。
醫療行業現在沒有現成可用的大數據應用,為了積累大數據經驗,當前階段醫療大數據的建設都是帶有一些嘗試性質的,都是需要長期投入人力、物力進行開發、試用、改進的。每個行業的大數據都需要經歷這樣的過程,包括目前看起來大數據試用比較成熟的互聯網行業,在行業應用中用出來的大數據系統才是成熟的,具備行業適用性的。
在實際的醫療大數據嘗試過程中,我們發現,醫療專家缺乏大數據技術,包比如醫院和衛計委,而包括IT廠商、軟件開發商、互聯網廠商在內大數據專家缺乏對醫療體制和醫療專業經驗的認識。單獨一方進行醫療大數據嘗試往往很難成功,相互合作,互為補充或許是一條可行的路。華為公司作為IT與大數據技術全球領先的公司,期待與醫院和衛計委的合作,共同開拓中國的醫療大數據成功之路!