流感防治和大數據
德國柏林,一位醫學研究所的研究員在進行流感病毒分析。
大數據中的流感
近些年來,病毒性流感一波又一波襲擾人類,這不但引起學術界的密切關注,而且還經常成為公共領域熱議的話題。從 2009 年傳播力驚人,造成全球 20 萬人死亡的 H1N1 甲型流感,到今年年初,導致整個中國坐立不安的H7N9禽流感,流感病毒不斷改頭換面浮現世間,令藥物和疫苗要么準備不及,不敷使用,要么無法預防,中看不中用。彼時,如果能提早發現流感的發病趨勢,不僅能為抗病毒藥物的準備爭取寶貴的時間,而且還有助于疫苗研發機構能盡早“對癥”采取措施。
現有的流感檢測主要基于世界衛生組織在 1952 年建立的全球流感監測網絡。這一網絡由來自 99 個國家的 128 個國家流感中心以及流感參比和研究合作中心組成。
就目前的情況,這一網絡運行態勢平穩,對流感的監測和防控起到了巨大的作用,但這是因為最近數十年,流感多是地區性流行。按照大流感的流行周期,威脅全球的大流感出現的幾率越來越高。
這也對流感監測提出了更高的要求:如何更早更準確地發現流感流行的苗頭?
有一群谷歌工程師也有同樣的想法。作為全球最大的搜索引擎,每時每刻都有上百萬用戶在使用谷歌提供的搜索服務,其中搜索健康信息的人亦不在少數。這些用戶行為提供了海量的有寶貴價值的分析數據。
可以想見,流感流行季,搜索流感癥狀的人會飆升,而在流感高發地帶,這一比例會相應提高。這意味著流感相關關鍵詞的搜索趨勢與流感的流行趨勢及嚴重程度存在某種程度的相關性。盡管并不是每個搜索這類關鍵詞的人都有流感癥狀或患有流感,但把這些搜索結果匯總到一起時,或許可以從中建立起一個準確可靠的模型,實時監控時下的流感疫情,并對未來疫情狀況進行估測。
工程師們首先面臨的任務是選擇流感相關的關鍵詞。這一步看似簡單,但卻非常棘手。雖然可以肯定包含“流感”字樣的關鍵詞一定會入選,但語言的組織形式多種多樣,具體應納入哪些關鍵詞,依然難以確定。
工程師索性將關鍵詞的選擇權“粗暴”地交給了機器。他們挑出谷歌搜索量最大 5000 萬個關鍵詞,分別代入到事先建好的一個模型中,而后將這一模型產生的曲線與美國疾病預防與控制中心(以下簡稱美國 CDC)的流感流行曲線進行擬合,進而篩選到擬合度最高 100 個關鍵詞。
事已至此,羅馬的一半已經建成。接下來就要去蕪存菁,從這 100 個預測性最好的關鍵詞中,優選出與流感有關的部分,并將其綜合起來完成預測模型的建立。最終有 45 個關鍵詞落入工程師的法眼。
實踐是檢驗真理的唯一標準,預測模型好壞的最佳評價標準一定是在實戰中觀察其能否通過考驗。在回溯驗證中,谷歌工程師將美國紐約市 2003 年至 2007 年的季節性流感數據與模型計算出的數據進行了比較,發現相關系數達 0.90。對于這一模型,更有用的是“未來”驗證的結果。在回溯結果的鼓勵之下,谷歌工程師從 2008 年初開始,將模型導出的結果與兩周后美國 CDC 公布的數據進行對照。結果依然令人振奮,相關性同樣達到了 0.90。最終,工程師們還將這一模型的建立過程撰寫成論文發表在《自然》雜志上。
顯微鏡下的 H1N1 病毒圖。
結果仍有缺憾
很快,谷歌根據這一結果推出了名為“流感指數(Google Flu Trends)”的產品,據稱能夠提前兩周提供精確度不低于疾控中心的結果。目前這一指數已推廣到全球 29 個國家,并由檢測流感拓展到另一種感染性疾病登革熱。谷歌工程師對這一產品如此自豪,以至于在產品推介視頻中,CDC 的結果完全淪為陪襯,但事實果真如此么?
由于“流感指數”的高低在很大程度上取決于用戶的搜索行為,有觀察家認為,如果一些事件會影響到用戶的搜索,那么指數就有可能出現假陽性或假陰性。果不其然,在谷歌流感指數運行期間,人們逐漸觀察到原有模型的缺陷。
早在 2009 年,谷歌流感指數就暴露出了算法可能存在問題。那年在主要國家流行的流感病毒株是 H1N1 型。該毒株傳播力驚人,不過毒力較弱。也就是說,相當一部分人感染了H1N1后多表現輕微的典型流感癥狀,并不會引發更嚴重的并發癥。也許是這一原因導致谷歌用戶并未過多關注當時流感的流行狀況,致使流感指數的估值嚴重低于 CDC 的上報數量。這一假陰性錯誤迫使谷歌工程師第一次大幅修改了算法。
時至 2013 年,流感再一次引起了世人的廣泛關注。在中國,H7N9 型禽流感引起 130 余人感染,并致使 44 人死亡,且有人傳人的跡象。而在美國,流感流行狀況也十分嚴峻。紐約州在 2013 年 1 月還特地發布“公共健康緊急狀態”的通告,以警示民眾。這些消息獲得大眾媒體的廣泛報道。然而,谷歌流感指數的表現再次讓人大跌眼鏡:指數估值出現了假陽性,即遠高于 CDC 的統計數量。盡管谷歌方面對此并未置評,但大部分關注這一指數的研究者認為,流感疫情獲得媒體連篇累牘的報道,影響了谷歌用戶的搜索行為,導致指數估值出現偏差。
在谷歌流感指數啟發之下,很多研究者試圖利用其他渠道(比如社交網站)的數據來預測流感。紐約羅切斯特大學的一個數據挖掘團隊就曾利用 Twitter 的數據進行了嘗試。利用團隊開發的文本分析工具,研究者在一個月內收集了 60 余萬人的 440 萬條 Twitter 信息,挖掘其中的身體狀態信息。最終的分析結果表明,研究人員可以提前 8 天預報流感對個體的侵襲狀況,而且準確率高達 90%。
不過研究者也承認,這一算法并非完美,比如 Twitter 的使用者大部分是年輕人,而季節性流感的襲擾對象多為抵抗力較弱的老年人和兒童。另外噪音信息的干擾也很難去除。比如研究者在監測 Twitter 上關于流感的信息時,突然發現一個峰值,而那時完全不是流感的流行季,進一步分析顯示,原來是紐約湖人隊的籃球巨星科比·布萊恩特在那時罹患流感,但仍帶病上場,從而引起球迷在 Twitter 上熱議所致。
4 月 10 日,昆明市疾控中心國家流感網絡監測中心實驗室,技術人員正在進行流感病毒的檢驗檢測。
大數據視角下的甄別手段
利用搜索引擎的檢索詞以及推特的文本挖掘來提前感知流感的脈搏,的確是一種有效的手段,雖然目前仍處于“進化”階段,但至少可以作為現有監測網絡的補充。
上文提到,就大流感的流行周期來看,下一波流感的全球流行很快就會到來。科學家估測,全球流感暴發的導火索很可能是肆虐于禽鳥間的高致病性禽流感具備了人際間傳播能力,而 H7N9 或許就是大流感來臨前的警鐘。
病毒感染人類,就像用鑰匙來開鎖,如果二者并不匹配,感染過程就無法發生。不過流感病毒是一種很特殊的病毒,它能夠通過突變相對迅速地改變“匙齒”,從而打開侵襲人體的大門。1918 年,造成全球數千萬人死亡的西班牙大流感就是血淋淋的例證。
相對于利用大數據獲取的流感流行趨勢,科學家的視角更加深遠,他們希望發現哪種流感毒株是毒性最烈的大殺器,希望揭示原本在禽類或豬體內傳播的流感病毒是如何發生驚人一躍,轉而在人際間流行的,由此為疫苗和藥物的研發贏得寶貴時間。
在以往,要回答這一問題,需要比較不同毒株的 DNA 或蛋白序列,這一過程就像在一片森林里挑出一棵樹冠漂亮的樹一樣冗長繁瑣甚至有些痛苦。如何對舊有方法做出改進,美國哥倫比亞大學研究者 Rabadan 開始了他的嘗試。
他的研究基礎依然建立在基于互聯網形成的大數據上。世界各地科學家在對手頭的病毒樣本進行研究時,會將其中的序列信息經由互聯網提交公共數據庫中。經年累月之后庫中積累了大量序列數據。
這些序列數據就像廣袤的森林,如何挑出其中樹冠最美的樹,Rabadan 利用一套復雜的機器學習算法來實現這個目的。
首先 Rabadan 使用已知種屬來源的流感病毒數據輸入到算法中,教會其如何“審美”,即具備識別哪些病毒來自人類,哪些來自禽類或豬。這一算法訓練成熟之時,同時也是其大顯身手之日。研究者讓其對數據庫中6萬個病毒基因組進行了分析。大數據視角下的甄別手段果然不一般,Rabadan 已經發現了一批候選突變,認為導致病毒跨物種傳播助推器就隱藏在其中。
目前,世界各地多個研究小組正在使用這種方法從不同角度對流感病毒展開研究。美國 St.Jude 兒童醫院病毒學家 Richard Webby 認為,在互聯網的幫助下,大數據理念與機器學習算法攜手,如同為流感研究插上了雙翼。這一手段不僅喚醒了沉睡的序列信息,而且還可成為科學家的第三只眼,尤其是在危險的驚人一躍發生之時。