5個大數據實踐項目
這可能是因為大數據已為那些擁抱大數據的企業帶來了實際的收益。而且,大數據分析也正在從根本上改變著一些不同的領域,如藥物研究、市場營銷和產品開發等。
像智慧城市和無人駕駛汽車這樣的用例的研究和發展,也是為了滿足我們生活中的各種需求而存在。而大數據技術的未來可能也是如此——逐步發展以滿足人們的需求,但目前大數據還沒有發展到它應該發展的階段。
Infobright的首席執行官Don DeLoach說:“技術上的可行性和實際執行力存在很大的差別。我們來看看拉動大數據的兩種趨勢,即物聯網和機對機通信,這兩種趨勢都已經存在了很長時間,而隨著傳感器越來越復雜、價格逐漸降低,以及各種無線技術的選擇越來越多樣化,理論上的技術可行性正在逐漸變得更富實踐性。”
我們很多雄心勃勃的大數據夢想目前都還沒有進入到實際的應用階段,比如,我們研發無人駕駛汽車的技術已經有了,但卻不具備實際的基礎設施的支持而真正得到量產、普及。即使這樣,無人駕駛汽車仍然引人注目。
DeLoach說:“如果你想探知大數據究竟產生了什么樣的影響,那么你看投資到大數據技術上的資金就可以了。因為投資回報率(ROI)最高的領域,也是越吸引人們去投資的領域。”
在醫療、車載通信技術和線上營銷等領域大數據投資回報率已日趨清晰,但是這并不意味著我們最終會創造出無人駕駛汽車和超級智慧城市,而是說,目前大數據技術在這些領域的發展還不足以達到實際應用的程度,從而吸引大規模的投資。
本文描述了五個橫跨實際應用和技術可行界限的大數據項目,這些項目,或那些與之類似的項目能夠真正地給我們的生活帶來變化,讓生活變得更加美好。
人類基因組計劃變革了醫療行業
20世紀90年代初,人類基因組計劃開始實行,但那時我們并沒有意識到它實際就是一種大數據[注]項目。2003年,一張完整的基因組圖繪制完畢,一些大數據運動的先驅者已經開始將大數據的理念在技術領域慢慢傳開。
由于人類基因組這一早期的成功實踐,因此醫療和制藥是最早采用大數據技術和工具的兩個領域也就不足為奇了。
人類基因組計劃在一定程度上也闡明了大數據的摩爾定律。只要花100美元(或者更少)就可以從一些網站上,如23andMe購買到個人的局部基因組圖。而且對于推動降低整個人類基因組圖繪制的價格的行動也在進行中,其價格每年都在降低。現在,繪制一個人整個的基因組圖的價格在1000美元到5000美元之間,而在2007年,它的價格最少也是100萬美元。
一些初創公司如Life Technologies(最近被Thermo Fisher Scientific收購)和InVitae正在這一領域努力,以使每個人都能夠擔負起基因組圖的繪制。同時,這也將引導關于一些疾病,如癌癥、風濕性關節炎的個性化治療。
埃默里大學醫院和IBM共同創建未來ICU病房
目前,埃默里大學醫院(Emory University Hospital,簡稱埃默里)使用的是IBM和EME醫療電子產品公司的軟件產品以支持一項研究計劃,該計劃的目標是通過對實時數據流的分析對那些重癥病人實行先進的、可預測性的醫療保健。
埃默里正在測試一個新的系統,該系統能夠識別出生理學數據中的模型,以便在病人出現危險情況時及時提醒醫生。在傳統的ICU(重癥病房)中,病人床邊的顯示器上顯示一堆不同的醫療數據流,包括心臟機能、呼吸、腦電波和血壓。這些實時的生命體征會以波狀或數字的形式傳輸出來,并顯示在每個病床邊上的電腦屏幕上。而現在,醫生和護士可以快速處理并分析這些數據信息以制定合理的治療方案。
事實上,數據信息的任何一個小偏差都是一個預警信號,而這些小偏差往往會被人忽略。
埃默里目前正在試行該系統,同時采用EME的BedMasterEX,IBM的InfoSphere Streams和埃默里的分析引擎來收集和分析病人的實時數據。這一新的系統可以使醫生們更快地獲取、分析和關聯醫療數據信息,而且速度要比他們幾年前夢想的速度還要快。
埃默里緊急護理部門主管Tim Buchman博士說:“是否能夠正確評估和分析實時醫療數據往往決定著一個病人的生死。通過這一新的系統我們可以分析成千上萬個流數據點,并分析這些數據信息,以制定更好的醫療計劃,清楚地知道哪些病人我們需要實時關注,以及怎樣治療。它能夠讓我們的醫生在重癥護理過程中更有效地治療病人。”
軟件識別的數據模型可以顯示一些嚴重的并發癥,如敗血癥、心力衰竭、肺炎等,識別出這些數據模型,醫生可以得出實時的醫療診斷,并立刻采取醫療措施。
賓夕法尼亞州的Salis Lab幫助研究員設計創造合成生物
Howard M. Salis是美國賓夕法尼亞州立大學化工學院的一名助理教授,他自學了計算機編程,并創建了一個高性能的計算機門戶網站——Salis Lab,該網站旨在幫助那些從事合成生物和代謝工程領域的研究員使用計算方法設計合成生物。
Salis說:“微生物是世界上最好的化學家,如果我們能了解它們,并很好地利用它們的話,相信我們會生產出完整的多樣性的產品。而在過去,基因工程的工作更多是修改、實驗和錯誤,相信我們可以改變這些狀況。”
換句話說,基因工程更像是生物的自然選擇——隨機、緩慢,但在基金工程中也分為很多小的主題。
Salis指出:“而另一方面,合成生物更多的是一種工程學科。我們想要量化一切,我們要建立生物物理模型,這樣當各種方式的DNA變異發生時,我們可以用這些模型對其產生的結果進行量化預測。”
合成生物需要一種極其復雜的算法,所以這個項目托管在了亞馬遜AWS彈性計算云(Elastic Compute Cloud)上,AWS彈性計算云具有良好的伸縮性。一個短的DNA序列,其可能變異的數量要比宇宙中原子的數量多得多。Salis Lab目前發展得很好,其中包含了由2000個生物技術研究員在過去兩年中通過該門戶網站設計的超過3萬個合成DNA序列。
這一工作采用的應用種類就像研究員的想法一樣多種多樣,目標就是找出實現微生物工程的一種方式,這種方式需要采用的燃料要比采用化石燃料更加經濟。
更神奇的是研究員們所挖掘的那種預測能力,Salis說:“利用我們的模型,我們可以實際地預測演變,我們可以模仿DNA變異的影響來預測最有可能出現的演變。”
最終,研究員可以開發那些抗演變的微生物,由此產生的一些可能的用例的影響將是非常驚人的。世界上存在著數十億的微生物,而且每一個微生物中都有其各自的基因組,我們可以利用這些基因組創造價值。但是,給這些基因組排序將是一個非常巨大的大數據挑戰,首先要量化,然后分類,最后預測是否能夠以一種有效的方式組合它們。而這一挑戰也是Salis這樣的研究員迫切希望解決的。
喬治城大學的Global Insight Initiative幫助解決“大問題”
喬治城大學(Georgetown University)的Global Insight Initiative從世界各地獲取數據,并從這些數據中洞悉設備趨勢。Global Insight Initiative首先從各地獲得相關數據,然后組織整理,并對這些數據進行分析,最后從中找到解決復雜問題的答案。
喬治城大學Global Insight Initiative主管J.C. Smart說:“這個世界就是一個復雜的系統,有70億的人在致力于獲取或爭奪資源。同時,世界上有4萬個城市、1200萬英里的道路,以及8億輛汽車等等。弄清楚這一切如何互相交互、互相影響,并了解他們彼此之間是如何依靠和發展的,將是一個非常復雜的事情,會產生一個非常復雜的系統,而且這一系統還只是眾多系統中的一個。這就是大數據,不過更重要的是,這個世界就是一個大的知識庫。”
Global Insight Initiative需要數據整合工具以管理數據量,從而豐富他們的知識庫。Smart說:“這個知識庫可以給出一個關于我們正在討論的事物的估計值,這些事物包含了上萬億個事物和上千億種關系。”
Kapow 軟件公司和喬治城大學的Global Insight Initiative共同合作,以實現大批量數據整合的自動化來擴展Global Insight Initiative的知識庫。這個知識庫包含了來自全球162個國家覆蓋42種不同語言的2萬多個web源碼。實現數據整合的自動化之前(+微信關注網絡世界),還需要大量的人力資源去尋找、獲取,并整理文檔和其他web構件。
接下來面臨的問題是:如何尋找一個合適的時間或資源來分析這些收集來的數據信息?
Global Insight Initiative使用Kapow公司的軟件創建了自動化數據集成流,這個集成流你可以想象成一個信息收集機器人,被稱為infobot。部署之后,這些infobot可以讓每一個單一用戶(這些用戶不需要有編程技能)在任何時間運行和管理成千上萬的自動數據整合應用,以便對不同的數據有一個完整的考量。
目前,Global Insight Initiative將致力于為那些非常困難的“大問題”尋找答案,如我們如何更好的利用水資源?我們怎樣縮小疾病傳播的范圍?我們如何管理電力分配?如何合理地安排醫院或診所的位置,以盡可能地方便更多的人?以及當災難來臨時,我們如何能夠盡快的找到醫療資源?
LA ExpressPark泊車系統幫助減少交通擁堵和環境污染
美國洛杉磯的市中心經過十年的快速發展,從最初的貧民窟變成了娛樂和商業中心。不過在快速發展的同時,這個地區也出現了一些問題,比如道路交通混亂、擁堵嚴重。如果司機想要尋找一個泊車位,他們得在這個街區至少要轉悠30分鐘才能找到,有時甚至更久。
更糟糕的是,街道上的泊車費似乎與需求并不匹配。在特定區域內,街道泊車的價格一般都是統一的,有時候和幾個街區之外的車庫泊車位是一樣的,或者更便宜一些。所以,人們肯定不愿意開過幾個街區將車停在車庫里,尤其是他們開了很長時間的車又很累的時候,況且停在街上還比停在車庫里的費用要便宜。美國加州大學洛杉磯分校的教授Donald Shoup曾做過一項調查研究,他發現市中心74%的交通擁堵都是由于司機在街上找泊車位造成的。
為了平衡供求關系,并減少道路交通擁堵,洛杉磯市請施樂公司為其開發LA ExpressPark泊車系統。施樂升級了泊車位上用來檢測空間大小的傳感器,然后為了更好地平衡供需,施樂開發了一個基于算法的動態價格機制來提高泊車率較高街區的泊車價格(目的是鼓勵司機減少這一街區的泊車時間),同時降低泊車較低街區的泊車價格(鼓勵司機多在這些街區泊車)。
筆者是后來搬到洛杉磯的,作為一個外來人員,我非常奇怪為什么洛杉磯人為了找停車位寧愿在這個街區多繞兩圈,也不愿意把車停在兩個街區以外,不愿意多走五分鐘的路。我想如果人們知道兩個街區之外停車更方便、更便宜,相信他們也會愿意把車停在那里,而我自己從來沒有泊車問題的困擾。
為了引導司機們到空的停車區域,施樂又部署了一些新的、多樣化的信息提示,這些信息提示會隨著停車環境的變化自動更新。同時,這些信息可以在智能手機App,如Parker、Park Me和洛杉磯城市網站上共享。很快,施樂將數據放到汽車導航系統中,可以自動引導司機到距離其目的地最近的空車位停車,甚至還可以自動支付停車費。
這一系列的措施實施之后,成果還是不錯的。那些不是很繁忙的街區被利用起來,即使整體的使用率并不高,但是比以前已經提高了2%,而洛杉磯市也開始體會到其中的好處。
而且,交通擁堵的問題也有所緩解,導致了更多的司機來了解和使用LA ExpressPark系統。施樂公司資深副總裁兼管理總監David Cummins說:“停車管理員現在可以很直觀,并完整地看到街道上發生的一切,并通過數據分析為所有的事情制定決策。這一系統運用了多個供應商的技術,包括違反票處理、系統維護、數據收集等等這些技術都服務于泊車管理。以這種方式更好地利用這些數據來提高效率,并創造出額外的利益。”
Cummins指出,這個項目產生的早期成果證明了數據決策能夠幫助改善司機的行為,同時也能夠減少交通擁堵和環境污染。