十面"霾"伏下的大數(shù)據(jù)預(yù)言
即將過去的2013年,“霧霾”幾乎成為許多都市人最擾心的一個(gè)熱詞。在北京,政府甚至不得不以工地停工、公車停駛、工廠停產(chǎn)等種種措施,盡力減少各種污染物的排放。
十面“霾”伏的敵人來自何方?大數(shù)據(jù)時(shí)代的到來或許可以尋根溯源,因?yàn)樗軒椭藗兏鼫?zhǔn)確地了解、判斷生存環(huán)境中最重要的一面—空氣質(zhì)量。
未來大數(shù)據(jù)的價(jià)值核心在于預(yù)測(cè)。中科大信息科學(xué)技術(shù)學(xué)院院長(zhǎng)李衛(wèi)平介紹,中科大先進(jìn)技術(shù)研究院中正在進(jìn)行著一項(xiàng)科研,通過收集和分析霧霾天氣產(chǎn)生的各種數(shù)據(jù),找到產(chǎn)生霧霾天氣最主要的原因。“這是一些看上去雜亂無章的數(shù)據(jù),我們建立一個(gè)大數(shù)據(jù)庫,從中找尋規(guī)律性的東西。”這個(gè)科研項(xiàng)目與微軟合作,一旦找到其中規(guī)律,有望為政府治理霧霾天氣提供科學(xué)依據(jù)。
2013年10月30日,在微軟亞洲研究院創(chuàng)新日上透露的一種新技術(shù),試圖讓人們了解所在地區(qū)空氣質(zhì)量的真實(shí)情況。在此基礎(chǔ)上,人們就能做出更明智且更有利于健康的決策,例如何時(shí)何地最適合戶外運(yùn)動(dòng),或者何時(shí)應(yīng)戴上口罩或關(guān)上窗戶。
“這些工作都是在大數(shù)據(jù)的基礎(chǔ)上才能夠進(jìn)行,無論模式如何先進(jìn),沒有海量的數(shù)據(jù)進(jìn)入,都不能達(dá)到很好的效果。”中國(guó)氣象局公共氣象服務(wù)中心高級(jí)工程師唐千紅說。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)并非單純指人們?cè)诨ヂ?lián)網(wǎng)上發(fā)布的信息。全世界的工業(yè)設(shè)備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時(shí)測(cè)量和傳遞著有關(guān)位置、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化。
微軟根據(jù)現(xiàn)有監(jiān)測(cè)站所提供的空氣質(zhì)量數(shù)據(jù)以及城市里的其他多種數(shù)據(jù)來源(包括氣象情況、交通流量、人員流動(dòng)趨向、路網(wǎng)結(jié)構(gòu)、人口集中點(diǎn)等),運(yùn)用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù),對(duì)大數(shù)據(jù)加以充分利用,并在監(jiān)測(cè)信息和對(duì)應(yīng)結(jié)果之間建立一個(gè)隱式映射,從而可以實(shí)時(shí)推斷出包含細(xì)顆粒物信息的城市空氣質(zhì)量數(shù)據(jù)。
大數(shù)據(jù)時(shí)代下的氣象服務(wù)是什么樣子?唐千紅認(rèn)為,在看得見的未來,融入了地理信息、社會(huì)經(jīng)濟(jì)數(shù)據(jù)的氣象服務(wù),能夠讓人們知道任意時(shí)間地點(diǎn)可能會(huì)發(fā)生什么,例如這陣風(fēng)是否會(huì)吹翻門口的廣告牌,前面一個(gè)高速路口是不是在下雨、會(huì)不會(huì)發(fā)生山洪。
其實(shí)大數(shù)據(jù)就在腳下,盡管很多時(shí)候我們沒有意識(shí)到。
全球的數(shù)據(jù)量正在以每18個(gè)月翻一倍的驚人速度增長(zhǎng),世界正在高速數(shù)字化。事實(shí)上,從城市交通到空氣質(zhì)量,從建筑設(shè)計(jì)到影視制作,大數(shù)據(jù)分析應(yīng)用已經(jīng)滲透到生活的方方面面。大數(shù)據(jù)到底怎樣改變了人們的生活軌跡?為此我們采訪了微軟研究院院長(zhǎng)Peter Lee、微軟亞洲研究院院長(zhǎng)洪小文、微軟全球資深副總裁周以真,揭開大數(shù)據(jù)的神秘面紗。
數(shù)字商業(yè)時(shí)代:什么是大數(shù)據(jù)與機(jī)器學(xué)習(xí)?這一技術(shù)的商業(yè)應(yīng)用前景如何?
洪小文:我常常舉一個(gè)例子,譬如說你媽媽明天要來北京看你,她在郵件里告訴你航班的號(hào)碼,明天下午5點(diǎn)鐘會(huì)到。可是你那天下午在開會(huì),三四點(diǎn)的時(shí)候計(jì)算機(jī)就自動(dòng)把郵件里面的航班號(hào)碼抽出來,自己去航空公司的網(wǎng)站一查,告訴你班機(jī)晚點(diǎn),要7點(diǎn)才來。而且它還會(huì)根據(jù)交通狀況決定什么時(shí)候通知你出發(fā),以什么方式出發(fā)。它可以建議你坐出租車、坐地鐵要多少分鐘,甚至可以在你的社交網(wǎng)絡(luò)里找到附近的朋友開車來載你。
這些自動(dòng)化都可以做得到,但是今天還沒有這樣的系統(tǒng)和服務(wù),所以就只能隔幾分鐘看一看,很浪費(fèi)時(shí)間,而且在很多場(chǎng)合不允許。這樣的東西其實(shí)是大數(shù)據(jù)與機(jī)器學(xué)習(xí)的表征,需要很多不同種類的數(shù)據(jù),有郵件的數(shù)據(jù)、地圖的數(shù)據(jù)、飛機(jī)的數(shù)據(jù)、交通的數(shù)據(jù)。大數(shù)據(jù)不僅是大,還要有多樣性和集成性。
大數(shù)據(jù)還應(yīng)用在其他方面,比如報(bào)刊雜志上的文章到底有多少人看,大家有什么評(píng)價(jià),轉(zhuǎn)發(fā)給誰。以前這些東西可能要做問卷才能得到,今天通過互聯(lián)網(wǎng)更有機(jī)會(huì)獲取。如果搜集的大數(shù)據(jù)都是零散的、繁雜的,你怎么去看?這就需要數(shù)據(jù)可視化,這一點(diǎn)對(duì)管理者非常重要。管理者在做一個(gè)決定之前,想看看這個(gè)東西在某一個(gè)區(qū)域大家的反應(yīng)會(huì)怎么樣,調(diào)出來一看就知道。
大數(shù)據(jù)與機(jī)器學(xué)習(xí)真的是在每一個(gè)行業(yè)都有類似的應(yīng)用。
數(shù)字商業(yè)時(shí)代:有人說,大數(shù)據(jù)與云計(jì)算是一個(gè)問題的兩面,云計(jì)算是支撐大數(shù)據(jù)時(shí)代的基礎(chǔ)。但當(dāng)大數(shù)據(jù)和云計(jì)算真正落地,或是走向消費(fèi)者的過程中遇到的障礙和挑戰(zhàn)有哪些?
周以真:實(shí)際上,普通用戶已經(jīng)享受到很多大數(shù)據(jù)和云計(jì)算所帶來的利益和好處,只是我們并沒有清晰地意識(shí)到而已。比如用Windows Phone進(jìn)行文字輸入,輸入前一個(gè)字,就會(huì)有下一個(gè)字或詞匯的提示聯(lián)想。或者用手機(jī)或PC收發(fā)郵件時(shí),垃圾郵件的過濾功能。這些都是集成大數(shù)據(jù)和機(jī)器學(xué)習(xí)的技術(shù)才能得以實(shí)現(xiàn)。
類似的應(yīng)用無處不在,甚至可能存在的地方太多了,我們都已經(jīng)忽略它了。
另外一個(gè)典型的例子是關(guān)于云。比如我們把手機(jī)上的照片存儲(chǔ)在云端,即使手機(jī)丟失再換一個(gè)新的,你仍可以從云上重新把照片下載下來。
數(shù)字商業(yè)時(shí)代:可穿戴設(shè)備就像“人體的物聯(lián)網(wǎng)”,通過傳感技術(shù)可以檢測(cè)出用戶的體溫、血壓、心率等數(shù)據(jù),這些個(gè)人的身體數(shù)據(jù)庫非常有價(jià)值。那么微軟未來在可穿戴設(shè)備這一塊最大的機(jī)會(huì)是在哪兒,是在硬件設(shè)備,是在云端,還是在軟件上?
Peter Lee:這三個(gè)領(lǐng)域都有,但是我最感到振奮的就是云端。之所以說是云端,是因?yàn)樵朴?jì)算的環(huán)境當(dāng)中有大量的數(shù)據(jù)、大量的計(jì)算能力,再加上機(jī)器學(xué)習(xí)的功能,可以展示出非常高級(jí)智能的產(chǎn)品。比如說從云端可以看到你過去一年運(yùn)動(dòng)量夠不夠,判斷你所吃的食物是否足夠健康,還可以把信息反饋給你的醫(yī)生。這些都需要有非常好的云架構(gòu)。