QCon2014姜小凡:物理世界的數據越來越有價值
二月下旬,北京迎來一輪漫長的霧霾天氣,京東上許多空氣凈化器脫銷,淘寶上3M口罩漲價不少,微博、微信上也流傳著各種應對PM2.5的偏方。在未 來的日子,我們不得不繼續PM2.5問題。2013年,姜小凡和他的團隊開發了一款成本200多元的PM2.5檢測設備——PAM(便攜式個人空氣質量監 測儀)。PAM***的特點是成本低。同時,PAM考慮了地理信息、氣候因素,并且通過機器學習的方式處理這些數據,建立模型,模型進一步修正數據,保證數 據精確性。
在QCon北京2014大會上,姜小凡將就《PM2.5的大數據分析》為題分享,詳解如何將廉價的傳感器與云端數據結合實現PM2.5分析的。日前,InfoQ對姜小凡進行了專訪,以下為采訪內容:
InfoQ:姜小凡你好,向InfoQ的讀者和QCon的參會者介紹下自己吧。
姜小凡:我是Intel物聯技術研究院的***構架師,也是Intel研究院的主任研究員。最早我在伯克利讀本科 和博士,期間開始接觸物聯網這個方向,做了一些無線傳感器網絡和樓宇能源監測及管理的項目。在博士期間我也做了一些能源控制的startup,并也在美國 的Google做了一些MIMO通信的研究。畢業之后我加入了微軟亞洲研究院,那時候我主要研究移動互聯網、室內定位等。2012年底我再次加入了 Intel,為什么說我再次加入呢,是因為我本科畢業的時候,在加州那邊的英特爾也工作過一段時間。自2012年底到現在,我們對很多領域的技術進行了探 討,并對其中一些進行了深入研究。其中一個項目是利用物聯網和大數據手段做空氣質量檢測,如PM2.5和霧霾。
InfoQ:目前你關注的重點是什么?
姜小凡:把物聯網技術真正應用到生活中,把技術真正推向市場并解決一些問題,是我們研究院所有人共同的目標,也 是我們關注的重點。對于我個人來說,剛剛說的PM2.5和霧霾問題是我目前一個很重要的關注點。現在有各種手段做PM2.5監測,但是這些方式要么非常昂 貴,要么很不精確。而我們利用比較廉價的傳感器網絡能實時的把顆粒物的數據傳到云端,同時收集了不同維度的其他數據,包括氣象數據,人的位置數據等,將這 些數據融合在一起。***用機器學習的方式處理這些數據,找到他們之間的關系,學習出不同維度數據互相的影響。通過這種方式,在云端做了空氣模型,再通過這 個模型增加數據的精確性。我認為這是一個非常經典的物聯網和大數據的結合的項目,也希望能夠向QCon的聽眾介紹這個項目。
當然我們不僅僅有空氣質量方向的研究,我們也做一些可以快速應用的項目,我可以列舉幾個。如手機驗真。現在國內的手機是有很多是仿品,怎么用數據和 眾包的方式自動檢測到手機的真偽?這就涉及到手機硬軟件的“指紋”收集,我們在云端建立了一個比較大的數據庫,能收集到很多款Android手機的指紋。 不同的操作系統,不同的軟件版本會生成不同的指紋,通過指紋的方式非常簡單的告訴消費者,你買的手機是正品還是仿品。
在室內定位方面,我們和海龍大廈合作,通過無線信號指紋的手段定位。這樣,我們知道某個消費者時時的精確位置。基于位置信息,可以給消費者提供一些幫助,比如說室內導航,廣告的推送。
此外還有一些其他的項目,包括我們在公交車做了人流的監測和預測,希望解決交通擁堵的問題。基本上我們現在都是比較實際的問題,希望用大數據、云計算的手段去解決這些問題,而不是花更多的錢去買一個更精確的傳感器。我認為這是一個正確的方向。
InfoQ:海龍大廈室內定位是通過WiFi信號實現的嗎?
姜小凡:是通過WiFi,這個技術在學術界已經有不少論文,但我們還沒有看到很多真正的商業應用。我們這里要做 的,不是去發論文討論如何實現,或是如何添加一個什么創意來改進,而是真正將WiFi室內定位推進到應用的層面,我們知道任何一個實驗室技術和真正實用化 相比還有很大差距的,面對的問題也有很大區別。實驗室關注的是可行性,可以對很多條件進行限定;但實際上很多條件是不可預知的,實際應用有太多的細節和技 術難關需要解決。
InfoQ:在過去一年當中,你觀察到數據行業有哪些變化?
姜小凡:開始的時候,大家都覺得大數據要像亞馬遜、沃爾瑪、Google這些公司那樣收集了很多信息,然后通過 模型或分析找到可利用的信息。很多人把大數據和Hadoop之類的技術劃上等號,拿數據量來標榜大數據。而我的看法卻不同,我認為大家越來越關注小數據的 集合,為什么呢?之前一般直接從互聯網提取數據,但是近一兩年,看到的是很多物理世界的數據,比如手機里的加速度傳感器的數據,GPS數據,PM2.5數 據。這些和物理世界相關的數據越來越多,而且越來越有價值。我認為我們會漸漸把大數據的概念擴展,把空間信息、地理位置信息等meta data都加入進去。而我們更關注的不是數據本身,而是數據之間的關系和它們的相互作用。建立數據之間的關系是有難度的,處理起來也更加復雜。如在實時系 統中,留給數據分析和反饋至前端的時間也許只有10毫秒,如何利用流處理和系統優化來達到,這是我們需要深入研究的。
InfoQ:你怎么理解大數據處理與大數據應用?
姜小凡:大數據處理方面,大家都認為大數據應該在云端做,但我覺得數據的處理應該是分布式的,我指的不僅是數據 中心分散計算能力,而是數據應該在最利于處理的地方處理。比如,如果需要把所有數據以原始的狀態發送到云端處理,對網絡的壓力是非常大的。所以我認為大數 據處理,可以在例如手表之類的地方處理再發送到云端,比如視頻數據會在攝像頭內做一些特征提取,然后再把特征發送到云端。
大數據應用有一些經典的例子,比如通過數據分析知道用戶在某一時間點喜歡購買的商品,超市可以通過預測來提前訂貨。在移動應用方面,剛才提到了在海龍大廈的室內定位就是其中之一。
InfoQ:您曾經說過,希望把PAM傳感器的價格降到兩三百元人民幣,這個目標還需要多久才能實現?
姜小凡:這個目標在有一定生產量的前提下已經實現了。具體生產量是多少,我們還在進行核算,不過這個量應該不是很大。
InfoQ:通過大量廉價的傳感器搜集數據是未來實現大數據應用的有效手段嗎?這其中的難點在哪兒?
姜小凡:這里的挑戰包括數據的可用性,精確性,以及把數據提取到云端的過程耗費的系統資源。以WiFi定位為 例,原理上大家都理解,通過收集某一點的3個AP的信號強度,用三角定位實現。但在真實環境,無線信號波動非常大,遮擋物會改變信號強度,信號可能被反射 和散射 ,造成信號強度衰減或者增遞。物理世界的傳感器數據,并沒有互聯網數據那么干凈,需要大量的處理把傳感器數據變成可用的數據。