大數據與小應用--不可逆轉的新浪潮
筆者微信上關注的一個共用帳號“油價早知道”推送了這樣一條信息:“油價早知道友情提示:根據油價輿情跟蹤分析,6月22日凌晨油價或上調(概率超過70%),上調幅度約在100元/噸。”第二天,油價早知道繼續提示油價上調消息,并且給出上調幅度0.1元/升,6月21日,油價早知道發布的消息就已經是發改委發布的油價提升通知。
油價早知道又一次提前三天預報了油價調整的信息,從上線以來,他們的預測準確率已經超過95%!這是一個典型的大數據應用的例子,這也是筆者看到的,在中國落地比較好的一個大數據應用的例子。
關于大數據,從去年開始,在全世界范圍內與云計算、物聯網、3D打印等一起,已經成為炙手可熱的話題。但到底什么是大數據?大數據究竟有些什么特性?我們應該怎樣應用大數據?它將給我們的生活帶來什么樣的變化?這些問題的探討一直在進行,很多企業都在思考,如何在企業的IT建設中應用大數據,實現企業運營的創新。
大數據(big data),百度上的定義是:指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。
Gartner給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
IBM對于大數據特性的4V描述目前普遍為業界所接受:(1)Volume,數據體量巨大。從TB級別,躍升到PB級別;(2)Variety,數據類型繁多。不止包括傳統的格式化數據,還包括來自互聯網的網絡日志、視頻、圖片、地理位置信息等等。(3)Value,價值密度低,商業價值高。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。(4)Velocity,處理速度快。1秒定律。***這一點也是和傳統的數據挖掘技術有著本質的不同。
如果單純按這四個特征去理解大數據,也許會把大數據理解成為全量數據或者叫做全息數據。而這樣的數據應用,似乎只有在超大型或者大型項目里才能建設起來,而這些與傳統的數據倉庫又有什么差別?
最早洞見大數據時代發展趨勢的數據科學家之一舍恩伯格給出的三條大數據特征或許能夠讓我們更好地理解大數據。舍恩伯格的大數據特征可以用三個詞語來描述:更多、更亂、相關性。
在這里的更多,是針對研究對象本身,要考慮與對象相關的更多維度的信息,而不是傳統的企業內部信息,例如運營商在研究客戶離網率預測的時候,不僅僅只研究客戶的計費數據,也可以將客戶的位置信息,甚至是在SNS網上的言論信息等增加進來。所以,大數據不一定能做到全量(而誰能夠定義到底全量是什么呢?)而只是逐漸增加的“更多”。
更亂,是采集的數據噪音更多,甚至在研究某一問題時會對預測結果擾動較大的數據維度。這就需要運用互聯網的“試錯”思維,不斷研究可能的在采集和數據處理過程中形成的噪音,反復實踐,在大數據中淘出來最有用的“小數據”。上文提到的油價早知道應用中,開發者體會之一就是在對于SNS的文本信息的上下文處理的不斷算法調整,剔出的噪音包括其它主題對于油價的干擾等,使得小數據集合更加精準。例如,某個相關大V在討論出租車價格問題時說到,如果出租車價格上漲,那么油價也一定是上漲了。人腦對于這樣的語言能夠很快判斷出來,主題是在講出租車價格問題,而機器就很難明白這一點。如果從這樣的句子中得到油價上漲的信息,則對于整個油價判斷就是一個干擾。
相關性,是找到數據之間的相關性,對研究對象的發展進行更好的預測。Google的工程師能夠比美國官方衛生部門更早地預測流行性感冒的例子就是一個很好的說明。Google的數據工程師不是病理專家,他們不可能知道流行性感冒的原因是什么,但是他們能夠通過與流行性感冒相關的一些信息表現,預測到流行性感冒的即將到來。
從上述三個特征及舉例來看,大數據應用,不只是國家戰略,企業戰略這樣的大應用,它恰恰可以通過無數的與我們生活息息相關的“小應用”來不斷推動發展,從高高的神壇中走下來,走入真正的市場應用。
但是,在大數據逐漸走入我們的日常生活的時候,我們也應該清醒地認識到,任何一門技術的發展,都是一個規范(制度)、技術、應用不斷互相配合共同發展的過程。最近沸沸揚揚的“棱鏡門”事件,就讓民眾對于大數據有了一個冷靜的認識。6月17日,筆者在微博上寫下了這樣的一句話:“斯諾登事件終于將"數據權"提到公眾視野,誰希望生活在1984里老大哥的統治下呢?有人想成為老大哥,但民眾已不是上個世紀。大數據的***個坎或者***個發展斷點逐漸顯現。”
因此,盡快實現“規范(制度)、技術、應用”的匹配也應該是每一個從業者的責任。操縱著大數據技術的廠家可以更多地參與到基礎規范研究中,應用探索者可以在不斷深化應用的過程中積累經驗,參與到基礎理論的建設中。而擔負著國家信息方向的相關部門更應該高度重視大數據規范(制度)的建設,畢竟,這不是哪一個行業或者企業能夠單獨完成的。
大數據的小應用,正在湍流不息地涌入到我們的生活當中,油價早知道就是一個很好的例子,有了這樣的探索,相信與我們生活息息相關的健康早知道、旅游早知道、交通早知道、股票早知道…也不遠了。