別讓大數據背鍋 用好小數據可能更有效
人人都在說大數據,但并非每個場景都適合用大規模的數據存儲和處理,因為處理大數據集意味著需要更多的存儲和計算資源,不是每家客戶都有這樣的能力,而且在一些細分場景中,小數據可能更有效。
為什么要算明白數據這本賬?全球互聯網用戶每天總計發送電子郵件2940億封、發送推文5億條、在Facebook創建數據多達4PB。同時,每天發送WhatsApp消息達到650億條。該報告同時預測明年全球數據總量將增長10倍,達到44ZB。互聯網飛速發展引發的數據大爆炸可謂是一把“雙刃劍”,在帶來經濟效益、促進社會發展的同時,也使得數據隱私面臨更大風險。
基于大數據的個性化推薦已屢見不鮮,似乎只要數據維度和量級足夠豐富,AI對其的價值挖掘就會用之不竭。數據讓AI有了應用價值,如Facebook會利用AI來預測用戶的未來行為,作為廣告投放的依據,所參考的信息包括:位置、設備信息、圖片/視頻瀏覽記錄、WiFi連接狀態、好友關系、聊天內容等等。
再如智能音箱對用戶語音語義的收集、無人駕駛系統對行進路線的采集等等,人們除了要在數據合規的基礎上,開放更多的數據源,還要借助區塊鏈等新技術或手段為這些數據建立完善的審核機制。
也就是說,大數據在提供數據畫像的同時,自身除了成本,也在面臨更大的監管因素。而且,有時大數據在標簽上識別會忽視個體的差異化。這就要提到小數據,小數據通過各種終端記錄著用戶自己產生的數據,例如每天運動所產生的卡路里、每次上網的閱讀習慣和推薦、每次去超市的消費行為等等,這些對數據的智能化決策更為精細。
雖然小數據不像大數據看起來那樣宏大,但對個體的價值卻不容忽視,例如對于運動行業的人,身上所穿戴的傳感器種類很多,可以監測運動員的轉向、加減速、運動指標等等因素,之后可以根據這些數以百計的數據點對運動特征進行分析,得出有針對性的科學訓練效果。
同樣的例子也會發生在工業場景,物聯網總是和大數據一起出現,但局部應用里面的數據總是由小及大的。再如對于銷售人員來說,他們對廣告播放時間、效果轉化、促銷時段這些信息的要求通常是精確到分秒的,這樣才能掌握用戶行為。
不過,對于這樣的數據進行訓練,機器學習也只是在大數據上才有更好的效果,一旦遭遇小數據集就會事倍功半。如果沒有那么大的數據集,在設計深度學習網絡的時候對每一層和該層的神經元數量就要格外看重。如果是無監督學習,那么通過自動的編碼方式也能也可能避開無標簽的數據,但這種自監督式的預訓練能力并不是每個業務人員都能掌握的。
因此,如果把大數據和小數據結合起來是否能甩掉鍋呢?大數據可以在頂層上找到宏觀數據并對其進行分層定位,這種調研的逐級深入就讓小數據開始發揮作用,也就是對樣本顆粒度的分析,即小數據讓“大數據”變小。例如大數據關注的是性別、年齡、職業、消費能力,小數據則更關心背后的成因,而這對人的畫像塑造是更貼切的。相應的,小數據對畫像的精細化也可以讓大數據更精準。
與大數據相比,小數據對場景和算法更窄面,這樣的好處是對數據種類的選擇更明確,比如大數據的場景是工廠里面的智能溫控系統,那么小數據的場景就是溫度檢測器搜集來的數據算法應用。換句話說,電商在網頁上檢索到的用戶交易記錄,向用戶推薦感興趣的書籍,這種分析的過程就是小數據。
如果只盯住大數據不顧小數據,那么在大數據出問題時就可能讓它背了鍋,讓大數據變小、小數據變大,才是真正的數據智能。