大數據時代的小數據
大數據給世界編織了一副美麗的畫面——萬事萬物皆可數據化,有數據就可以再要一個新世界。似乎人類沒能夠變成全知全能的造物主,就是因為數據不夠多、算法不夠好。
這種極端的觀點一定程度反映了當下大數據行業的浮躁?!度祟惡喪贰防镎f到人類一直有想成為神的欲望,大數據的過度"神化"也能看到這種欲望的影子。冷靜下來看,數據“大”有“大”的問題,數據“小”也有“小”的好處 。
大數據理念下的野蠻生長
之前工作中經常會碰到一種場景:搞大數據嘛,沒數據怎么搞,先把數據搞過來再說,越多越好,堆到一起再想怎么用。在這種思路驅動下,商業上各種解決方案投其所好,搞數據集市、數據工廠、數據生態,應用場景想不清楚沒關系,有了數據再發動大家一起想。邏輯看似很清晰,但往往投入不菲,成效不足。大數據之“大”是有成本和代價的,不考慮投入產出、不考慮約束限制的野蠻式發展,長久難以持續。
大數據應用下的信息“偏見”
互聯網推薦是目前大數據應用較為“成功”的一個場景。這種基于行為數據的推薦,基本的邏輯是"瀏覽或搜索的越多——>對這類信息越感興趣——>更需要相關的信息",這種應用思路過度泛化的推廣到生產和工作中,會出現過度依賴相關性和經驗性數據的傾向,看似客觀數據往往帶著“偏見”?;谶@種推送機制,每天被推送的信息日益雷同,無形之中,獲取的信息會局限在一個特定的認知圈中。而實際生活中,無論個人成長還是社會發展一直處在動態變化的過程中,一些看似沒有統計意義的小數據,往往會起到不可忽視的影響。這種機制下對小數據的過濾,對個人來說容易形成偏見,應用到決策則可能產生大數據"經驗主義"。
大數據語境下的數據取舍
之前一個搞了很多年大數據的客戶在發愁,大量的沉淀數據怎么處理。不維護說不定還有用,維護吧成本很高,而且還不知道猴年馬月能用一回。理想化一點,是數據都留著,花大力氣采集清理大量的數據,真到用的時候,由于采集口徑、數據質量等原因還不一定能用上。
一視同仁的對待所有數據,管理和應用效率是很低的。從業務角度,數據的價值并不相同。因此,要克服數據匱乏的焦慮,對數據進行取舍。
有時候,用的時候再去采數據,或者用人工等傳統方法處理和決策,比起“泛濫性缺乏”的大數據可能更有效率。
大數據的理念和技術無疑是先進的,值得積極探索。但是要正視大數據落地實踐中經常出現“理想豐滿,現實骨感”的無奈。不要片面認為“大”就是好的,合適的才是最好的。