科普篇:什么是大數據
對于“大數據”(Big data)研究機構Gartner給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘。但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術,包括大規模并行處理(MPP)數據庫、數據挖掘電網、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統。
到底多少數據量才算大數據?到底是結構化的,還是非結構化的?到底是要精確的真實的?......
如果我們冷靜的思考一下,就會發現,大數據與我們息息相關(大數據已經融入了我們衣食住行的每個角落),但同時又會發現,大數據所涉及到的這些特殊技術,離我們又是那么的遙遠。
我們還是來看看,大數據到底改變了什么?它其實就是通過海量的數據處理,讓我們做決策時變的更輕松,更靠譜。比如我們在網上購物時,它首先會告訴你某個商品有多個人評價,評價越多,也就意味著越多人買;當你點擊去之后,就可以看到好評度是95%,還是98%?如果是在360瀏覽器中打開的話,還有一個價格趨勢,告訴你歷史價位走勢如何,其他電商平臺是不是更便宜?除此之外,還有其他同類或同價位商品的推薦與排名等。有了這些信息,你就掌握了做一個購買決策時的幾個關鍵信息:
1、這款商品好不好賣?
2、這款商品口碑好不好?
3、這個價格便不便宜,現在是不是最便宜的時候?
4、有沒有其他更好的商品?——這個時候,是否將這個商品改進購物籃并付款,做這個決定變得非常輕松。
那它是怎么做到的呢?就是化繁為簡,將海量的數據,歸納整理為幾個簡單的指標。