漫談大數據之前序
前言
本文共分為上下兩篇。從大數據的定義、發展歷程、大數據VS小數據、大數據通用技術,以及安全行業大數據的角度,漫談大數據相關概念及其在應用實踐中的一些思考,同時分享大數據在流量分析和日志的簡單實踐,期望能給讀者帶來對大數據一個更好的認知和應用。
此篇為前序,我們將集中為大家解釋大數據的定義、發展歷程。
BIG DATA
何謂大數據
顧名思義,大數據就是很大的數據唄!以前叫數據處理,現在叫大數據處理,貌似現在不加個大字,都不好意思和別人說,加上大字,搞成大數據,瞬間高大上了。以前還有說法是海量數據,想想,海量比大應該更加形象生動。記得當年筆者博士論文題目就是海量數據…挖掘。大數據這個概念目前這么耳熟能詳,也就是這幾年的事情。那 “大數據”究竟是個神馬?咱們先看幾個大數據的定義。
維基百科中將大數據定義為:“Big data is a term for data sets that are so large or complex that traditional data processing applications are inadequate.”,即:所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助企業經營決策更積極目的的資訊。
IDC將大數據定義為:為更經濟地從高頻率的、大容量的、不同結構和類型的數據中獲取價值而設計的新一代架構和技術。
國際權威咨詢機構Gartner說:“大數據,就是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產”。
信息專家涂子沛在著作《大數據》中認為:“大數據”之“大”,并不僅僅指“容量大”,更大的意義在于通過對海量數據的交換、整合和分析,發現新的知識,創造新的價值,帶來“大知識”、“大科技”、“大利潤”和“大發展”。
麥肯錫全球研究所說:“大數據是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征”。
從這幾個定義上來看,我們至少可以看出,從“數據”或者“海量數據”到“大數據”,不僅僅是修飾上的變化,也絕不僅僅是大部分人以為的海量數據和大數據是等同概念;不僅僅是數量上的差別,不是數據量多、大就是大數據了。那是什么呢?這里個人以偏概全總結幾點:
(1)大數據的“大”是指用目前主流的軟件工具無法處理或者無法快速處理的大,需要采用大數據的技術對數據進行處理;
(2)大數據是為了處理海量數據而催生的一種新的架構、新的技術,它存在的主要目的是快速、高頻的處理海量異構的數據;
(3)大數據之“大”的基本屬性是“量大”,但是更內涵的屬性是“價值大”。大數據技術的核心價值是通過采用大數據技術對海量數據的存儲檢索,查詢分析,數據挖掘等,產生數據簡單統計分析所無法帶來的新的價值,新的發現。
個人認為,這三點是根據定義總結出來的大數據核心思想,三個定義和內容并非并列重復的,它們是一個層級推進的關系。而這三點中,最能體現大數據核心的是第三點,采用大數據技術挖掘分析新知識、創造新價值。
當然,前些年聽到的學術報告中,80%以上的Slide里面會有一頁是所謂的5V,即大數據的五個主要特征: Volume、Velocity、Variety、Value、Veracity。這其實和上面提到的三點是一脈相承的,至于5V或者更多V的具體內容就不多贅述,讀者自行Baidu即可知悉。
區別于傳統意義上的數據處理方式(數據挖掘、數據倉庫、OLAP等),在“大數據時代”,數據已經不僅僅是需要分析處理的內容,更重要的是人們需要借助專用的思想和手段從大量看似雜亂、繁復的數據中,收集、整理和分析數據足跡,以支撐社會生活的預測、規劃和商業領域的決策支持等。所以,各大互聯網公司越來越看重數據的價值,各大創業公司采用大數據分析的技術進行輔助決策,而大數據技術也成為了老生常談的一個話題,成為很多公司的噱頭和提升格調的一種姿態。
大數據真的是噱頭么?發展歷程梳理
大數據真的是噱頭么?上節“何謂大數據”中提到大數據技術是很多公司的噱頭(特別是創業公司),是提升格調做為“風口上那頭飛豬”[i]的必殺神技,那么大數據真的僅僅只是一個噱頭?這個問題可以負責任的告訴你,非也非也。
咱們先看看數據大爆炸吧。
根據國際數據公司IDC 的監測統計,即使在遭遇金融危機的2009年,全球信息量也比2008年增長了62%,達到80萬PB,到2011年全球數據總量已經達到1.8ZB(1ZB等于1萬億GB),并且以每兩年翻一番的速度飛速增長。預計到2020 年全球數據量總量將達到40ZB,10年間增長20倍以上,到2020年,地球上人均數據預計將達5247GB。在數據規模急劇增長的同時,數據類型也越來越復雜,包括結構化數據、半結構化數據、非結構化數據等多種類型。其中,采用傳統數據處理手段難以處理的非結構化數據已接近數據總量的75%。
再看看大數據的發展歷程(筆者認為的主要時間節點):
Google在2003年到2004年公布了關于GFS、MapReduce和BigTable三篇技術論文,號稱三駕馬車。這也成為后來大數據云計算發展的重要基石。
2005年Hadoop項目誕生。Hadoop其最初只是雅虎公司用來解決網頁搜索問題的一個項目,后來因其技術的高效性,被Apache Software Foundation公司引入并成為開源應用。Hadoop本身不是一個產品,而是由多個軟件產品組成的一個生態系統,這些軟件產品共同實現全面功能和靈活的大數據分析。從技術上看,Hadoop由兩項關鍵服務構成:采用Hadoop分布式文件系統(HDFS)的可靠數據存儲服務,以及利用一種叫做MapReduce技術的高性能并行數據處理服務。這兩項服務的共同目標是,提供一個使對結構化和復雜數據的快速、可靠分析變為現實的基礎。
2011年5月,全球知名咨詢公司麥肯錫全球研究所發布了一份報告《大數據:創新、競爭和生產力的下一個新領域》,大數據開始備受關注,這也是專業機構第一次全方面的介紹和展望大數據。
2012年,維克托·舍恩伯格《大數據時代:生活、工作與思維的大變革》宣傳推廣,大數據概念開始風靡全球。
2012年3月,奧巴馬宣布美國政府五大部門投資2億美元啟動“大數據研究和發展計劃(Big Data Research and Development Initiative)”,欲大力推動大數據相關的收集、儲存、保留、管理、分析和共享海量數據技術研究,以提高美國的科研、教育與國家安全能力。
2012年4月,美國軟件公司Splunk于19日在納斯達克成功上市,成為第一家上市的大數據處理公司。
2012年7月,聯合國在紐約發布了一份關于大數據政務的白皮書,總結了各國政府如何利用大數據更好地服務和保護人民。
2013年5月,麥肯錫全球研究所發布了一份名為《顛覆性技術:技術改進生活、商業和全球經濟》的研究報告,報告確認了未來12種新興技術,而大數據是這些新興技術的基石。
2013 年,我國多位院士聯合上書國務院,建議設立國家專項開展大數據技術研究,將大數據上升為國家戰略。
2015年8月,國務院發表《促進大數據發展行動綱要》,正式將大數據提升為國家戰略,旨在全面推進我國大數據的發展和應用,加快建設數據強國。
后續大家基本都知道了。
最后,我們再看看大數據相關發展應用情況。
在大數據領域,目前已實用化的國際知名項目包括:
(1)Google 知識圖譜和深度學習、自動駕駛技術、Google 眼鏡。
(2)Facebook 開放社交圖譜數據。
(3)NSA 棱鏡計劃。
(4)IBM Watson。
(5)LinkedIn、Amazon、Netflix 推薦系統等。
國內的主要互聯網公司,已將大數據技術應用到各自的業務中,用大數據技術發揮了重要的作用,取得了巨大的經濟和社會效益。此外,在能源、醫療、交通等不同的行業領域,都用大數據產生了不可替代的作用。
在大數據技術人才培養方面,幾十所高校申報了大數據專業,設置了大數據技術的相關碩士學位和課程,多學科交叉培養大數據技術人才。此外,大數據相關的十幾家大數據領域國家工程實驗室揭牌,各類大數據研究院也如雨后春筍般相繼成立。看到這里,你還覺得大數據技術真的僅僅是個噱頭么?可以說,的確是海量數據處理的必殺神技!
題外話
非噱頭,但是必然存在泡沫,包括被燒熱的互聯網,被風吹起來的飛豬。筆者認為,其實少量的泡沫是必要而且具有推動作用的。任何一種神技或者新興概念如果沒有泡沫,默默無聞的發展,最后也將是默默無聞的死去。具有影響力的概念被炒作,會在一段時間內形成強大的原動力,使各行各業的人們為之付出或真或假、或實或虛的努力,將有力的推動這項技術的發展進程。當然,物極必反,泡沫太大,光會吹噓,卻沒有腳踏實地,那也最終形成不了生產力。畢竟,飛得太高的豬如果摔下來,也是會死的。
[1] “飛豬理論”又稱“風口論”,是指小米創始人雷軍說過的一句話:創業,就是要做一頭站在風口上的豬,風口站對了,豬也可以飛起來。這句話旋即成為創投圈流行語,也是“互聯網思維”的最重要注腳之一,各行各業尤其是傳統產業積極尋找風口,大家都希望成為下一個“飛豬”。
【本文為51CTO專欄作者“中國保密協會科學技術分會”原創稿件,轉載請聯系原作者】