大數據定義探究
大數據的概念定義依舊處在混沌的狀態。很少有人明確說明,大數據到底是一種新技術,還是一種多樣化的數據形態?
大數據的話題鋪天蓋地,但是各界人士對這***行話題的表述與理解卻非常混亂。曾經有段時間,很多企業以4V特征來定義大數據,即Volume(數量)、Velocity(速度)、Varity(種類)和Value(價值)。這樣一來,互聯網上客戶交互的日志,社交媒體上的用戶評論等數據,仍然占據大數據的主流。還有一部分人在談大數據時,實際上指的是以Hadoop為代表的新技術。這是長期以來關于大數據***的兩種說法,前一種從數據本身的特征出發,后一種從數據處理技術出發。
不過,最近一段時間,大數據的概念與說法比以前更廣闊了。我們經常會看到大數據行業應用的報道,例如大數據提升了農產品產量。但仔細分析,那些其實是在說這些行業更好地利用了數據來指導業務與運營,與我們此前談的大數據沒有任何關系。
近期關于大數據的報道,還有一個特點就是它總是與現階段同樣火爆的“互聯網金融”話題一同出現。這些文章提及大數據的主要邏輯似乎是:互聯網業務模式下產生的數據就應該是大數據;或者暗示互聯網業務就必須采用大數據技術才行。但互聯網業務到底是因為數據量大,還是因為非結構化,還是因為是新技術才與大數據發生關系?我們并不能看到兩者間的必然聯系。
顯然,很多傳統企業受到了互聯網模式的沖擊,企業的決策者需要做出應對。可是,他們面臨的相同問題是:互聯網業務模式與大數據到底是什么關系呢?在這樣的形勢下,迫切需要對大數據的概念做出更加準確、更加明晰的定義。
要回答這個問題,必須拋開Hadoop技術和數據形態,從分析現代信息社會的核心本質特征出發來尋找答案。現代信息社會的本質特征是更廣泛、更深入的數字化,以及全社會范圍內數據的互聯互通。這樣看來,現代信息社會確實進入了“大數據時代”。仔細分析后,我們發現,“大數據時代”區別于之前的“小數據時代”的核心本質特征主要有兩個:
一是數字化的范圍越來廣泛深入。這里所說的“數字化”并不等同于十年前我們所說的紙質文檔“數字化”。如今的“數字化”更多地是指:人們或者企業已經習慣“以數據指導業務”的運營模式,而不像以前那樣是由業務向數據提出需求。這便是通常所說的“數據驅動業務”的相關習慣、策略與模式,它在大數據時代被越來越廣泛地采納。另一方面,如《大數據時代》一書所說,在大數據時代,人們更多地依賴全量數據分析而不是依賴采樣。這也逐漸成為一種趨勢。
二是數據的互聯互通。現代信息社會的另一個重要特征,就是數據在全社會范圍內不再孤立。企業現在所面對的,不僅僅是其內部數據互聯互通的問題,也需要面對數據在全社會范圍內的互聯互通問題。
有關于此,很多人可能會想到企業結合內外部數據刻畫客戶360度視圖的例子。而筆者卻想舉另外一個例子:當某企業的網上客服***次與某個準客戶進行交流時,企業的內部數據中,并沒有關于該客戶的任何數據,客服人員本來是沒有辦法對該客戶提供個性化的、精準的服務的。但在全社會范圍來講,這個客戶雖然是***次訪問該企業的網站,但卻用同樣的電腦訪問過很多其他網站。在社會范圍內,會有一些組織搜集與分析這些互聯互通的“大數據”,刻畫出使用該客戶的特征。于是,網上客服只需利用數據互聯互通的特性,從外部直接申請獲取現成的、關于該客戶的相關信息,就可以對其做出準確地反應。
因此,在現階段,我們將大數據定義為“更加廣泛、更加深入的數字化,以及全社會范圍內數據的互聯互通。”對企業而言,大數據問題的本質不是技術創新,也不是數據形態的多樣化,而是企業實現“數據驅動業務”的相關戰略與戰術。這一結論應該可以比較全面地概括當今關于大數據的所有說法。
現在,我們再來回答互聯網業務模式與大數據之間關系的問題。既然互聯互通是大數據最重要的特征,而互聯網正是實現數據互聯互通最根本的途徑與方式。那么,互聯網金融等新的業務模式,與大數據本身就有了不可分割的關系,可以認為是同一事物的兩個方面。現在看來,它們不過是對現代信息社會的核心本質特征透過不同視角的描述而已。企業可以將自己應對互聯網業務的戰略稱作互聯網戰略,也可以稱作是大數據戰略。