大數據時代已來臨,你準備好了嗎?
原創昨日,在亮馬河大廈舉辦了2011大數據世界論壇。
大會現場
覆蓋金融,電信,政府,醫療,能源,公共事業,零售,物流等行業對大數據存儲,挖掘均有巨大需求,本次論壇集各家所長,共同解決一個問題:面對海量數據,你準備好了嗎?
從幾拍字節的數據倉庫到社交媒體數據,從基于云計算的應用程序到傳感器和移動設備,從電子商務處理到地理空間信息,海量數據的時代已經來臨。在已經到來的大數據量時代,數據存儲發生了什么變化嗎?是的,發生了巨大的變化,存儲形式仿佛轉了一個圈,又回到了文件式存儲。據統計,包括視頻、音頻、圖片、微博等在內的非結構化數據將占企業數據的80%左右,到2012年數據存儲基本會是以文件形式存儲。
在這個大時代來臨之時,您是否還記得1TB的數據倉庫被視為大儲量的年代?如今,您只需要付出不到100美元就可以從當地零售商處購買到存儲量為1TB的存儲設備,而許多數據倉庫的存儲量已經超過了拍字節。
不過持續增長的數據量僅僅是海量數據的一半構成內容,海量數據同時帶來了數據的多樣性,復雜性以及速率的大規模增長。這種變化具有破壞力嗎?是的,它具有破壞力,你做好準備迎戰它,擊敗它了嗎?這是一次商機嗎?是的,這是一次商機,那么你做好準備去利用它了嗎?該如何擊敗,該如何利用?答案只有一個:數據挖掘,挖掘出商機無限,挖掘出潛在信息。
在大眾點評網CEO張濤看來,數據挖掘是一家互聯網公司必不可少的。實際上,不只是互聯網公司,數據挖掘對于任意一家公司都是必不可少的。
#p#
什么是數據挖掘?
簡單地說,數據挖掘是指從大量數據中提取或“挖掘”知識。該術語實際上有點用詞不當。注意,從礦石或砂子挖掘黃金稱作黃金挖掘,而不是砂石挖掘。因 此,數據挖掘應當更正確地命名為“從數據中挖掘知識”,遺憾的是這個詞有點長。“知識挖掘”是一個較短的術語,但不能反映從大量數據中挖掘。畢竟,挖掘是 一個很生動的術語,它抓住了從大量的、未加工的材料中發現少量寶貴金塊這一過程的特點(見圖1-3)。這樣,“數據挖掘”成了流行術語。還有一些術語具有 和數據挖掘類似但稍微不同的含義,如從數據中挖掘知識、知識提取、數據/模式分析、數據考古和數據捕撈。
許多人把數據挖掘視為另一個常用的術語數據中的知識發現或KDD的同義詞,而另一些人只是把數據挖掘視為知識發現過程的一個基本步驟。知識發現過程如圖1-4所示,由以下步驟的迭代序列組成:
1. 數據清理(消除噪聲和不一致數據)
2. 數據集成(多種數據源可以組合在一起)
3. 數據選擇(從數據庫中提取與分析任務相關的數據)
圖1-3 數據挖掘:在你的數據中搜索知識(有趣的模式)
圖1-4 數據挖掘作為知識發現過程的一個步驟
4. 數據變換(數據變換或統一成適合挖掘的形式,如通過匯總或聚集操作)
5. 數據挖掘(基本步驟,使用智能方法提取數據模式)
6. 模式評估(根據某種興趣度度量,識別表示知識的真正有趣的模式;見1.5節)
7. 知識表示(使用可視化和知識表示技術,向用戶提供挖掘的知識)
步驟1~4是數據預處理的不同形式,為挖掘準備數據。數據挖掘步驟可能與用戶或知識庫交互。有趣的模式提供給用戶,或作為新的知識存放在知識庫中。注意,根據這種觀點,數據挖掘只是整個過程中的一個步驟,盡管是最重要的步驟,因為它發現用來評估的隱藏的模式。
我們同意數據挖掘是知識發現過程的一個步驟。然而,在產業界、媒體和數據庫研究界,術語數據挖掘比長術語從數據中發現知識更流行。因此,本書選用術 語數據挖掘。我們采用數據挖掘功能的廣義觀點:數據挖掘是從存放在數據庫、數據倉庫或其他信息庫中的大量數據中發現有趣知識的過程。基于這種觀點,典型的 數據挖掘系統具有以下主要成分(見圖1-5):
圖1-5 典型數據挖掘系統的結構
#p#
數據挖掘到底能做什么?
數據挖掘能做以下七種不同事情(分析方法):
- 分類 (Classification)
- 估值(Estimation)
- 預言(Prediction)
- 相關性分組或關聯規則(Affinity grouping or association rules)
- 聚集(Clustering)
- 描述和可視化(Description and Visualization)
- 復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
數據挖掘中的算法
“數據挖掘算法”是創建數據挖掘模型的機制。為了創建模型,算法將首先分析一組數據并查找特定模式和趨勢。算法使用此分析的結果來定義挖掘模型的參數。然后,這些參數應用于整個數據集,以便提取可行模式和詳細統計信息。
算法創建的挖掘模型可以采用多種形式,這包括:
-
說明在交易中如何將產品分組到一起的一組規則。
-
預測特定用戶是否會購買某個產品的決策樹。
-
預測銷量的數學模型。
-
說明數據集中的事例如何相關的一組分類。
【編輯推薦】
數據挖掘算法的類型
包括了以下算法類型:
- 分類算法基于數據集中的其他屬性預測一個或多個離散變量。
- 回歸算法基于數據集中的其他屬性預測一個或多個連續變量,如利潤或虧損。
- 分割算法將數據劃分為組或分類,這些組或分類的項具有相似屬性。
- 關聯算法查找數據集中的不同屬性之間的相關性。這類算法最常見的應用是創建可用于市場籃分析的關聯規則。
- 順序分析算法匯總數據中的常見順序或事件,如 Web 路徑流。
數據挖掘,越來越多的體現在企業的數據報表上,也會為我們帶來越來越明顯的效益。所以,您做好準備了嗎?做好準備迎接新的時代,利用多樣化數據的準備了嗎?
【編輯推薦】