基于常規法則的大數據分析最佳實踐
由于出現了新詞匯、新技術、新產品和新提供商,“大數據”分析讓人很陌生,但是經過檢驗的數據管理***實踐方法一樣能夠在這個仍然屬于新興學科的領域發揮作用。
與各種商業智能(BI)和數據倉庫一樣,專家認為在開始進行大數據分析項目之前,清晰理解組織的數據管理需求和明確策略是非常重要的。大數據分析被廣泛地進行討論,而且各種行業的公司都充斥著新數據源和不斷增多的信息。但是,在未明確這樣做能夠真正給公司帶來什么價值之前,就投入大量的資源應用大數據技術,這就是所謂用戶的最嚴重失誤。
David Menninger是Ventana研究公司的一名分析師,他主要關注于BI、分析與信息管理技術。他認為不要在這個技術上表現得太激進,要先從業務角度著手,并且要與CIO、數據科學家和業務人員進行交流,一起確定業務目標和預期價值,然后再開始動手。
準確定義可用的數據和確定組織***利用這些資源的方式是整個過程中最關鍵的部分。Menninger指出,CIO、IT經理和BI人員需要確定所保留、聚集和使用的數據是什么,并且將它們與丟棄的數據進行比較。同時一定要考慮目前仍未涉及但可能會加入的外部數據源。
Menninger指出,即使公司不確定何時及如何應用大數據分析,盡早進行這種評估仍然是有好處的。此外,開始數據捕捉的過程能夠幫助您準備好實現最終的跳躍。他說:“即使您不知道將使用它來做什么,也要先捕捉數據。否則,您就會失去一個機會,因為您沒有足夠的歷史數據可以分析。”
大數據要從小開始
分析大數據集也一樣要從小機會開始,然后再使用它們作為起點。隨著公司不斷地擴大分析的數據源和信息類型,以及開始創建最重要的分析模型,幫助他們發現結構化和非結構化數據的模式和相關性,他們需要注意那些對于預期業務目標而言最重要的結果。
Gartner公司的分析師Yvonne Genovese指出:“如果您最終只能尋找新的模式,而且它們毫無用處,那么您肯定遇到死角了。”
ComScore公司專門跟蹤互聯網使用,為企業客戶提供Web分析和銷售智能服務。它們很早就認識到需要某種大數據策略。但是,ComScore選取了一些非常有針對性的點,然后再慢慢建立自己的大數據分析項目。
ComScore的軟件工程副總裁Will Duckworth說:“我們從小開始——提取各個數據流,再將它們傳輸到不同的系統。如果您無法達到一定的規模,您是無法一夜之間做到這一點的。”
鑒于公司處理的數據量,規模正是comScore重視的方面。早在2009年,當它一開始每天只采集到3億條記錄的時候——現在每天達到230億條記錄并仍在增長,Duckworth就開始尋找一些新系統和技術基礎架構,以高效地完成comScore的數據處理。
不要忘記最終目標仍是大數據
通過利用開源Hadoop 技術和新型分析工具,Duckworth對開源環境進行了優化,這樣SQL的業務分析人員便可以更容易地接受。他指出,在確定大數據分析實施計劃時,公司一定要重視規模因素。
他解釋說:“您一定要考慮到變化——從現在開始的半年內,您需要處理多少數據,您需要增加多少服務器,是否由軟件來完成這些任務。人們并沒有考慮到數據增長的程度,以及觖決方案部署到生產環境后的流行程度。”
在陷入大數據“新常態”之后,許多公司經常忽略的另一個方面是數據管理的“舊常態”仍然是有效的。
Gartner的另一位分析師Marcus Collins指出,“信息管理實踐方法對于現在的大數據和以前的數據倉庫都是一樣重要的。即使是對于希望增加處理靈活性的公司而言,他們也要記住一點,信息是企業資產,應該一如繼往地保持重視。”