大數據(BigData)環境下的商業智能平臺技術解析
原創【51CTO專訪報道】BigData又是一個沒有規范定義的概念,不同的應用對大數據都有不同的理解。雖然我們不能現在就下結論是否大數據又開啟了一個新時代,但是,近期Facebook宣布用戶量目前超過了7.5億,每天的分享的次數達到40億。IDC預測從2009年到2020年,數據總量將增長44倍,達到35ZB(zettabyte),并且其中80%的數據都是非結構化數據。
“僅僅是數量級上的不斷刷新并不能代表就是Big Data大數據”,51CTO記者采訪Informatica企業數據集成產品管理總監鄭瑋時,她分享道:“大數據有兩個明顯的特征,***,數據的屬性是非結構化或者半結構化數據;第二,數據之間頻繁產生交互,大規模進行數據分析,并實時與業務結合進行數據挖掘。”
Informatica企業數據集成產品管理總監鄭瑋
大數據的技術解構
從這兩大特征可以看出,大數據是包括了交易和交互數據集在內的所有數據,無論從規模還是復雜程度上,遠超出常用數據庫或者商業智能技術的捕捉、管理和處理能力。一些企業已經感受到失控的數據增長對業務造成的影響,鄭瑋認為大數據是由三項主要技術趨勢匯聚組成的:
1、大交易數據:在從 ERP 應用程序到數據倉庫應用程序的在線交易處理(OLTP)與分析系統中,傳統的關系數據以及非結構化和半結構化信息仍在繼續增長。隨著企業將更多的數據和業務流程移向公共和私有云,這一局面變得更加復雜。
2、大交互數據:這一新生力量由源于 Facebook、Twitter、LinkedIn 及其它來源的社交媒體數據構成。它包括了呼叫詳細記錄(CDR)、設備和傳感器信息、GPS 和地理定位映射數據、通過管理文件傳輸(Manage File Transfer)協議傳送的海量圖像文件、Web 文本和點擊流數據、科學信息、電子郵件等等。
3、大數據處理:大數據的涌現已經催生出了設計用于數據密集型處理的架構,例如具有開放源碼、在商品硬件群中運行的 Apache Hadoop。對于企業來說,難題在于以具備成本效益的方式快速可靠地從 Hadoop 中存取數據。
不久前在美國舉行的2011 Hadoop論壇,5500名參會者,入場券據說在開放后8小時全部售罄。Hadoop 分布式文件系統、MapReduce 算法、大規模并行處理(MPP)數據庫技術***是由Google、Facebook等互聯網公司發展起來的。Hadoop作為開源技術,現在吸引了很多企業級用戶開始嘗試。相對于之前昂貴的大規模并行處理和海量數據分析技術,Hadoop確實能夠用比較經濟的、有更高性價比的方式進行大數據的部署應用。“將傳統的交易數據與全新的交互數據組合起來,獲得企業的洞察力和商業價值”,鄭瑋舉例談到:“企業可以通過社交媒體來了解客戶的喜好,完善客戶資料來提高目標營銷的效率。”
大數據的應用平臺
從業務角度來看,大數據環境中企業仍然需要數據集成、商業智能,只是它們的規模進入海量級別,同時對數據集成的基礎架構要有更好的延展性。今年6月Informatica推出了Informatica9.1 for Big Data,鄭瑋認為這是全球***個專門為大數據而構建的統一數據集成平臺。“這個平臺的開發目標非常明確,就是以Informatica的數據集成技術為基礎,幫助企業用戶充分發揮大數據的業務潛力”,鄭瑋說:“數據集成平臺上在IT 部門保持操控權的基礎上,通過自助服務增強所有用戶獲取相關信息的能力,并且能夠自適應數據服務,提供按業務需求進行調整的相關數據和可信數據,獲得業務洞察力和一致性。”
應對大數據的特征,Informatica 9.1在數據集成的三個方面分別提供了創新的解決方案。首先是全新的數據倉庫設備包能夠與大交易數據相互連接,并且通過OLTP在線分析處理存儲數據,提供對高流量的交易數據的訪問速度。其次,借助與新型社交媒體的連接器與大交互數據的連接。訪問如 Facebook、Twitter、LinkedIn 和其它媒體的數據源。將數據收集的范圍擴大到企業所在行業的新興價值數據集,還包括了設備和傳感器、CDR、海量圖像文件。
第三,利用平臺的連接功能支持對海量數據的處理。讓 IT 部門將不同來源的數據輸入Hadoop,并對Hadoop中的數據應用、數據質量進行探查和挖掘計算。更好的將Hadoop系統內外的交互數據進行統一的管理,提供企業的洞察力。
“我們的某個客戶,是一家領先的專業時裝零售商,通過當地的百貨商店、網絡及其郵購目錄業務為客戶提供服務”,鄭瑋向我們介紹了Informatica的一個成功案例:“公司希望向客戶提供差異化服務,如何定位公司的差異化,他們通過從 Twitter 和 Facebook 上收集社交信息,更深入的理解化妝品的營銷模式,隨后他們認識到必須保留兩類有價值的客戶:高消費者和高影響者。希望通過接受免費化妝服務,讓用戶進行口碑宣傳,這是交易數據與交互數據的***結合,為業務挑戰提供了解決方案。”Informatica的技術幫助這家零售商用社交平臺上的數據充實了客戶主數據,使他的業務服務更具有目標性。