信息時代 大數據有用開源工具
這是個信息“泛濫”的時代,大數據量司空見慣,企業處理大數據的需求也越來越大。本文梳理一下“大數據”的解決方案。
首先,關系型數據庫和桌面分析或者虛擬化包不能處理大數據,相反,運行在數千臺服務器上的大量并行軟件需要做這個工作。許多機構轉向開源工具,比如Apache的 Hadoop來處理大數據。比如Twitter發送登陸信息到Hadoop,并直接寫入HDFS,Hadoop文件系統。
Hadoop支持數據密集的應用部署在數千節點和數個PB, David Hill, Mesabi Group 主席表示。但是,大數據在針對不同類型的應用時,確不能一概而論。比如Hadoop并不一定適合所有的案例,Hill警告說。
大數據的捕捉、存儲、分析,依靠特殊的應用的特性,Hill強調。舉例scale-out網絡連接的存儲EMC Isilon或IBM的SONAS,可能對于使用非結構化的數據比如圖片、視頻,會更好。
大數據處理的類型
大數據的處理,可以歸為3個基本類型,Revolution Analytics的執行副總Mike Minelli表示,信息管理、商業智能,以及智能分析。信息管理捕捉和存儲信息,BI分析數據,看過去發生的情況,智能分析則是對于數據的預測。Minelli說。
Revolution analytics提供開源R語言和 Revolution R Enterprise,提供TB量級數據的高級分析。Revolution Analytics正在開發Hadoop連接器和R語言在Google的Map/Reduce框架上的能力。
處理大數據的工具
提供了處理大數據分析能力的專有軟件包括 AsterData;IBM的專有軟件Netezza ; Datameer, 建立在Apache的Hadoop上的專有軟件,以及Paraccel。IBM的Netezza,在它的InfoSphere產品中。Oracle 的Exadata,,以及EMC的Greenplum也是處理大數據量的專有工具。
EMC引入了Greenplum數據庫的免費社區版本,該社區版本只是軟件。Greenplum社區報表包括3個協作模塊Greenplum DB, MADlib, 和Alpine Miner。處理大數據量的開源工具包括Hadoop、Map/Reduce,以及Jaspersoft 的BI工具。
Jaspersoft提供的BI工具,提供了報告、分析、ETLETL (解壓、轉換、加載) ,針對大量的并行分析數據庫,包括EMC Greenplum和HP Vertica。Jaspersoft也提供本地報告,通過Hadoop和各種類型的NoSQL數據庫包括MongoDB, Riak, CouchDB and Infinispan的開源連接。
開源工具VS專有工具
開源工具可以查看代碼,這樣開發者可以找到他們整合時里面是什么。在幾乎所有的案例中,開源分析都更具性價比和靈活性。Revolution Analytics的Minelli表示。
數據量在持續的增長,公司將被迫增加基礎設施的部署。專利費用將一直增加,而開源技術,則省了這筆一直持續的專利費。Twitter選擇Hadoop,其中重要的原因是專有工具的費用太高。
更長遠的來看,開源工具使企業創建新的分析技術,更好的處理非結構化的語言,比如圖片等。而不能寄托于傳統廠商發展新的分析技術。開源工具給了企業創新的機會。
另外一個領域就是開源與專有工具的混合使用。
短期來講,開源分析將越來越廣泛的使用,并且增長迅速。長期來看,混合技術的應用將在高度競爭的市場上出現,兩者將同樣有巨大的需求。
【編輯推薦】