了解這些,輕松打開云端大數據管理“任意門”
大數據對于傳統IT系統來說是個大問題,因為處理海量的結構化和非結構化數據有很多事情要做。然而,云計算可以讓IT管理大數據集,且無需獨占本地系統。
為了在云端有效管理大數據,了解***的工具和服務很重要。比如Hadoop是處理大數據的通用Apache框架。此外,很多主要的云提供商都有自己的大數據服務,比如亞馬遜Web服務的彈性MapReduce、谷歌的BigQuery以及Pivotal的大數據套件。
下面是五個快速鏈接,可以用來探索云端大數據,涉及基礎和進階的工具和服務。
1、哪一種云模式最適合你的大數據項目?
公有云、私有云和混合云都有自身的優勢。公有云提供了按使用付費架構的彈性和可擴展性。私有云,基于本地基礎架構,為企業提供了控制。混合云混合了私有云和公有云服務,用編排實現了其混合。但是,在為大數據選擇合適的云模式時,需要更深入的關注每一個模式。
雖然密切的控制很誘人,但是私有云的本地屬性對于大數據來說并不理想。相反公有云更適合按需的大數據任務。然而,潛在帶寬限制和數據傳輸成本卻是令人擔憂的問題。
2、入門級大數據分析:Google BigQuery
大數據項目對于任何組織機構都是是一項重大事業。為了成功實現,找到適合你的數據需求的正確服務非常重要。雖然Hadoop是一個通用的大數據選擇,但是并不適合于每一個人。另一個替代品是谷歌BigQuery,尤其是對于相比MapReduce更喜歡SQL的開發者更是如此。
雖然BigQuery促進了大數據分析實現,但是也伴隨著一些折扣。云專家Dan Sullivan會詳細解釋如何使用BigQuery以及什么類型的企業會更適合這個大數據分析服務。
3、大數據即服務:企業客戶需要的遠不止分析
大數據工作負載會對傳統IT系統造成重大損害,因為巨大的數據集需要資源,而且通常運行這些數據很昂貴。這也正是公有云進入的地方,通過氣可擴展性和按使用服務的價格模式,公有云價格可以讓企業只支付使用的部分,而不是大數據項目的通用架構。此外,公有云允許資源根據工作負載需求自旋加速或者減少。
但是對大數據使用公有云有一個隊里面。雖然軟件即服務可以削減成本,但是安全和延遲問題還存在。
4.Apache Sqoop:云端大數據分析的關鍵一環
Apache框架Hadoop是一個越來越通用的分布式計算環境,主要用來處理大數據。隨著云提供商利用這個框架,更多的用戶將數據集在Hadoop和傳統數據庫之間轉移,能夠幫助數據傳輸的工具變得更加重要。Apache Sqoop就是這樣一款工具,可以在Hadoop和關系型數據庫之間轉移大量數據。
盡管Sqoop有其優勢,但是默認的并行性是個問題。本文中我們將看看具體如何使用這款工具。
5、云端大數據安全利器:亞馬遜DynamoDB和Accumulo訪問控制
雖然云計算對于大數據項目是一個可靠的選擇,但是對于一些組織而言安全是一個障礙。但是,根據Sullivan所說,有三個選擇可以讓NoSQL數據庫更加安全:Accumulo、Amazon Web Service的DynamoDB以及MarkLogic。Apache Accumulo是一個分布式的鍵值數據存儲,提供了基于單元的訪問控制,據定了誰可以訪問組織的大數據。AWS的鍵值數據存儲DynamoDB用身份及訪問管理(IAM)策略解決了訪問控制。MarkLogic是一個基于文檔的NoSQL數據庫,提供了基于角色的訪問控制和執行。
原文鏈接:http://www.searchcloudcomputing.com.cn/showcontent_88193.htm