Google、IBM、Oracle意圖分羹云計算大數據市場
少數公共云計算服務供應商(如Google公司、IBM公司、微軟公司以及Oracle公司)正從Amazon 網絡服務(AWS)中得到啟示,并已涉足“大數據”分析領域和多方面的開源項目Hadoop/MapReduce。
基于云計算的Hadoop/MapReduce應用程序最初出現于2009年,當時AWS發布了其EC2和簡單存儲服務(S3)的彈性MapReduce網絡服務。之后,Google公司在2010年年中的時候發布了Mapper API的實驗性版本,即App Engine MapReduce工具箱的第一個組件。自2011年5月開始,開發人員就能夠在Google App Engine上運行完整的MapReduce任務。但是,在這種情況下,限速是必須的,這樣可以防止消耗所有可用的資源以及防止網絡訪問。
Google公司在2011年5月增加了一個文件API存儲系統,同年7月又為小型數據庫(最多100MB)提供了Python整理功能。該公司承諾將進一步開發以適應更大容量的需求,并將在短期內發布一個Java版和MapperAPI。
這就是2011年下半年Hadoop/MapReduce的下一步整合計劃。
Hadoop/MapReduce的整合計劃
Oracle公司于2011年十月發布了一個該公司Oracle Open World的大數據應用。在發布說明中是這樣介紹的,該應用是一個“全新設計的系統”,其中包括Apache Hadoop的一個開源發布、Oracle NoSQL數據庫、用于Hadoop的Oracle數據集成應用程序適配器、用于Hadoop的Oracle Loader以及MapR的一個開源發布。
該應用似乎主要是使用Hadoop來實現對Oracle關系型數據庫云計算版本的提取、轉換和載入(ETL)等操作。Oracle公司的NoSQL數據庫是基于BerkeleyDB嵌入式數據庫的,該產品是在Oracle公司于2006年并購SleepyCat軟件公司時得到的。
同樣適用于開放世界的Oracle公共云計算支持諸多開發標準,如JSP、JSF、servlet、EJB、JPA、JAX-RS以及JAX-WS。因此,你可以把你自己的Hadoop實施與Hadoop連接器集成在一起。目前,還沒有任何跡象表明,Oracle公司將把Hadoop/MapReduce打包進其公共云計算產品中,但是來自于競爭對手AWS、IBM公司、微軟公司甚至Google公司的壓力將會迫使Oracle公司將Hadoop/MapReduce納入其企業級公共云計算產品中。
在2011年10月召開的PASS大會上,微軟公司承諾在2011年底前為其Windows Azure發布一個基于Hadoop的服務;公司副總裁Ted Kummert表示在2012年將會舉行一次針對Windows服務器的社區技術預覽。Kummert還宣布了與Hortonworks公司建立了戰略合作伙伴關系,此舉將有助于Windows Azure促進Hadoop的進一步成熟。
Kummert介紹了一個新的可用于實現SQL Server 2008 R2與Hadoop之間數據傳輸的SQL Server-Hadoop連接器,該方法似乎類似于Oracle公司Hadoop連接器的概念。SQL Server團隊成員之一的Denny Lee演示了使用HiveODBC驅動器對一個Windwos數據庫Hadoop中日志數據的HiveQL查詢。
Kummert說,該功能將在2011年11月作為CTP而發布。微軟公司通常不為Windows Azure CTP付費,但是按小時計的Windows Azure計算資源和按月計的存儲費用依然適用。
處于工程階段的微軟與IBM項目
在微軟研究團隊對Dryad和Dryad LINQ經過多年研究之后,微軟公司的高性能計算(HPC)研發團隊于2011年6月發布了Windows HPC Server集群Beta2版和LINQ HPC R2 SP2。其最為常見的配置是一個被稱為“突發場景”的混合云計算模型,其中頭記錄位于本地,而大量計算記錄根據實際負載的情況作為Windows Azure虛擬機運行,同時文件組存儲在Windows Azure驅動器。
另一個微軟研究項目“Daytona”的研發團隊聲稱Daytona是具有用戶友好Excel DataScope用戶界面的MapReduce runtime,但該應用仍處于CTP的早期階段。Hadoop的普遍性和跟蹤記錄可能會對微軟公司的服務器和云計算平臺團隊做出真正貢獻產生負面影響。
IBM公司憑IBM SmartCloud Enterprise的IBM inforSphere BigInsights(一個基于Hadoop的分析軟件)從而最后一個登上Hadoop云計算的末班車。云計算BigInsights有基本版和企業版兩個版本,并可選擇進行公共云、私有云和混合云的部署。
基本版是一個入門級、免費的選項,該版本可幫組企業學習如何進行大數據分析,其中包括應用其Bigsheets組件、基于瀏覽器的分析工具進行場景假設分析。當一切準備就緒時,客戶可以無縫升級至企業版并設置Hadoop集群,以較低使用率開始分析數據,其初始價格為0.6美元/集群小時。這兩個版本包括一個開發者沙箱,有了它客戶就可以使用工具和測試開發環境建立一個新一代的業務分析應用程序。就我目前所知,IBM公司是唯一一家提供免費、先試后用應用實施的供應商。
Hadoop和社會網絡
其他名聲在外的社會計算Hadoop實施者包括在一萬臺核心Linux集群上運行Hadoop研究服務的Yahoo公司,于2011年7月宣稱其Hadoop集群已達到30PB規模的Facebook,以及具有Hadoop數據TB級規模應用程序的LinkedIn。Twitter還使用Hadoop用于存儲和處理tweet、日志文件以及其他數據;eBay也宣稱擁有一個532節點,5PB 的Hadoop集群。
目前三巨頭Hadoop實施的狀況是,Amazon公司是唯一一個具有Hadoop/MapReduce認證(兩年半)跟蹤記錄的云計算服務供應商。IBM公司的BigInsights尚處于起步階段,而微軟公司對Hadoop CTP發布制造版還未提供任何官方的時間表。
我敢打賭,Amazon公司和IBM公司將在2010年年中成為云計算大數據分析市場的競爭對手。盡管Google公司已經向大數據分析市場推出了MapReduce,但我對Google公司appengine-mapreduce未來的成功無法持樂觀態度。