Hadoop 2013:最受關注的13款大數據產品
2013年6月26、27日兩天,在圣何塞舉行的Hadoop Summit 2013,不僅是Hadoop生態圈的盛宴,也是各路玩家的戰場。不僅有Sqrrl、Wandisco、GridGain等新創業公司涌現,也能看到核心玩家Cloudera和Hortonworks互相角力。有超過60家大數據公司參與其中,既包括像英特爾和Salesforce.com這樣的知名廠商,也有像Sqrrl和Platfora這樣成立沒有多久的初創公司。以下是這次峰會上展示的13款全新的或者增強的大數據產品。
1、Continuuity開發公司現在支持批量處理
Continuuity發布了支持批量處理的Continuuity Developer Suite 1.7,將MapReduce集成到平臺中為開發者提供更廣泛的工作負載能力。
Continuuity幫助Java開發者構建能運行Hadoop和HBase數據庫的應用。這些應用支持像運作分析這樣的實時應用。但是Continuuity的首席執行官Jon Gray表示,一些應用仍然要求MapReduce的批量處理架構。
Continuuity Developer Suite 1.7還提供了一些用于流式實時分析、定位和個性化以及異常檢測的應用模板。
2、Datameer首次展示大數據分析軟件
Datameer發布了面向企業用戶的Datameer 3.0數據集成和分析軟件。該版本增加了“智能分析”功能,可以從Hadoop中保存的大量復雜數據中自動找出模型和關聯性。
Datameer 3.0采用四種機器學習的技術:聚類、決策樹、列依賴性和建議。雖然這些通常是數據科學家涉足的領域,但是被集成到了Datameer軟件中,這樣企業用戶就可以將其作為一項自助服務使用。
Datameer 3.0將在未來幾個月內提供給用戶進行beta測試。
3、Hortonwork社區預覽支持Yarn的HDP 2.0平臺
Hortonworks將在社區中預覽下一代支持Yarn(下一代Hadoop數據處理框架)的Hortonworks Data Platform。
作為ASF Hadoop項目的一部分,Yarm旨在實現多個用戶實例,而不是單一的數據集。HDP 2.0社區預覽版本中支持Yarn,將讓Hortonworks的合作伙伴和客戶能夠使用這項新技術,參與到最終規范的制定中,Hortonworks營 銷副總裁Dave McJannet這樣表示。
4、Kognitio推出第八代分析平臺
Kognitio推出了新一代的Kognitio Analytic Platform,加強了多種編程語言之間的連接性,并提高了性能。新版本提供了NoSQL處理能力,以及大規模并行處理任何腳本或者像R、Python或者Java這樣的二進制代碼。
使用該版本進行基準測試表明,它將答案返回給復雜查詢請求的速度是上一版本的兩倍。
新版本還提供了高速數據輸出,針對高速數據備份以及內存壓縮,作為一個可選功能。
5、MapR和Fusion-io聯手提高HBase性能
MapR和Fusion-io合作,在運行讀取密集型HBase應用的時候,將基于Hadoop的MapR M7大數據平臺與Fusion-io ioMemory系統結合起來,實現重要的性能提升。
據MapR稱,HBase應用性能通常受到磁盤存儲瓶頸的限制。使用Fusion-io ioMemory,MapR系統的性能提高25倍。
I/O性能的局限性,會使采用HBase開源數據庫用于高性能計算任務的速度變慢。
6、Pentaho添加大數據平臺集成能力
業務分析應用開發公司Pentaho,推出了所謂其軟件中的“自適應大數據層”,提供與大數據平臺集成的能力。
這項新技術將Pentaho與Hadoop發行版連接起來,如Cloudera、Hortonwork、MapR Technologies、Intel、NoSQL數據庫Cassandra以及MongoDB。
7、RainStor升級數據庫安全性及搜索能力
RainStor推出了對其數據庫軟件的重要更新,增強了安全特性,并稱這樣可以提高Hadoop在安全敏感的客戶中的采用,例如政府機構、銀行和電信公司。
RainStor數據庫中的新安全功能,它本身運行在Hadoo中,包括數據加密、數據掩蔽以及查看、審查跟蹤、防篡改、可配置的數據棄置,支持Kerberos、LDAP、Active Directory以及PAM(Linux的可插拔認證模塊)。
據RainStor稱,新搜索功能提高數據庫的查詢性能達到10倍~100倍,能實現更高速的文本搜索。現在數據庫可以搜索數十億條記錄,數PB的數據。
8、Splunk發布針對Hadoop的數據分析工具
以其實時運作智能軟件而為大家熟知的Splunk,推出了Hunk的新測試版本:Splunk Analytics for Hadoop。
Hunk集成了對Hadoop數據進行挖掘、分析和虛擬化的工具。它采用Splunk針對數據分析的虛擬索引技術,提供了用于提供表格、圖形、自定義儀表板和報告的工具。
該軟件支持來自Cloudera、Hortonworks以及MapR的主流Hadoop發行版。
9、Sqrrl發布安全大數據平臺
初創公司Sqrrl即將推出Sqrrl Enterprise 1.1,一個用于開發實時分析應用的安全、可擴展平臺。隨著該版本的發布,Sqrrl將從有限的發布階段接入全面供貨階段。
1.1版本還提供了更多基于Apache Accumulo的高級安全工具、增強的分析功能、以及像JSON這樣的特性。新的分析功能包括全文搜索,使用Apache Lucene、SQL、統計以及圖形搜索。
Accumulo技術最初是由美國國家安全局開發的,在2011年被分拆出來作為一個開源項目。
#p#
10、eradata發布針對Hadoop的產品組合
Teradata推出了Teradata Portfolio for Hadoop,一個集硬件平臺、軟件、咨詢服務、培訓以及客戶支持的產品組合,用于開發和管理Apache Hadoop。
這其中包括Teradata Appliance for Hadoop以及Teradata Aster Big Analytics Appliance這樣的“優質平臺”可供選擇。前者加載了Hortonworks的Hadoop發行版、Mellanox Infiniband硬件以及Teradata的BYNET V5軟件。后者包括Aster數據庫、SQL-MapReduce和Apache Hadoop。
Teradata還提供了針對那些希望在戴爾標準服務器上部署Hadoop的Teradata Commodity Configuration for Hadoop產品。Teradata Software Only for Hadoop是一個軟件捆綁產品,針對那些希望使用和配置自己的硬件的企業。
11、VMware支持Hadpp和大數據工作負載
VMware推出了公共測試版本的VMware vSphere Big Data Extensions,一項將VMware虛擬化平臺擴展支持Apache Hadoop和大數據處理的新特性。
企業客戶可以使用新軟件開發、運行和管理Apache Hadoop集群,以及其他通用虛擬基礎設施上的應用。這為Hadoop系統帶來了虛擬化的好處,包括可擴展性、性能以及彈性,VMware產品管理高級總監Fausto Ibarra這樣表示。
VMware vSphere Big Data Extensions源自于VMware的Serengeti開源項目,預計在今年年底全面提供給客戶。
12、WANdisco發布Hadoop新發行版以及HA軟件
WANdisco將推出Non-Stop NameNode – WAN Edition,一項新的復制技術,可以讓基于Hadoop平臺的全局分布式大數據系統實現100%正常運行時間。該公司已經提供了一個LAN版本的軟件。
WANdisco還展示了新版本的WANdisco Distro (WDD 3.6),基于Apache Hadoop 2.0,據稱支持從Amazon Web Services到私有云的遷移。WANdisco還開源了S3 API on Hadoop,讓企業能夠使用他們的定制應用,而不是Hadoop with S3HDFS。WANdisco還將在未來提供對Shark實時分析和Spark內存數據處理技術的支持,作為WANdisco Distro 3.6的附加選擇。
13、Zettaset展示對最新Cloudera及Hortonworks平臺的支持
Zettaset的Orchestrator Hadoop集群管理軟件現在支持來自Cloudera和Hortonworks的Hadoop發行版。Cloudera CDH和Hortonworks HDP用戶現在可以使用Orchestrator軟件自動安全和管理他們的Hadoop基礎設施。
Zettaset共同創始人、首席技術官Brian Christian認為,安全和管理Hadoop集群的復雜性阻礙著Hadoop的采用。Orchestrator軟件避免了手動配置的流程,降低 Hadoop復雜性,給Hadoop帶來企業級可管理性、安全性和可用性。