Storm獲東風,Hortonworks計劃將其整合到Hadoop企業版
在YARN發布后,Hadoop擁有了同集群運行不同技術的可能,類似的技術還有加州大學伯克利分校建立的Mesos。然而將開源技術商用卻并不是件簡單的事情,據Gigaom的一則消息,Hortonworks正在致力Storm到Hadoop的商用整合。
以下為譯文
在收到大量的客戶請求后,Hortonworks決定開始 Sotrm流處理引擎整合到該公司的Hadoop產品中。考慮到Hadoop的批處理設計,這項工作確實有著重要的意義。
幾年前,Backtype公司建立了流處理引擎Sotrm,期望彌補Hadoop一些流數據(比如傳感器數據)的實時處理能力。 Twitter于2011年收購了Backtype,從此引領著Storm開發。然而當這個開源項目在網站開發上得到廣泛認可時,一些革新陸續出現,其中就包括了 與Hadoop的整合或者 在Hadoop上運行。
在Hortonworks客戶發現Storm走進Twitter及Yahoo!這些知名企業后,他們也想使用這個技術來處理自己的流數據,從事geofencing、網頁行為及從醫用傳感器的實時分析等業務。Hortonworks營銷副總裁Dave McJannet說道:
我們看到許多早期用戶對這個功能的渴望,同時也看到越來越多企業對實時處理的關心。
Hortonworks產品副總裁Bob Page說道:“ Storm在近日成為Apache軟件基金會的孵化項目后,已然值得Hortonworks投資。”該公司之前聚焦的通常是 將Hadoop相關開源技術整合到旗下Hortonworks Data Platform產品,整合Storm這樣的流處理框架完全是出于用戶的需求。Hortonworks一直認為,在缺少強大的社區支持下,將一些遠離Hadoop主干代碼的技術整合到其產品將產生相當大的風險。
通過McJannet了解到,這個工作的主要挑戰就在于如何整合成一個企業級產品,并且滿足許多主流需求。

Page強調,Hortonworks的計劃是在今年底完成基礎等級整合,并在不久的將來為其注入企業級元素,大概會耗時1年左右的時間。他還補充說,并不會到所有特性完成后才會給用戶發布。
在數據處理時間和方式上,Storm與Hadoop MapReduce基本上是兩個對立面,而這兩個技術具備整合可能性極大程度該歸結于 YARN這個集群管理層。Hortonworks當下正在致力于通過新型處理框架Tez 來 提高Hive的速度,同時YARN還允許Hadoop用戶 運行Spark內存處理框架。同時, 微軟也在使用YARN讓Hadoop更加適合機器學習用例。
此外,通過YARN,同集群上同時運行HBase、 Giraph等不同技術也成為可能。此外,集群管理技術Mesos(加州大學伯克利分校出品,現已成為Apache項目) 同樣支持了類似YARN功能,盡管其不是像YARN這樣與HDFS捆綁。
更多技術的整合預示Hadoop這個大數據處理平臺絕不是曇花一現,同時也會讓Hadoop在大數據應用程序領域獲得更高的統治力。