Facebook與Yahoo“火花”:系統間實時數據流管理工具
據Gigaom消息,Facebook與Yahoo!于上周公開了多系統間實時數據流管理工具的一些細節。其中Yahoo!公布的Storm-YARN已經開源,其基于YARN(Hadoop 2.0)與Storm,實現了Storm與Hadoop集群間更緊密的集合——在需要時甚至可以通過Storm來借用Hadoop批處理集群的能力。Wormhole則集成了監視系統,執行自動修復,支持容量計劃,自動化配置等眾多特性,遺憾的是Wormhole并未開源。
以下為譯文:
6月11日, Yahoo!開源了人氣流處理框架Storm的內部定制版——Storm-YARN,用于Hadoop集群中。接著在14號, Facebook公開了名為Wormhole系統的細節,用于多個應用間的通信,當一個系統中的數據發生發變化時,可以自動同步到其它相關系統,以保證數據的實時更新。
Yahoo!:Storm-YARN
流處理框架的實時性廣受大數據分析者的喜愛,其價值更是毋庸置疑,比如說Twitter的成功就證明了Storm的價值。Twitter使用Storm來處理tweet,讓用戶的Timelines就可以保持實時更新,Twitter還使用Storm做類似實時分析及新趨勢的發現。事實上Twitter通過購買Storm建立者Backtype確實獲得了技術和人才上的雙豐收。

提交并執行Storm拓撲
從2011年Storm開源之后,其就作為Hadoop的流處理組件在網絡公司中流行了起來。而現在Yahoo!讓Storm和Hadoop的集合更加緊密,甚至已經達到Storm在需要時可以借用批處理節點能力的程度。這是個非常有價值的特性——而在上周Facebook Analytics @ Web Scale會議的一個演講上,Twitter的工程師Krishna Gade還惋惜過Storm自動擴展的局限性。

發布Storm集群和Hadoop YARN
Storm-ARN的實現還獲益于YARN的一個重要特性,也是Hadoop 2.0版本一處重大更新——允許Hadoop同時運行多個處理框架。 Twitter曾使用開源資源管理器Mesos達到相同的功能,但是Gade的同事Dmitriy Ryaboy曾申明當Hadoop更新到2.0版本時,該公司將把大數據作業轉移到YARN上,并將更多的社區努力放到它的持續改進上,同時還將為其構建更多的應用程序。
Facebook:Wormhole
遺憾的是Facebook的Wormhole迄今并未開源,但是其經驗是仍然值得借鑒的(而LinkedIn已經開源了類似的技術Kafka以及Databus)。Wormhole應歸屬于發布-訂閱系統,在Facebook,Wormhole給Facebook主用戶數據庫發送新內容進行圖搜索,從而以最快的速度得到搜索結果,同樣Wormhole還可以給其Hadoop環境發送數據,讓分析作業使用的數據保持最新。

就像Facebook之前的作品一樣(比如新交互式查詢引擎Presto),Wormhole具備著很好的擴展性。通過Laurent Demailly的tweet了解到,其延時完全控制在毫秒級:
Wormhole每天處理超過1萬億的信息,每秒1000萬條以上。Wormhole被用以處理各組件的故障,具備以下幾個特性:集成了監視系統,執行自動修復,支持容量計劃,自動化配置及突變處理支持。
最后
雖然Storm-YARN 與Wormhole分別由不同的公司開發,但是顯然他們將掀起Hadoop與Storm領域的一場颶風。隨著網絡公司業務的延伸,應用程序也擴展到多應用與服務混合類型,所以一場針對基礎設施的運動也如火如荼的進行著。基于數據層系統的不同需求,這些公司不得不放棄他們最初的架構,轉至建設類似Storm以及Wormhole去管理不同系統之間的數據流。