Netflix開源數據流管理器Suro
Netflix近日開源了一個叫做Suro的工具,公司可以利用它來做數據源主機到目標主機的實時定向。它不只在Netflix的數據管道上扮演重要角色,大規模下的應用場景同樣令人印象深刻。
Netflix各種應用程序每天生成數百億的事件,Suro可以在數據被發送之前收集到它們,然后部分經過Amazon S3給Hadoop批處理,另一部分經過Apache Kafka給Druid 和 ElasticSearch做實時分析。從Netflix博客了解到,公司也在考慮如何讓Suro支持Storm或Samza這樣的實時處理引擎去執行事件數據的機器學習。

熟悉大數據領域的人們都知道,很多技術都與公司掛鉤,例如Netflix 創建了Suro, LinkedIn 創建了Kafka 和 Samza , Twitter創建了Storm,Metamarkets 創建了Druid 。Suro博客也承認它是基于Apache Chukwa項目,類似 Apache的Flume , Facebook的Scribe 。誠然,這些項目中最顯著的無疑是Hadoop。
公司為什么要建立自己的技術一直是爭議的熱點,因為他們的需求,一般都會被創建,就像在生活中的很多東西,不過,這個問題的答案還得具體問題具體分析。例如Storm,正在成為一個非常受歡迎的流處理工具,但LinkedIn覺得它需要不同的東西,因此創建Samza。取代使用一些已有的技術,Netflix創建了Suro,主要因為該公司雖然是一個重度的云服務用戶(主要基于AWS),但也有一些非AWS業務,包括Apache Cassandra數據庫。

這場技術創新最終贏家必然歸結于采用這些主流技術的用戶,無需在公司內部招聘專業人士,就可讓公司從這些開源技術中獲益。例如,我們已經看到Hadoop供應商試圖讓Storm和Spark框架用于其企業客戶。同時,我們也相信Hadoop絕對不是最后一個這樣的技術。AWS有非常多的用戶,畢竟他們希望Suro這樣技術提供的能力,而不是被AWS推出的服務綁定。