你不知道的六大Apache大數據項目新星
世界各地無數的組織,他們使用的數據現在日益龐大而復雜,使用傳統的數據處理程序已無法再進行優化分析及獲得洞察。而這正是的新一代的大數據應用程序要解決的問題。近期Apache軟件基金會(ASF)又將一批有趣的開源大數據項目畢業為的Apache頂級項目。這意味著,這些項目將能夠得到積極的發展和社區的大力支持。
大多數人都聽過的Apache Spark,一個針對Streaming, SQL,機器學習和圖形處理的內置模塊的大數據處理架構。 IBM和其他公司正在投入數十億美金開發資金到Spark項目,NASA和SETI Institute正在利用Spark的機器學習能力,合作分析TB數量級的外太空無線信號數據,尋找外星智能生命存在的形式。
然而,其他幾個最近被Apache擢升為頂級的大數據項目也值得您額外關注。事實上,他們中的一些所構建和發展的生態系統,很可能將對Spark 發起挑戰。結合本周舉行的“ApacheCon北美峰會”(ApacheCon North America conference)和“Apache大數據峰會”(Apache: Big Data events),本文將歸納那些你應該知道的Apache的大數據項目。
下面是六個正在冉冉興起的項目:
Kylin
Apache近日宣布其Kylin項目,一個始于eBay的開源大數據項目在eBay已經畢業為頂級項目。Kylin是一個開源的分布式分析引擎,旨在提供在Apache Hadoop之上SQL接口的多維分析引擎(OLAP),可支持超大數據集。它已廣泛在eBay和其他一些組織中被采用。
“Apache Kylin的孵化之旅已經證明Apache軟件基金會(ASF)開源治理的價值,以及圍繞項目建設開源社區和生態系統的強大力量。”Apache Kylin副總裁Luke Han(韓卿)說: “我們的開源社區是世界上最大的本土開發者參與的社區,完全依照The Apache Way的社區運作方式。”
作為一個領先的基于Hadoop的OLAP解決方案,Apache Kylin填補了大數據與人使用之間的空白,他補充說道:“使分析人員,最終用戶,開發者和數據愛好者能夠在大規模數據集上進行亞秒級延遲的交互式分析?;谶@些能力,Apache Kylin將商業智能(BI)帶回Apache Hadoop以釋放出大數據的價值。”
Lens
Apache近日宣布,Apache Lens,一個開源的大數據和分析工具,也已經從Apache孵化器畢業成為一個頂級項目(TLP)。根據公告:“Apache Lens是一個統一的分析平臺,以統一視圖形式為分析查詢提供了優化的執行環境。Apache Lens旨在通過提供一個跨多個數據存儲的單一視圖來橫向打通數據分析中遇到的異構單元。”
“通過在數據之上提供一個在線的分析處理(OLAP)模型,Lens無縫地集成Hadoop和傳統數據倉庫,提供統一的外部接口。它同時提供系統中查詢歷史、統計和查詢的生命周期管理。”
“在ASF中孵化Apache Lens是一段神奇的經歷” Apache Lens的副總裁Amareshwari Sriramadasu說:“Apache Lens從最終用戶角度出發,為大數據分析解決了一個難題,它使得業務用戶、分析師、開發者和其他用戶,可以輕松的進行復雜的數據分析,而不需要了解底層的數據架構。”
Ignite
ASF還宣布Apache Ingite成為了一個頂級項目,一個通過開源方式建立的內存數據網絡。Apache Ignite是一個高性能的整合的分布式的內存數據網絡,實現在大規模數組上進行實時的計算和交互。Apache社區成員認為“可能比傳統的硬盤或閃存技術要快幾個數量級。它的設計使現有的以及各種新的應用可以輕松的部署在一個價格適宜的行業標準的大規模并行架構的硬件上。”
Brooklyn
ASF宣布Apache Brooklyn已成為一個TLP(頂級項目)。“這標志著該項目的社區和產品在ASF優異的流程和原則下治理有方。”Brooklyn是用于整合跨多個數據中心的應用程序的藍圖和管理平臺,并適用于各種云端軟件。
Brooklyn 宣稱:“隨著現代應用程序正在由更多個部件組成,微服務架構又逐漸興起,部署以及已部署應用的演化越來越成為一個難題。Apache Brooklyn的藍圖提供了一個清晰簡潔的方式,在部署到公共云或私有基礎設施之前,來規范應用,及它的組件、配置和組件之間的關聯性。這種建立在自主計算理論的基礎上的策略管理,會不斷地評估運行應用程序,修改以保持它的運行健康和指標優化,例如成本和響應能力。”
Brooklyn已經在一些知名企業中應用。云服務商Canopy和Virtustream已在Brooklyn上提供產品。IBM也已經大規模的使用Brooklyn,以將大量工作從AWS遷移到IBM Softlayer之上。
Apex
今年4月,Apache軟件基金會將Apex項目提升至頂級項目。它被稱為“應用在Apache Hadoop生態系統的大規模,高吞吐量,低延時,能容錯的,統一的大數據流和批量處理平臺。” Apex與Apache Hadoop資源管理平臺YARN,一起作用于Hadoop工作集群。
Tajo
最后,Apache Tajo,一個領先的Apache Hadoop之上的開源數據倉庫系統,成為另一個你需要了解的大數據項目。Apache宣稱Tajo提供了針對Hadoop、第三方數據庫以及商用BI工具的快速抓取能力。
顯然,盡管Apache Spark吸引了大量的眼球,但它不是唯一需要你關注的來自Apache的大數據工具。今年接下去,Apache也許會將更多引人注目的大數據項目升級為頂級項目,這些項目必將由此獲得更好的開發資源和更多的受益。