成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Hadoop生態系統在壯大:十大炫酷大數據項目

譯文
大數據 Hadoop
管理和分析大數據已經變成了重大挑戰,為了應對這項任務,開發人員已開發了一系列新的開源技術。本文介紹一些重要項目,并順便了解幾個新興項目。

【51CTO.com快譯】在開發人員開發Hadoop以克服大數據帶來的挑戰之后的10年間,這些技術的生態系統在不斷發展壯大。Apache軟件基金會下面有眾多的開源大數據技術項目。本文介紹一些重要項目,并順便了解幾個新興項目。

[[163552]]

管理和分析大數據已經變成了重大挑戰,數量急劇增加的信息從社交媒體、連接到物聯網中“物件”的傳感器、結構化數據、非結構化數據以及可以收集的其他一切數據收集而來。為了應對這項任務,開發人員已開發了一系列新的開源技術。

旗艦軟件Apache Hadoop是Apache軟件基金會的一個項目,它在上個月迎來了十周年。這十年已發生了很大的變化。如今,另外許多技術也是大數據和Hadoop生態系統的一員,它們大多數都歸屬Apache軟件基金會。

開發人員和企業組織在使用諸多項目,開發大數據技術,并將它們捐獻給開源社區,以便進一步發展和采用,其中就包括Spark、Hive、HBase和Storm。

在網飛和領英等一些企業,其中一些技術已用于生產環境。它們讓企業組織能夠實時處理海量數據,并轉換那些數據,為最終客戶改善服務。

這些大數據技術常常脫胎于試圖改善大數據技術的工作方式、加快處理速度的企業組織。它們代表了生態系統的演變之路和下一波開源技術,這證明明智的參與者組成的社區取得的發展勝過專有企業環境里面的發展。

當前的開源和大數據時代完全始于Hadoop,它常常被譽為是一種面向分布式存儲的開源框架,用于在大眾化硬件上處理龐大數據集。

Hadoop發行版公司Hortonworks的企業戰略副總裁Shaun Connolly在接受采訪時告訴《信息周刊》雜志:“作為一種新興的數據架構,Hadoop成為備受矚目的中心。Hadoop周圍出現了這個生態系統,備受關注的項目圍繞它壯大起來。”

而發展并未止步。新的項目一直被Apache軟件基金會納入到大數據生態系統。最近,Apache Arrow就成了一個頂級項目。其他項目可能會作為Apache軟件基金會的孵化器計劃(Incubator)的一員而進入生態系統。去年年底,IBM面向Spark的SystemML機器學習引擎就得到了接受,成為一個孵化器項目。

有許多項目是Apache軟件基金會的大數據生態系統的一員。本文介紹了一些重要項目,還介紹了幾個新興項目。歡迎留言交流!

Hadoop

Hadoop其實是開源大數據領域的旗艦技術。它是由雅虎的一個編外項目發展起來的,當時開發人員需要一種方法來存儲和處理他們使用新的搜索引擎收集而來的海量數據。這項技術最終捐獻給了Apache軟件基金會。如今有來自商用公司的三大發行版:Cloudera、Hortonworks和MapR。Hadoop的開發者之一Doug Cutting最近接受了《信息周刊》雜志的采訪,暢談了Hadoop的發展。

Hive

Apache Hive最初由Facebook開發,后來捐獻給了Apache軟件基金會。這項技術是一種建立在Hadoop基礎上的數據倉庫基礎設施,提供了數據匯總、查詢和分析。

使用Hive的公司包括CNET和eHarmony。

HBase

Apache HBase脫胎于一家名為Powerset的公司所搞的一個項目,2008年該公司被微軟收購。其目的是,處理海量數據,便于自然語言搜索。這項技術是一種非關系型的開源分布式數據庫,仿照了谷歌的BigTable,用Java編寫而成。2010年,HBase成為Apache軟件基金會的一個項目。

如今使用HBase的公司包括Adobe、Facebook、Meetup和趨勢科技。

Spark

Apache Spark儼然就是大數據生態系統冉冉升起的明星。這項技術最初由加州大學伯克利分校的AMP實驗室開發。它可以取代Hadoop的MapReduce,不過速度更快,因為Spark改而使用內存中處理技術,其性能最多高出100倍,這取決于具體應用。

Spark的開發人員現在供職于Databricks,該公司是支持Apache軟件基金會內部這個項目的主力軍,它還提供商用的Spark即服務( Spark-as-a-Service)。截至2015年年底,Spark是所有大數據項目中最活躍的開源項目,之前12個月有600多個代碼捐獻者。

如今許多公司使用Spark,包括亞馬遜、Autodesk、電子港灣、Groupon、OpenTable和TripAdvisor。

Kafka

Apache Kafka起初只是領英公司內部的一個項目,作為一種消息傳遞系統,用于代理安排該公司面向消費者的職業網站及平臺生成和處理的海量實時數據。

2011年,Kafka捐獻給了開源社區,2012年從Apache孵化器計劃出來。當初開發Kafka的領英開發人員成了從領英拆分出來的Confluent這家新公司的成員。

使用Kafka的公司包括領英、推特、網飛、Pinterest、高盛和Coursera。

Storm

Apache Storm在其項目頁面上的描述是,這是一種分布式實時計算系統,讓用戶很容易可靠地處理無限制的數據流,正如Hadoop用于批量處理,Storm用于實時處理。

這項技術有時被稱為是Spark的替代技術。2011年,開發Storm的公司BackType被推特收購。2014年,從孵化器計劃出來后,Storm成為了Apache軟件基金會的一個頂級項目。

此后,推特開發了自己的內部系統,用于處理最初分派給Storm的任務。使用Storm的公司包括雅虎和Spotify。

Nifi

Apache Nifi原先名叫Niagara Files,這個技術轉讓項目由美國國家安全局(NSA)開發,2014年11月,它作為一個孵化器項目,捐獻給Apache軟件基金會。2015年,它成了一個頂級項目。

Nifi旨在處理這個問題:如何讓數據在系統之間的流動實現自動化。其在Apache軟件基金會上的項目頁面介紹,這項技術“支持功能強大、可擴展的有向圖,這些有向圖涉及數據路由、轉換和系統中介邏輯。”

它提供了一種基于Web的用戶界面。另外,與NSA開發的其他項目一樣,它也提供了安全功能,包括SSL、SSH、HTTPS、加密內容,以及可插入式、基于角色的驗證和授權機制。

Flink

2015年1月,Apache基金會接受Apache Flink成為一個頂級項目。這項技術是一種面向批量數據和流數據的分布式數據分析引擎,它提供了使用Java和Scala的編程API。

該項目脫胎于柏林的Stratosphere研究項目。使用Flink的企業組織包括第一資本(Capital One)和Data Artisans。

Arrow

這個月,Apache Arrow被Apache軟件基金會接收為一個頂級項目。這項技術源自Dremio公司,這家公司還捐獻了Apache Drill項目。Dremio的幾位創始人是從MapR出來的,這是一家Apache Hadoop發行版公司。

據Apache軟件基金會聲稱,Arrow最初是靠來自Apache Drill項目的代碼起家的。據Dremio的聯合創始人兼首席技術官Jacques Nadeau聲稱,Arrow提供了列式內存分析功能。

Apache軟件基金會的更多大數據項目

這些是Apache軟件基金會里面Hadoop生態系統中一些備受關注的大數據項目。另外許多是捐獻而來的。所有這些項目的開發工作都在進行之中,Apache軟件基金會的網站對它們都有全面記載。

Connolly告訴《信息周刊》雜志:“Apache之道就是社區比代碼重要。雖然技術值得關注,但是Apache之道是把社區放在首位。”

原文標題:Hadoop Ecosystem Evolves: 10 Cool Big Data Projects

【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】

責任編輯:Ophira 來源: 51CTO.com
相關推薦

2015-06-08 12:44:58

大數據InterlAMPCamp

2013-11-04 16:57:21

Hadoop大數據Hadoop生態系統

2017-05-10 16:10:28

Kafka大數據數據庫

2009-10-20 14:43:22

moblin開發移動

2011-12-09 11:02:52

NoSQL

2022-01-06 18:21:00

Hadoop生態系統

2013-06-07 09:59:53

大數據移動生態系統

2019-04-18 10:30:50

大數據Hadoop數據分析

2017-07-03 15:18:10

戴爾生態醫療

2021-11-23 20:54:34

AI 生態系統

2013-05-27 10:01:33

HadoopHadoop系統

2017-06-23 21:07:15

大數據HadoopHBase

2012-04-25 10:52:30

生態系統AppleGoogle

2012-04-25 10:59:45

2013-03-07 10:05:53

Hadoop大數據

2010-05-12 11:16:00

SAP

2011-05-19 15:15:39

Oracle生態系統

2012-12-24 10:29:42

大數據生態系統數據庫451Research

2022-07-25 11:06:54

APIIT工程師網絡安全

2019-04-29 14:37:11

虛擬化大數據服務器
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91精品在线播放 | 一级二级三级在线观看 | 美女三区| 国产综合第一页 | 久久午夜视频 | 国产精品免费大片 | 久久中文字幕一区 | 福利视频一二区 | 美女艹b| 欧美一区免费 | 久久精品一级 | 精品免费国产一区二区三区四区 | 久久久妇女国产精品影视 | 视频在线亚洲 | 久久久久久久综合色一本 | 东京av男人的天堂 | 精品久久影院 | 免费国产一区二区视频 | 天天躁日日躁aaaa视频 | 自拍视频一区二区三区 | 亚洲精品在线免费 | 99国产在线| 视频在线一区二区 | 亚洲一区在线日韩在线深爱 | av在线三级 | 国产真实乱全部视频 | 日日综合 | 嫩草伊人| 一区二区三区成人 | 久久午夜精品 | 中文字幕国产精品 | 免费九九视频 | 日本欧美在线视频 | 成人性视频在线 | 91精品麻豆日日躁夜夜躁 | 懂色中文一区二区三区在线视频 | 欧美日韩精品久久久免费观看 | 成人福利 | 免费国产一区 | 国产99久久 | 超碰97免费在线 |