成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Hortonworks CTO:Hadoop的現在和將來

開發 前端 Hadoop
Hortonworks公司,由Yahoo和Benchmark Capital于2011年7月聯合創建。在激烈的市場環境中,與其他競爭者相比Hortonworks有著自己的優勢。出身于名門Yahoo!,Hortonworks擁有著許多Hadoop架 構師和源代碼貢獻者,這些源代碼貢獻者以前均效力于Yahoo,而且已經為Apache Hadoop項目貢獻了超過80%的源代碼,Hortonworks這樣說道。

Hortonworks公司,由Yahoo和Benchmark Capital于2011年7月聯合創建。在激烈的市場環境中,與其他競爭者相比Hortonworks有著自己的優勢。出身于名門Yahoo,Hortonworks擁有著許多Hadoop架 構師和源代碼貢獻者,這些源代碼貢獻者以前均效力于Yahoo,而且已經為Apache Hadoop項目貢獻了超過80%的源代碼,Hortonworks這樣說道。這些工程師同時也為分布式領域的一些其他項目(如HCatalog、 Ambari和Pig等)做出了貢獻,此外,在Yahoo還都曾參與過在4萬臺服務器規模集群中運行Hadoop的經驗。

Hortonworks是如何幫助企業采用Hadoop的?Hortonworks的CTO Eric談到了三個步驟:

  1. 了解需求,這和別的供應商是一樣的;
  2. 和大家不一樣的是,Hortonworks會通過廣泛的Apache Hadoop社區的力量來根據客戶需求開發新軟件;
  3.  在開發完成了之后,需要將軟件進行打包,然后進行企業級測試,保證可用性和穩定性 

Hortonworks提供的企業級Hadoop是什么樣子的呢?請看下圖。

除了在底層擁有Hadoop的核心之外,他們在上層加入了FLUME和SQOOP,用于將數據注入Hadoop中。其次,又添加了Hive、PIG、 HABASE、HCATALOG來簡化Hadoop中的數據管理。最后也添加了一些Apache Hadoop項目,AMBARI和OOZIE,用于管理和監控集群,管理和監控任務和工作流。這樣就能形成一個純開源,純Apache的平臺。

接著,他分享了一些他覺得在現在的Apache版本中比較激動人心的一些項目。

第 一個就是HCatalog。它是HIVE在表級別上的抽象,這就意味著表級別就開放了,所有的數據工具和Hadoop都能在這個更高層級的抽象上開展工 作。可以對表編寫Map-Reduce,用PIG來做ETL,用HIVE格式來存儲,所以它是可以在這些工具之間進行協作的。除此之外,它的開放性也支持 通過集群外來訪問。所以,現在就可以用第三方的SQL工具,通過表查詢的方法來查詢其中的數據,這樣就把Hadoop帶到了更多的使用場景中。

第二個就是Ambari。它是Apache的孵化項目,主要關注于Hadoop的配置、管理和監控。他自己的團隊在過去的一年中感覺到的是,企業不需要一個 單獨管理Hadoop的終端,企業希望能夠把Hadoop的管理工作集成至自己喜歡的工具中。所以Ambari非常注重添加API。Ambari添加的 API即可被現有的管理工具集成。另一個亮點是Ambari有任務診斷功能,用戶可以直接診斷Hadoop中的任務為什么性能低,為什么會失敗,等等。通 過集群歷史(Cluster Histroy),可以直觀地了解到集群的運行情況,從而判斷目前集群的狀態。

接下來,他談到了Hadoop 2.0中幾個比較重大的改進。

第 一是在可擴展性上要做得更好。今天大概最大的集群的量級在4000~4500個節點左右,2.0的目標是要支持萬級的節點數量。企業可以信賴Hadoop 因為它可以持續提供不斷成長的數據管理架構。Eric也談到他對大數據的定義是,企業有了大數據的問題,現有的工具根本不能解決,或不能通過低成本的方式 去解決。所以Hadoop也需要不斷提升,從而保持住大數據最佳解決方案的地位。

除了可擴展性之外,Hadoop 20.0真正的關注點在其延展性上。這正是采用YARN的原因。YARN是Hadoop的重構和處理模型。在Hadoop 1.0中,只有一種語言,就是MapReduce。在Hadoop 2.0中,核心資源管理被分離出來,可以將集群中的某部分資源分配于某些非MapReduce的特定工作。所以MapReduce就成為了眾多可以在 Hadoop中使用的編程模型之一。除了MapReduce之外,大家還能看見很多其他的框架,有的已經可用了。例如處理流的低延遲性框架,支持SQL查 詢的,還有其它的一些服務性框架,例如有人提議將CloudFoundary作為Hadoop的一個服務。這樣的話,就能利用Hadoop進行更開放地創 新。

Tez是其中的一個框架,它是Apache的孵化項目,主要是為了在Hadoop 2.0中提供低延遲性的編程框架。Tez分成兩個部分,第一個部分關注內循環上,也就是如何更高效地處理大量數據行的訪問;第二部分是關注如何能夠更快地 開始進行計算,如何保證集群的熱度(warm)和可用性,以確保在提交查詢后幾秒鐘就開始處理,而不是幾分鐘或者幾十秒。

Tez 是一項大的倡議當中的一部分,即Stinger。可能大家沒見過Stinger Apache,因為Stinger是一項大的倡議,旨在集中社區的力量來將Hive變得更優秀。主要的關注點是如何實現Hadoop中的低延遲SQL查 詢。之前的事實已經證明了Hive的優異,比如可擴展性,和高強度負載下的穩定性,功能也很完整。Stinger中把對Hive的改進分解成了三個方面。 第一個方面已經談到過,就是Tez。第二方面是對核心Hive的改進,即提供更好的查詢計劃。例如通過更少的任務,更快地完成查詢。第三方面是要提供更優 化的列存儲格式。這三方面結合起來,Hive的性能可能會得到成百倍地增強。

Knox也是Apache的孵化項目,專注于Hadoop的安全性。Knox Gateway通過在Hadoop集群之前的REST代理,可以使用現有工具來提供單點登錄,然后就可以使用Hadoop了。

Falcon是數據生命周期管理的項目。第一是解決了數據生命周期管理的問題;第二也提供了移動數據的問題,即如何將數據移送至集群中,并在集群間移動;其它還包括如何自動化ETL流。

 

責任編輯:陳四芳 來源: 51CTO
相關推薦

2010-10-27 13:54:47

2012-02-23 14:08:44

2010-02-04 18:46:54

2018-10-12 14:01:14

2021-09-26 10:47:12

預訓練模型GPT

2016-08-28 15:55:04

Hadoop大數據

2013-07-02 10:56:46

2013-02-26 09:40:00

HortonworksWindowsHadoop

2012-11-12 10:13:09

2013-10-17 09:35:33

大數據HadoopHortonworks

2013-12-20 09:46:56

Hadoop大數據數據處理

2013-04-19 10:28:10

紅帽

2019-07-19 15:42:57

Hadoop大數據YuniKorn

2013-06-14 09:24:59

Hadoop云服務Altiscale

2012-02-16 09:10:31

JavaScript

2017-08-08 15:40:26

OpenStack轉型基金會

2022-05-16 10:25:03

Web內部垃圾收集安全性

2014-11-17 09:36:46

2020-05-26 11:17:34

區塊鏈金融技術

2021-10-15 06:13:12

SD-WANMPLS網絡
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品国产一区二区三区久久 | 欧美国产免费 | 中文字幕高清av | 欧美xxxx性xxxxx高清 | 国产成人精品一区二区三区 | 欧美jizzhd精品欧美巨大免费 | 91视频导航 | 2021天天躁夜夜看 | 久久蜜桃av一区二区天堂 | 毛片黄片免费看 | 成人av高清在线观看 | 日操夜操 | 精品一区在线看 | 99r在线 | 国产成人精品久久二区二区91 | 99综合 | 狠狠涩| 综合精品久久久 | 国产激情在线播放 | 国产精品福利网站 | 天堂va在线 | 国产激情在线看 | 亚洲一区二区在线视频 | 免费午夜视频在线观看 | 国产九九九九 | 日本天天操| 国产精品精品视频 | 国产精品久久久久久久久图文区 | 中文字幕一区二区三区四区不卡 | 国产一区二区三区视频免费观看 | 在线成人免费观看 | 国产69精品久久99不卡免费版 | 亚洲国产一区二区在线 | 亚洲精品电影 | 91传媒在线观看 | 国产一区二区 | 久综合 | 亚洲成人精品一区 | 国产精品永久 | 久久大全 | 免费观看的av毛片的网站 |