下一代 Hadoop 技術(shù)演進(jìn)路線展望
譯文Hadoop峰會(huì)即將到來(lái),行業(yè)最杰出的精英人才將在這里探討Hadoop與大數(shù)據(jù)的未來(lái)。
云集全球各大技術(shù)勢(shì)力的圣何塞Hadoop峰會(huì)召開(kāi)在即,而其中的一大熱點(diǎn)議題在于解答Hadoop的未來(lái)發(fā)展方向。Hortonworks公司創(chuàng)始人兼架構(gòu)師Sanjay Radia將主持13項(xiàng)與該議題相關(guān)的討論。面對(duì)這些討論將如何展開(kāi)這一問(wèn)題,Sanjay回應(yīng)稱(chēng):
“Hadoop仍然在以極高速度推動(dòng)創(chuàng)新,而下一代Hadoop目前正在構(gòu)建當(dāng)中。這條發(fā)展道路承載著一系列Hadoop核心創(chuàng)新以及相關(guān)技術(shù)。與會(huì)者將了解到多個(gè)關(guān)鍵性項(xiàng)目——包括HDFS與YARN——的發(fā)展進(jìn)程,外加以Hadoop平臺(tái)為中心的各類(lèi)孵化器項(xiàng)目與行業(yè)倡議。與會(huì)者們將與多位技術(shù)領(lǐng)導(dǎo)者、貢獻(xiàn)者以及專(zhuān)業(yè)用戶(hù)交流Hadoop生態(tài)系統(tǒng)中即將出現(xiàn)的各發(fā)展路線圖、關(guān)鍵性功能以及先進(jìn)技術(shù)研究成果。”
我同時(shí)問(wèn)到,如果時(shí)間有限而必須從中選擇3次討論活動(dòng)參加,那么該如何做出選擇。他給出的建議是:
Apache Hive 2.0 SQL速度提升
主講人: Alan Gates,來(lái)自Hortonworks 公司
Apache Hive可謂Hadoop領(lǐng)域最為常用的SQL接口,而其最為活躍的舞臺(tái)則為數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用。為了滿(mǎn)足客戶(hù)的倉(cāng)儲(chǔ)需求,我們有必要將其規(guī)模擴(kuò)展至PB級(jí)別,提供用戶(hù)所需要的SQL,同時(shí)立足于交互時(shí)間執(zhí)行任務(wù)。Hive社區(qū)正在努力構(gòu)建Hive 2.0版本,其中包含一系列重要的新功能與性能改進(jìn)。具體包括:
- 添加LLAP,用于實(shí)現(xiàn)亞秒級(jí)響應(yīng)時(shí)間的守護(hù)程序?qū)印?/li>
- 添加HBase作為Hive元數(shù)據(jù)存儲(chǔ)選項(xiàng),從而加快元數(shù)據(jù)訪問(wèn)速度并降低查詢(xún)規(guī)劃時(shí)間。
- 改進(jìn)Hive從調(diào)整輸入內(nèi)容中獲取數(shù)據(jù)的能力,包括Apache Flume與Apache Storm。
- 添加SQL MERGE命令,旨在改進(jìn)并擴(kuò)展Hive通過(guò)事務(wù)一致方式管理變更數(shù)據(jù)的能力。
- 通過(guò)部署Apache Calcite幫助Hive獲得多存儲(chǔ)引擎(例如HBase)的使用能力。這一對(duì)話(huà)活動(dòng)將涵蓋相關(guān)用例、功能構(gòu)建中的架構(gòu)調(diào)整,同時(shí)分享可供參考的Hive實(shí)際提速效果。
多彩的YARN:應(yīng)用與一流服務(wù)支持
主講人: Vinod Kumar Vavilapalli,來(lái)自Hortonworks 公司
Apache Hadoop YARN是一套現(xiàn)代資源管理平臺(tái),能夠面向批處理(MapReduce)、交互(Hive、Tez、Spark)以及實(shí)時(shí)處理(Storm)等工作負(fù)載管理多套數(shù)據(jù)處理引擎。這些應(yīng)用可全部同時(shí)存在于YARN當(dāng)中并共享單一數(shù)據(jù)中心,從而以低成本方式解決資源管理、隔離及多租戶(hù)等實(shí)際問(wèn)題。在本次演講中,我們將探討YARN社區(qū)作為下一步發(fā)展方向的新型用例組合——服務(wù)。YARN作為一項(xiàng)技術(shù)方案,一直都在堅(jiān)實(shí)支持著各類(lèi)應(yīng)用與服務(wù)。即使這樣,將對(duì)現(xiàn)有及新型服務(wù)的支持引入YARN還是開(kāi)創(chuàng)了新的前進(jìn)思路。為了讓這些服務(wù)得到有效簡(jiǎn)化及出色的效果,我們將交流Apache Hadoop YARN如何針對(duì)各類(lèi)平臺(tái)進(jìn)行調(diào)整以支持相關(guān)服務(wù)并實(shí)現(xiàn)開(kāi)箱即用。企業(yè)客戶(hù)希望盡可能降低對(duì)基礎(chǔ)設(shè)施的關(guān)注,而更多著眼于端到端用戶(hù)實(shí)例。有鑒于此,我們還將探討API、工具集以及多彩的YARN如何為開(kāi)發(fā)者業(yè)界帶來(lái)強(qiáng)大助力。
將HDFS演進(jìn)至一套通用型分布式存儲(chǔ)子系統(tǒng)
主講人: Sanjay Radia與Jitendra Pandey,來(lái)自Hortonworks公司
我們正在將HDFS演進(jìn)為一套分布式存儲(chǔ)系統(tǒng),其不僅能夠支持分布式文件系統(tǒng),同時(shí)亦支持其它存儲(chǔ)服務(wù)。我們計(jì)劃將Datanodes的容錯(cuò)塊存儲(chǔ)層升級(jí)為一套通用型子系統(tǒng),并以此為基礎(chǔ)構(gòu)建包括HDFS以及對(duì)象存儲(chǔ)在內(nèi)的其它存儲(chǔ)服務(wù)。我們還引入了存儲(chǔ)容器抽象,通過(guò)對(duì)其進(jìn)行復(fù)制實(shí)現(xiàn)可靠性保障。最初的兩種容器類(lèi)型為塊容器與對(duì)象容器。塊容器屬于經(jīng)過(guò)復(fù)制的HDFS塊集合,其能夠在較低塊報(bào)告負(fù)荷的前提下實(shí)現(xiàn)可擴(kuò)展性,同時(shí)允許相關(guān)文件實(shí)現(xiàn)同地協(xié)作。對(duì)象容器則一般包含大量小型對(duì)象,主要針對(duì)對(duì)象存儲(chǔ)服務(wù)(例如S3)。我們還計(jì)劃利用LSM-tress等結(jié)構(gòu)化存儲(chǔ)容器為HBase提供出色支持。我們的方案擁有多種優(yōu)勢(shì),其使得Datanode的物理存儲(chǔ)能夠在不同存儲(chǔ)服務(wù)之間進(jìn)行共享,且不會(huì)產(chǎn)生碎片化后果。存儲(chǔ)容器還能夠隔離各實(shí)現(xiàn)方案與客戶(hù)端協(xié)議,從而確保各容器類(lèi)型獨(dú)立演進(jìn)。未來(lái),我們還將在容器方案中引入復(fù)制、位置服務(wù)以及清退等容器與存儲(chǔ)全局管理功能。
原文標(biāo)題:The Future of Apache Hadoop