成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LinkedIn開源Dr. Elephant:Hadoop和Spark性能監控工具

大數據 Hadoop Spark
Hadoop的專家們審查流程時發現幾個常見的經常性的優化模式,并在此基礎上,我們決定開始一個新的實驗項目,同時優化Hadoop平臺開發者和Hadoop使用者的時間。這就是Dr.Elephant的誕生過程。

我們今天很榮幸的宣布項目Dr.Elephant的開源,這是一個強大的工具,可以幫助Hadoop和Spark用戶理解、分析、以及改善系統的性能。在去年的Hadoop第八次年度峰會(一個Apache Hadoop社區的重要會議)期間,我們***次將Dr. Elephant在社區面前展示。

我們的動機

Hadoop是用于大型分布式存儲及計算的框架,同時其生態圈中引入了大量彼此相互作用的部件。由于其龐大而復雜的框架,確保每一個部件都高效執行是非常重要的。雖然我們總能優化底層的硬件資源、網絡基礎設施、操作系統,以及整個系統的其它部分,但只有用戶才能優化集群上執行的任務。

Dr.Elephant的誕生

為了幫助用戶了解和優化他們自己的流程,我們定期進行培訓來告訴他們如何優化自己的任務,但這并沒有真正解決我們的問題。在LinkedIn ,我們有不同Hadoop使用經驗的員工使用不同的技術在集群中運行他們的任務。此外, Hadoop的用戶數量不斷增加。這意味著,針對不同的用戶、不同的技術進行常規的培訓變的越來越難,而且這樣的工作根本不具備良好的擴展性。

直到幾年前,LinkedIn的Hadoop團隊開始代替員工進行工作流分析,并給出任務的優化建議。作為優化工作的***步,基于一些簡單規則,我們給予用戶一些建議,并取得了明顯的優化效果。但是,隨著用戶的增加,由于用戶參與總會有些延遲,使得我們越來越難提供足夠的支持資源。沒有辦法驗證我們是否達到了任務性能的優化目標或者保證性能優化方向的全覆蓋。因此,我們需要一個標準化和自動化的過程。

Hadoop的專家們審查流程時發現幾個常見的經常性的優化模式,并在此基礎上,我們決定開始一個新的實驗項目,同時優化Hadoop平臺開發者和Hadoop使用者的時間。這就是Dr.Elephant的誕生過程。

什么是Dr.Elephant

Dr.Elephant是Hadoop和Spark性能監控和調優工具。它會自動收集所有的指標,針對指標執行分析任務,并用簡易的方式將其展示出來。它的目標是提高開發人員的工作效率,簡化任務調優工作以更好的提高集群性能。它使用一組可插拔、可配置、基于規則的啟發式(heuristics)來分析Hadoop和Spark任務并給出關于任務性能的詳細報告信息,然后,基于該結果給出如何讓任務執行得更為有效建議。

為何要使用Dr.Elephant

大多數Hadoop的優化工具,無論是開源還是專有的,旨在收集系統資源指標和監控集群資源。他們專注于簡化Hadoop集群的部署和管理。很少有工具專注于幫助Hadoop用戶優化他們的任務。可用的那幾個要么不活躍,要么不能擴展并支持不斷增長的Hadoop框架。Dr.Elephant支持Hadoop,并且可以很容易地擴展到新的框架。它也支持Spark。您可以加入、配置任意多的自定義啟發式(heuristics)。它的目的是幫助Hadoop和Spark的用戶了解他們的任務內部執行情況,并幫助他們很容易的優化自己的任務。

Dr.Elephant是如何工作的

Dr.Elephant以固定的間隔,從Yarn的Resource Manager獲取所有最近成功和失敗的應用程序列表。從JobHistory獲取每個應用的元數據 - 即,counter,配置和任務數據。一旦它擁有所有的元數據,Dr.Elephant便運行一組啟發式(heuristics),并產生對單個啟發式和任務整體性能的診斷報告。然后,報告中用五個嚴重性級別來標記不同的結果,以表明潛在的性能問題。

Dr.Elephant儀表盤

啟動Dr.Elephant的UI之后,儀表盤將被加載起來。這將顯示幾組集群統計數據,比如集群上有多少作業在執行,需要做性能調優的作業數量,以及基于啟發式分析結果顯示的處于嚴重(critical)狀態的任務數量。從下面這些數字,你可以看到在過去24小時內所有由Dr.Elephant分析的任務。

Dr.Elephant的搜索頁面

Dr.Elephant具有搜索功能,允許用戶根據任務/應用程序ID、流程執行ID、作業提交者信息、任務的類型(Pig、Hive等)、作業的嚴重程度、具體的某個啟發式指標的嚴重程度、以及作業完成的時間來搜索任務。

當你點擊一個特定的搜索結果,您可以查看任務的完整信息。該信息頁面給出了具體MapReduce或Spark作業的詳細信息。它包括對用戶有用的啟發式指標以及一些統計數據。此外,你可以獲取任務的真實身份信息,如工作流的引用、作業引用和作業歷史記錄服務器的引用。它還提供方便的鏈接,用來查看作業的歷史以及給定作業流中所包含的所有作業的信息。

Dr.Elephant的任務頁面

Dr.Elephant中的一個工作流歷史查看頁

Dr.Elephant中的任務歷史查看

除了對單個任務的報告,Dr.Elephant的任務和工作流歷史記錄頁面還提供了任務的執行歷史展示,以幫助您將某次特定的執行與之前的執行進行比較。它基于所有啟發式嚴重性計算每次執行的得分并以圖表和曲線圖方式展現。該圖將有助于分析為什么相比于其他執行,某次特定的任務執行性能較差。對于圖中的每一個點,它也將列出需要注意的排在前三的任務(Job)或任務階段(Stage)。每一個色點代表了任務流頁面中的一個任務,以及任務歷史頁面中的一個啟發式指標,而顏色代表指標的嚴重性。當鼠標懸停在這些點上時,你可以獲取各個作業/啟發式指標的更多信息。

Dr.Elephant的專家技能

Dr.Elephant自2014年年中誕生開始,經過不斷的演進,已經包括基于專家建議和意見的許多有用功能。廣義地說,這里是Dr.Elephant的技能和能力的列表:

  • 可插拔和可配置的基于規則的啟發式指標,用于診斷任務;
  • 與Azkaban調度器開箱即用式的集成,同時支持添加任何其它的Hadoop調度器,比如Oozie;
  • 對任務及任務流的歷史性能的展示;
  • 任務流中,任務級別的對比;
  • 對于MapReduce和Spark的啟發式指標診斷;
  • 很容易擴展到新的任務類型、應用和調度;
  • 采用REST API獲取所有信息。

家庭醫生

Dr.Elephant在LinkedIn非常流行,人們喜歡它的簡單。就像一個家庭醫生,總是隨叫隨到,通過簡單的診斷可以解決大約80%的問題。它的設計是不言自明的,著眼于通過提供任務級別的建議而不是集群級別的統計信息,幫助Hadoop的用戶了解和優化他們的任務流。像一個真正的醫生診斷問題一樣,Dr.Elephant通過簡單的流程圖分析問題。只要你喜歡,你可以往Dr.Elephant中添加任意多的啟發式或規則。

我們使用Dr.Elephant完成許多不同的任務,包括監測任務流如何在群集上執行,理解為什么一個任務流運行緩慢,知道可以調整什么參數以及如何改善一個任務流,將一個任務流與先前的執行進行比較,故障排除,等等。其他還有些工具使用Dr.Elephant的REST API生成有用的報告。例如,一個工具,用Dr.Elephant對任務流進行性能評估,最終決定其是否可以在生產集群上線執行。

Dr.Elephant已經徹底融入了我們的Hadoop生態系統。在LinkedIn,我們對開發人員做了強制要求,將Dr.Elephant作為其開發周期的一部分。在將一個任務流提交到生產環境之前必須從Dr.Elephant得到一個綠色的結果。對于任何的用戶問題,我們首先使用Dr.Elephant測試并得到一個報告。這鼓勵用戶不斷優化自己的任務,并設法使任務在Dr.Elephant中測試時能獲得綠色結果。Dr.Elephant已經成為LinkedIn文化的一部分,并一直在幫助大家。

接下來

許多新功能都計劃采用Dr.Elephant。我們正在不斷尋找新的想法,以幫助提高開發人員的工作效率,提高集群使用效率。除了添加和改進啟發式和支持更多的任務類型,在計劃中的更新包括:

  • 基于實時指標的具體任務調優建議;
  • 集群資源使用情況和趨勢的可視化;
  • 更好地與Spark集成;
  • 整合更多的調度器。

代碼和文檔

Dr.Elephant是Apache v2協議下的開源項目。你可以在我們的GitHub頁面中找到源代碼和文檔。

我們為Dr.Elephant建立了一個Google Group,在那里你可以進行查詢和討論想法。當然,捐款和建議也是非常歡迎的。

責任編輯:Ophira 來源: 小象
相關推薦

2014-02-12 10:28:50

Hadoop

2009-03-31 16:41:38

網絡性能網絡監控開源

2015-01-14 13:17:59

系統優化軟件Dr. Cleaner趨勢科技

2019-06-18 10:24:23

開源技術 趨勢

2017-02-06 14:00:51

iOSLinkedIn開源UI測試工具

2023-01-09 13:35:16

Windows錯誤報告

2020-05-27 11:20:37

HadoopSpark大數據

2015-08-10 09:23:05

2021-06-21 06:26:03

PythonCircuitPyth開源工具

2011-09-29 09:42:40

2013-07-19 09:47:57

White ElephHadoopLinkedIn

2012-05-21 10:13:56

2022-02-25 11:51:11

KubeScrape開源監控工具

2021-01-26 08:44:48

監控工具Monasca

2015-05-25 14:13:18

Yahoo MySQL性能分析工開源

2015-08-10 10:37:42

2020-08-25 18:56:19

前端開發技術

2023-10-17 07:51:37

MySQLQPS優化

2023-04-14 08:21:55

2021-03-15 14:09:05

大數據大數據框架技術數據開發
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产一级片91 | 亚洲精品电影在线观看 | 欧美日本亚洲 | 成人免费三级电影 | 亚洲欧美日韩国产综合 | 在线精品一区二区三区 | 天天拍天天操 | 欧美精品欧美精品系列 | 中文字幕影院 | 日本久久精品视频 | 亚洲精品一区二区另类图片 | 成人在线小视频 | 欧美色综合一区二区三区 | 日韩1区2区| 欧美日韩国产免费 | 欧美成人a | 欧美黄色一级毛片 | 日韩视频高清 | 九九天堂网 | 国产一区二区三区久久久久久久久 | 国产视频综合 | 中文在线a在线 | www国产成人免费观看视频 | 国产精品免费一区二区三区四区 | 男女精品久久 | 久久大| 午夜在线小视频 | 精品视频在线观看 | 国产成人综合久久 | 91极品视频 | 一级大片网站 | 中文字幕二区 | 国产人成精品一区二区三 | 欧美一区二区三区精品免费 | 成人免费淫片aa视频免费 | 欧美日韩在线综合 | 日一区二区 | 91偷拍精品一区二区三区 | 日本久久久久久 | 黄色片免费看 | 99精品国产一区二区三区 |