成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一篇運(yùn)維老司機(jī)的大數(shù)據(jù)平臺監(jiān)控寶典(1)-聯(lián)通大數(shù)據(jù)集群平臺監(jiān)控體系進(jìn)程詳解

大數(shù)據(jù)
本篇文章中,聯(lián)通大數(shù)據(jù)平臺維護(hù)團(tuán)隊將對幾種常見監(jiān)控組合進(jìn)行介紹,并基于豐富的實戰(zhàn)經(jīng)驗,對集群主機(jī)及其接口機(jī)監(jiān)控進(jìn)行系統(tǒng)性總結(jié)。

如果你是一個經(jīng)驗豐富的運(yùn)維開發(fā)人員,那么你一定知道ganglia、nagios、zabbix、elasticsearch、grafana等組件。這些開源組件都有著深厚的發(fā)展背景及功能價值,但需要合理搭配選擇,如何配比資源從而達(dá)到性能的***,這里就體現(xiàn)了運(yùn)維人的深厚功力。”

下文中,聯(lián)通大數(shù)據(jù)平臺維護(hù)團(tuán)隊將對幾種常見監(jiān)控組合進(jìn)行介紹,并基于豐富的實戰(zhàn)經(jīng)驗,對集群主機(jī)及其接口機(jī)監(jiān)控進(jìn)行系統(tǒng)性總結(jié)。

一、科普篇:幾種常見的監(jiān)控工具選擇

目前常見的監(jiān)控組合如下:

  • Nagios+Ganglia
  • Zabbix
  • Telegraf or collect + influxdb or Prometheus or elasticsearch + Grafana +alertmanager

Nagios、Ganglia、Zabbix屬于較早期的開源監(jiān)控工具,而grafana、prometheus則屬于后起之秀。下面,將分別介紹三種監(jiān)控告警方式的背景及其優(yōu)缺點:

1. Nagios+Ganglia

Nagios最早是在1999年以“NetSaint”發(fā)布,主要應(yīng)用在Linux和Unix平臺環(huán)境下的監(jiān)控告警,能夠監(jiān)控網(wǎng)絡(luò)服務(wù)、主機(jī)資源,具備并行服務(wù)檢查機(jī)制。

其可自定義shell腳本進(jìn)行告警,但隨著大數(shù)據(jù)平臺承載的服務(wù)、數(shù)據(jù)越來越多之后,nagios便逐漸不能滿足使用場景。例如:其沒有自動發(fā)現(xiàn)的功能,需要修改配置文件;只能在終端進(jìn)行配置,不方便擴(kuò)展,可讀性比較差;時間控制臺功能弱,插件易用性差;沒有歷史數(shù)據(jù),只能實時報警,出錯后難以追查故障原因。

Ganglia是由UC Berkeley發(fā)起的一個開源監(jiān)控項目,設(shè)計用于測量數(shù)以千計的節(jié)點。Ganglia的核心包含gmond、gmetad以及一個Web前端。主要用來監(jiān)控系統(tǒng)性能,如:cpu 、mem、硬盤利用率,I/O負(fù)載、網(wǎng)絡(luò)流量情況等,通過曲線很容易見到每個節(jié)點的工作狀態(tài),對合理調(diào)整、分配系統(tǒng)資源,提高系統(tǒng)整體性能起到重要作用。但隨著服務(wù)、業(yè)務(wù)的多樣化,ganglia覆蓋的監(jiān)控面有限,且自定義配置監(jiān)控比較麻煩,展示頁面查找主機(jī)繁瑣、展示圖像粗糙不精確是其主要缺點。

2. Zabbix

Zabbix是近年來興起的監(jiān)控系統(tǒng),易于入門,能實現(xiàn)基礎(chǔ)的監(jiān)控,但是深層次需求需要非常熟悉Zabbix并進(jìn)行大量的二次定制開發(fā),難度較大;此外,系統(tǒng)級別報警設(shè)置相對比較多,如果不篩選的話報警郵件會很多;并且自定義的項目報警需要自己設(shè)置,過程比較繁瑣。

3. jmxtrans or Telegraf or collect + influxdb or Prometheus or elasticsearch + Grafana +alertmanager

這套監(jiān)控系統(tǒng)的優(yōu)勢在于數(shù)據(jù)采集、存儲、監(jiān)控、展示、告警各取所長。性能、功能可擴(kuò)展性強(qiáng),且都有活躍的社區(qū)支持。缺點在于其功能是松耦合的,較為考驗使用者對于使用場景的判斷與運(yùn)維功力。畢竟,對于運(yùn)維體系來說,沒有“***”,只有“最適合”。

早期,聯(lián)通大數(shù)據(jù)平臺通過ganglia與nagios有效結(jié)合,發(fā)揮ganglia的監(jiān)控優(yōu)勢和nagios的告警優(yōu)勢,做到平臺的各項指標(biāo)監(jiān)控。但隨著大數(shù)據(jù)業(yè)務(wù)的突增、平臺復(fù)雜程度的增加,nagios與ganglia對平臺的監(jiān)控力度開始稍顯不足,并且開發(fā)成本過高。主要體現(xiàn)在配置繁瑣,不易上手;開發(fā)監(jiān)控采集腳本過于零散,不好統(tǒng)一配置管理,并且nagios沒有歷史數(shù)據(jù),只能實時報警,出錯后難以追查故障原因。

中期,我們在部分集群使用了zabbix,發(fā)現(xiàn)其對于集群層、服務(wù)層、角色層及角色實例監(jiān)控項的多維度監(jiān)控開發(fā)管理相對繁瑣,并且如果想要把平臺所有機(jī)器及業(yè)務(wù)的監(jiān)控和告警集成到zabbix上,對于zabbix的性能將是很大的挑戰(zhàn)。

于是我們采用以Prometheus+ Grafana+ alertmanager為核心組件的監(jiān)控告警方式,搭建開發(fā)以完成對現(xiàn)有大規(guī)模集群、強(qiáng)復(fù)雜業(yè)務(wù)的有效監(jiān)控。采用PGA(Prometheus+ Grafana+ alertmanager)監(jiān)控告警平臺的原因是其在數(shù)據(jù)采集選型、存儲工具選型、監(jiān)控頁面配置、告警方式選擇及配置方面更加靈活,使用場景更加廣泛,且功能性能更加全面優(yōu)秀。

二、實戰(zhàn)篇:平臺搭建、組件選型、監(jiān)控配置的技巧

1. 采集、存儲工具的選型

(1) 采集器選擇

常見的采集器有collect、telegraf、jmxtrans(對于暴露jmx端口的服務(wù)進(jìn)行監(jiān)控)。筆者在經(jīng)過對比之后選擇了telegraf,主要原因是其比較穩(wěn)定,并且背后有InfluxData公司支持,社區(qū)活躍度不錯,插件版本更新周期也不會太長。Telegraf是一個用Go語言編寫的代理程序,可采集系統(tǒng)和服務(wù)的統(tǒng)計數(shù)據(jù),并寫入InfluxDB、prometheus、es等數(shù)據(jù)庫。Telegraf具有內(nèi)存占用小的特點,通過插件系統(tǒng),開發(fā)人員可輕松添加支持其他服務(wù)的擴(kuò)展。

(2) 數(shù)據(jù)庫選型

對于數(shù)據(jù)庫選擇,筆者***使用influxdb,過程中需要注意調(diào)整增加influxdb的并發(fā)能力,并且控制數(shù)據(jù)的存放周期。對于上千臺服務(wù)器的集群監(jiān)控,如果存儲到influxdb里,通過grafana界面查詢時,會產(chǎn)生大量的線程去讀取influxdb數(shù)據(jù),很可能會遇到influxdb讀寫數(shù)據(jù)大量超時。

遇到這種情況,可以先查看副本存儲策略:SHOW RETENTION POLICIES ON telegraf

再修改副本存儲的周期:

  1. ALTER RETENTION POLICY "autogen" ON "telegraf" DURATION 72h REPLICATION 1 SHARD DURATION 24h DEFAULT 

需理解以下參數(shù):

  • duration:持續(xù)時間,0代表***制
  • shardGroupDuration:shardGroup的存儲時間,shardGroup是InfluxDB的一個基本儲存結(jié)構(gòu),大于這個時間的數(shù)據(jù)在查詢效率上有所降低。
  • replicaN:全稱是REPLICATION,副本個數(shù)
  • default:是否是默認(rèn)策略

但是,由于influxdb開源版對于分布式支持不穩(wěn)定,單機(jī)版的influxdb服務(wù)器對于上千臺的服務(wù)器監(jiān)控存在性能瓶頸(數(shù)據(jù)存儲使用的普通sata盤,非ssd)。筆者后來選擇使用es 或 promethaus聯(lián)邦來解決(關(guān)于es的相關(guān)權(quán)限控制、搭建、調(diào)優(yōu)、監(jiān)控維護(hù),以及promethaus的相關(guān)講解將在后續(xù)文章具體闡述)。

2. Grafana展示技巧

Grafana是近年來比較受歡迎的一款監(jiān)控配置展示工具,其優(yōu)點在于能對接各種主流數(shù)據(jù)庫,并且能在官網(wǎng)及社區(qū)上下載精致的模板,通過導(dǎo)入json模板做到快速的展示數(shù)據(jù)。

(1) 主機(jī)監(jiān)控項

  • 主機(jī)監(jiān)控項概覽:內(nèi)核、內(nèi)存、負(fù)載、磁盤io、網(wǎng)絡(luò)、磁盤存儲、inode占用、進(jìn)程數(shù)、線程數(shù)。
  • 主機(jī)監(jiān)控大屏:以一臺主機(jī)監(jiān)控展示為樣例,大家先看下效果圖。

  • 主機(jī)用途分類:聯(lián)通大數(shù)據(jù)公司作為專業(yè)的大數(shù)據(jù)服務(wù)運(yùn)營商,后臺支持的主機(jī)數(shù)量規(guī)模龐大,各主機(jī)用途大不相同,那么就需要做好主機(jī)分類。用盒子的概念來說,機(jī)房是父類盒子,里面放置集群計算節(jié)點子盒子和接口機(jī)子盒子。集群主機(jī)、接口機(jī)分離,這樣當(dāng)一臺主機(jī)故障時,方便更快的查找定位。

  • 主機(jī)資源占用top10:主要從cpu占用、內(nèi)存占用、負(fù)載、線程數(shù)多個維度統(tǒng)計同一主機(jī)群體(如:A機(jī)房接口機(jī)是一個主機(jī)群體,B機(jī)房計算節(jié)點是一個主機(jī)群體)占用資源最多的前十臺機(jī)器。

  • 進(jìn)程資源占用top10:通過主機(jī)監(jiān)控大屏和主機(jī)資源占用top10定位故障主機(jī)的故障時間段和異常指標(biāo),只能初步的幫助運(yùn)維人員排查機(jī)器故障的原因。例如,當(dāng)機(jī)器負(fù)載過高時,在主機(jī)監(jiān)控大屏中往往能看出主機(jī)的cpu使用,讀寫io、網(wǎng)絡(luò)io會發(fā)生急速增長,卻不能定位是哪個進(jìn)程導(dǎo)致。當(dāng)重啟故障主機(jī)之后,又無法排查歷史故障原因。因此對于主機(jī)層面監(jiān)控,增加了進(jìn)程資源占用top10,能獲取占用cpu,內(nèi)存***的進(jìn)程信息(進(jìn)程開始運(yùn)行時間、已運(yùn)行時長、進(jìn)程pid、cpu使用率、內(nèi)存使用率等有用信息)。這樣,當(dāng)主機(jī)因為跑了未經(jīng)測試的程序,或者因運(yùn)行程序過多,或程序線程并發(fā)數(shù)過多時,就能有效的通過歷史數(shù)據(jù)定位機(jī)器故障原因。

總結(jié):主機(jī)層面可監(jiān)控項還有很多,關(guān)鍵點在于對癥下藥,把排查故障的運(yùn)維經(jīng)驗轉(zhuǎn)化為采集數(shù)據(jù)的合理流程,再通過數(shù)據(jù)關(guān)聯(lián)來分析排查故障。

(2) 平臺監(jiān)控項

平臺監(jiān)控項種類繁多,有hdfs、yarn、zookeeper、kafka、storm、spark、hbase等平臺服務(wù)。每個服務(wù)下有多種角色類別,如hdfs服務(wù)中包括Namenode、Datenode、Failover Controller、JournalNode 。每個角色類別下又有多個實例。如此產(chǎn)生的監(jiān)控指標(biāo)實例達(dá)幾十萬個。目前聯(lián)通大數(shù)據(jù)使用的CDH版本大數(shù)據(jù)平臺,基礎(chǔ)監(jiān)控指標(biāo)全面多樣。根據(jù)現(xiàn)狀,平臺層面我們主要配置比較關(guān)鍵的一些監(jiān)控項。

  • 集群yarn隊列資源占用多維畫像:幫助平臺管理人員合理評估個隊列資源使用情況,快速做出適當(dāng)調(diào)整。

  • zeeplin操作日志:zeepline并沒有相關(guān)的可視化審計日志,通過實時的獲取zeeplin操作日志來展現(xiàn)zeeplin操作,方便運(yùn)維人員審計。

  • hdfs各目錄文件數(shù)及存儲多維畫像:實時統(tǒng)計各業(yè)務(wù)用戶的數(shù)據(jù)目錄存儲,便于分析hdfs存儲增量過大的目錄。

  • 集群namenode RPC 實時多維畫像:當(dāng)hadoop集群節(jié)點數(shù)達(dá)到千臺左右時,集群業(yè)務(wù)對于yarn隊列資源使用達(dá)到百分之八十以上,且集群寫多讀少,很容易造成namenode-rpc等待隊列深度過大,造成namenode-rpc延遲,這將會嚴(yán)重影響集群整體業(yè)務(wù)的運(yùn)行。半小時能跑完的任務(wù),可能會跑數(shù)個小時。根本原因還是集群承載業(yè)務(wù)數(shù)量過多,并且業(yè)務(wù)邏輯設(shè)計不合理,造成yarn任務(wù)執(zhí)行過程頻繁操作hdfs文件系統(tǒng),產(chǎn)生了大量的rpc操作。更底層的,每個dn節(jié)點的磁盤負(fù)載也會過高,造成數(shù)據(jù)讀寫io超時。

通過提取namenode日志、hdfs審計日志,多維度分析,可通過hdfs目錄和hdfs操作類型兩個方面確認(rèn)rpc操作過多的業(yè)務(wù)。并且根據(jù)具體是哪種類型的操作過多,來分析業(yè)務(wù)邏輯是否合理來進(jìn)行業(yè)務(wù)優(yōu)化。例如有某大數(shù)據(jù)業(yè)務(wù)的邏輯是每秒往hdfs目錄寫入上千個文件,并且每秒遍歷下hdfs目錄。但觸發(fā)加工是十分鐘觸發(fā)一次,因此該業(yè)務(wù)產(chǎn)生了大量的rpc操作,嚴(yán)重影響到集群性能,后調(diào)優(yōu)至5分鐘遍歷次hdfs目錄,集群性能得到極大優(yōu)化。

(3) 日常生產(chǎn)監(jiān)控項

生產(chǎn)報表:由于聯(lián)通大數(shù)據(jù)平臺承載業(yè)務(wù)體量很大,通過后臺查詢繁瑣,而通過可視化展示能方便生產(chǎn)運(yùn)維人員快速了解日生產(chǎn)情況,定位生產(chǎn)延遲原因。

結(jié)語:關(guān)于平臺監(jiān)控的內(nèi)容在本文中就先介紹到這里,在下一篇中,筆者將針對平臺告警做出經(jīng)驗分享,介紹如何建立統(tǒng)一采集模板、告警各集群的全量監(jiān)控指標(biāo)、進(jìn)行分組告警并自動化恢復(fù)等內(nèi)容。

【本文是51CTO專欄機(jī)構(gòu)中國聯(lián)通大數(shù)據(jù)的原創(chuàng)文章,微信公眾號“中國聯(lián)通大數(shù)據(jù)( id: unibigdata)”】 

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2019-05-14 13:07:23

大數(shù)據(jù)平臺監(jiān)控集群

2023-10-10 07:43:15

2018-05-31 21:14:49

Amas大數(shù)據(jù)監(jiān)控平臺

2024-08-07 09:02:51

2015-04-16 10:24:44

大數(shù)據(jù)數(shù)據(jù)中心天璣科技

2024-04-30 09:35:05

自治組件運(yùn)維監(jiān)控

2019-08-15 10:33:23

大數(shù)據(jù)IT互聯(lián)網(wǎng)

2019-10-31 09:59:36

大數(shù)據(jù)Hadoop大數(shù)據(jù)集群

2018-12-19 09:38:20

2017-01-22 21:30:39

大數(shù)據(jù)Kaggle函數(shù)

2017-07-13 11:13:18

大數(shù)據(jù)數(shù)據(jù)存儲

2014-07-22 10:06:43

運(yùn)維監(jiān)控虛擬化

2011-08-11 14:04:17

大數(shù)據(jù)

2012-09-26 22:18:19

IBM大數(shù)據(jù)Hadoop

2022-03-22 08:41:13

阿里巴巴云原生大數(shù)據(jù)

2017-03-28 18:25:59

華為

2021-02-22 10:55:59

大數(shù)據(jù)大數(shù)據(jù)平臺數(shù)據(jù)平臺建設(shè)

2017-07-22 00:41:27

大數(shù)據(jù)數(shù)據(jù)存儲

2017-06-14 23:42:27

大數(shù)據(jù)數(shù)據(jù)源架構(gòu)

2017-07-21 14:22:17

大數(shù)據(jù)大數(shù)據(jù)平臺數(shù)據(jù)處理
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 99久久久久久 | 成年人视频免费在线观看 | 欧美a在线 | 久久精品国产免费高清 | 91久久综合亚洲鲁鲁五月天 | 亚洲综合在线网 | 国产视频中文字幕 | 特一级黄色毛片 | 视频一区在线观看 | 国产高清视频在线观看 | 天天爱天天操 | 四虎影视1304t | 国产黄色大片 | 一区二区高清 | 成人免费视频网站在线观看 | 免费午夜视频 | 瑟瑟激情 | 久久黄色网| 中文字幕国产第一页 | 久久精品欧美一区二区三区不卡 | 成人不卡 | 日韩欧美一级精品久久 | 国产成人精品高清久久 | 欧美精品一区二区在线观看 | 欧美国产免费 | 一区二区三区精品视频 | 日韩视频观看 | 日韩在线免费视频 | 免费的一级视频 | 亚洲精品国产一区 | 欧美在线一区二区视频 | 国产一二三区在线 | 911网站大全在线观看 | 欧美精品在欧美一区二区 | 欧美精品在线一区 | 蜜臀91视频 | 欧美日韩国产中文 | 91精品一区二区三区久久久久 | 日本在线黄色 | 欧美一级特黄aaa大片在线观看 | 国产在线一区二 |