成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

服務器“異常”的幾個可能性預警

運維 服務器運維
提到服務器宕機檢測,大家會想到,宕機能夠很快知道,這個有什么可做的?實際上,很多時候服務器宕機,并不總是被及時感知。服務器宕機,ping或者ssh這是最簡單的做法,但真正的工程實踐,沒這么簡單。

 提到服務器宕機檢測,大家會想到,宕機能夠很快知道,這個有什么可做的?實際上,很多時候服務器宕機,并不總是被及時感知。服務器宕機,ping或者ssh這是最簡單的做法,但真正的工程實踐,沒這么簡單。

想要獲知服務器宕機怎么辦?可以通過服務器宕機實時檢測:

 

1)發現宕機。

2)提前告警。

3)告知宕機的詳細原因,如硬件故障,內核bug,網絡異常等等。

4)自動報修生成工單。

[[250475]]

 

我們知道,進行全網物理機宕機準確探測與實時發現,可以給宕機分析提供***現場,獲取***現場的日志。也可以盡早將宕機數據推送給業務或運營感知并處理,如自動報修,業務遷移等,從而盡可能將業務影響降到***。

更重要的是,準確的宕機發現數據可以為宕機預測提供準確的標注數據,為后期宕機預測提供數據基礎,并且這些數據提供給運營部門進行整體分析,提升處理效率。

那么,如何可以準確發現宕機,減少誤報呢?我們可以有以下操作,比如:

心跳源檢測異常

顧名思義,通過心跳源,初步發現異常。通常心跳變化會有三類消息,update消息,delete消息和insert消息。心跳邏輯在于,正常情況下SA服務端與NC建立長連接,每數秒緩存一次心跳,每幾分鐘打包上報一次,但當NC異常時,長連接感知后,立即上報異常,并修改路由表。所以心跳異常做到秒級感知。

update消息,在有心跳發生變化情況下都會有,心跳異常和心跳恢復正常時都會發起,是主要的心跳來源。

delete消息,在心跳異常,并且SA判斷ping不通,且ssh不通情況下發起,刪除該條消息,避免延遲太長。

insert消息,在新增加機器, 或者重裝后重新上位的機器發起,該消息對宕機發現價值不大,配合uptime使用。

心跳源檢測任務邏輯,主要是監聽并緩存uptime消息,同時避免時間窗內多次消息沖突,導致信息被覆蓋。

 

異常排除

排除非物理機器,將系統中暫時不關注的VM等產生的異常信息排除掉。

排除非業務狀態的機器,如裝機狀態中的,包括生產中,維修中,遷移中,重裝中,銷毀中,重啟中,無管控狀態,只監控正常狀態的機器。

排除非正在工作的機器,如非working狀態機器。

網絡干擾排除

宕機分析中,較多誤報是由于網絡問題干擾,無法準確判斷出物理機是否宕機,有可能是網絡問題。

排除上聯網絡設備異常導致的誤報,包括機房斷網演練,小面積網絡故障,上聯網絡故障,如通過探測丟包情況,使用一些邏輯初步判斷網絡問題。

服務器本身未丟包的誤報,除了需要過濾出網絡問題,還要通過丟包數據分析,過濾掉SA誤報問題, SA異常會上報心跳異常,被誤理解為宕機。

icmp及tcp丟包分析,icmp采集頻率為固定數秒,tcp采集頻率固定數秒,包括多個不同大小包(16,32,64,128,256等)的丟包情況,根據分析時間窗內兩項數據的丟包情況

特殊情況干擾排除

個別機房有時候會出現大面積風暴式的無故心跳異常,同時網絡ping包異常,但上聯網絡設備ping包正常,這種誤報,一般根據具體case具體進行針對性的分析。如根據監控每個機房的上報頻率,排除干擾。

進一步識別誤報

至此,大部分干擾已經過濾掉,但仍有一部分誤報隱藏其中。比如心跳異常,ping異常,都合乎宕機判斷的邏輯,會導致誤判成宕機,如導致網卡被打爆,或者重試率高,這種是業務原因導致網絡異常,但業務認為不是異常,需要排除掉。再例如服務器并沒有掛掉,但是IO延時和資源占用率各項指標都不正常等場景。針對以上等情況,增加uptime判斷以及帶外日志分析排查。

宕機時間點探測uptime確定是否發生重啟。

進一步通過分析日志是否連續,判斷是否發生重啟。

日志重啟特征值匹配,確認是否發生重啟。

如果還不能確定,使用uptime的時間窗技術進行重啟。

仍不能確定的待處理,進入長尾處理名單。

長尾再次處理

未確認的待處理的,會加入到長尾列表中,像這種分鐘級的心跳異常,ping異常,但串口日志一直正常輸出的情況,一般就是某種死機,死到連網絡都不通的場景。會觀察一段時間,一個固定時間窗內仍未恢復或重啟的話,就暫時報宕機。后期會把這種死機單獨找劃分歸類。

講了這么多,到底效果怎么樣?

我們從準確率和覆蓋率來看:

準確率:目前發現的宕機中有很高準確度,可以區分出真正宕機或者未宕機。而判斷為宕機的數據中,也存在少量的,由于缺少相關信息導致誤報,該部分將進一步優化,逐漸降低誤報,在新的措施之后,該比例會接近0。

覆蓋率:當前統計的覆蓋率已經能很好的支撐日常宕機處理,該數據在有足夠的特征后,會進一步提升。

目前,宕機感知是宕機分析的基礎,通過服務器宕機實時檢測,會把相應的宕機原因分布整理出來,明確具體的原因,達成服務器***可靠性。

責任編輯:武曉燕 來源: 騰正科技
相關推薦

2019-01-02 12:49:08

服務器預警宕機

2009-06-27 18:27:00

2018-07-06 13:57:19

PC服務器CPU

2011-04-20 10:07:15

2022-12-30 07:40:12

DeepKitTypeScript靜態類型

2011-04-18 13:43:42

2023-10-27 14:25:26

組件庫無限可能性

2012-06-04 13:28:51

AndroidChrome OS

2021-02-20 12:04:51

比特幣區塊鏈美元

2018-03-02 11:38:11

2009-01-14 10:50:40

Sky寬帶轉網

2019-04-22 08:57:46

硅谷996ICU

2020-08-11 09:38:40

微信蘋果美國

2011-04-18 13:47:59

ECC私鑰

2019-04-15 10:30:38

程序員技能開發者

2020-05-15 13:42:03

物聯網人工智能軍事物聯網

2013-03-19 11:13:14

Google廣告SXSW

2017-07-21 16:40:29

網易云場景專屬云

2016-09-21 09:16:55

Qlik

2020-07-24 10:14:17

網絡安全黑客技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产日本精品视频 | 亚洲欧洲在线视频 | 中文字幕韩在线第一页 | 亚洲精品永久免费 | 日本精品一区二区三区视频 | 超碰在线播 | 成人在线国产 | 日本成人三级电影 | 亚洲网在线| 欧洲av在线 | 欧美激情一区二区三级高清视频 | 亚洲免费观看 | 91不卡 | 午夜视频免费在线观看 | 久久久一区二区三区 | 在线色网 | 成人免费视频观看视频 | 精品一区二区免费视频 | 国产精品免费一区二区三区四区 | 91免费视频观看 | 午夜影院在线视频 | 黄色av网站在线免费观看 | 久久久久亚洲精品 | 午夜视频在线免费观看 | 夜夜爽99久久国产综合精品女不卡 | 国产69精品久久久久777 | 91爱爱·com| 青青久久| 亚洲综合国产 | 久久综合一区二区 | 欧美一级免费 | 国产精品69毛片高清亚洲 | 一区精品在线观看 | 欧美精品在线播放 | 亚洲国产精品一区二区久久 | 天天玩天天干天天操 | 久热久热| 午夜视频在线播放 | 国产精品美女一区二区三区 | 天堂久| 精品视频在线观看 |