成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

日志和告警數據挖掘經驗談

作者：劉建平 2017-01-20 09:43:12

項目的需求是收集的客戶系統一個月300G左右的的日志和告警數據做一個整理，主要是歸類(Grouping)和關聯(Correlation)，從而得到告警和日志的一些統計關系，這些統計結果可以給一線支持人員參考。

最近參與了了一個日志和告警的數據挖掘項目，里面用到的一些思路在這里和大家做一個分享。

項目的需求是收集的客戶系統一個月300G左右的的日志和告警數據做一個整理，主要是歸類(Grouping)和關聯(Correlation)，從而得到告警和日志的一些統計關系，這些統計結果可以給一線支持人員參考。

得到的數據主要分為兩部分，一部分是告警的歷史數據，這部分數據很少，只有50M左右，剩下的全部都是日志數據。日志數據大概有50多種不同類型，對應系統中不同的模塊。每種類型的文件每天產生一個日志文件，所以總數大概是1500個左右的日志文件。文件大概都是這樣的：A_2016-04-15.log, B_2016-04-15.log, …, A_2016-05-14.log, B_2016-05-14.log。每個文件在10M-1G之間不等。

1. 日志的模式挖掘

通過查看日志，發現所有的log每一行基本都是類似這樣的Pattern:

YYYY-MM-DD hh:mm:ss [模塊名] [具體日志]

每類日志的模塊名都是一樣的，基本可以忽略。有價值的就是時間戳和具體日志。

而且可以發現，很多日志只是極少部分動態內容不同，在代碼中屬于同一個位置的輸出，這些數據后面我們會分為一類數據。比如：

2016-04-26 00:30:38.795 55637 ResourceManager Free ram (MB): 244736

2016-04-26 00:34:38.795 55637 ResourceManager Free ram (MB): 244748

有某些類型日志每個時段都有出現，咨詢后得知基本沒有任何分析價值，這些日志后面我們會加入黑名單，不加分析。

2. 日志的歸類

由于每類日志都有30個文件，每個文件基本都有100萬行，我們的***步工作就是去除上面提到的無用日志。去掉無用日志后，我們要分析的日志大概減少了30%。

接著我們要做的就是每一行的日志進行歸類(Grouping)。這里有很多的方法可以選擇，比如K-means，但是我們這么多的日志，很難去定義一個合適的K。經過一番嘗試后我們放棄了K-means。但是K-means的思想還是可以用的。***我們使用的是啟發式的方法來歸類。

首先定下的基本思路是：對于每一類文件，我們分別做歸類，***再一起和告警文件做關聯(Crrelation)。我們作了不同類別文件的日志肯定不在一類的假定。

對于每一類文件的每一行日志，我們我們通過對具體日志的字符串的相似度進行歸類，算法如下：

1)初始化將最終類別數組設置為空，類別數組的每一行的格式是 [index] [類別里***次出現的具體日志內容] [該類日志出現的所有時間形成的數組]

2)初始化字符串相似度閾值，相似度超過閾值的字符串即為一類。項目里面我們相似度閾值取80%。

3)初始化歸類的時間間隔，在一個時間間隔內的相似日志僅僅記錄一次時間。也就是說如果某類日志已經有這段時間的記錄，再次在這段時間出現的類似日志將會被忽略。取的過大，后面關聯時精確度降低，取的過小，后面關聯時計算量會很大。項目里我們取10分鐘作為日志間隔。也就是一天劃分成了24*6個時間間隔。

4)對于某一種類別，對于每一行的具體日志我們去和該類別的最終類別數組的每一行的具體日志做相似度比較：

a) 如果和最終類別里的某行具體日志的字符串的相似度超過了閾值，則這兩個字符串即歸為一類，僅僅把這個要分析的具體日志的時間點存入該類別，停止該行日志的分析。

b) 如果和最終類別里的任何一行具體日志的字符串的相似度都低于閾值。則我們發現了一個新的類別。在最終類別里加入一行記錄。并把該日志的時間間隔對應的點作為該類別的時間數組的***條時間記錄。

5) 對于所有其他的類別，分別執行上面的第4步。得到所有類別的最終類別數組。最終我們的50多個類別數組一共只剩下100多M，每個數組平均有100多種類別。

這個算法產生的類別數組中每一行是這樣的內容：

ResourceManager Free ram (MB): 244736 [[2016-04-26 00:30],[2016-04-26 10:40], …]

上面的算法中，我們用到了字符串相似度算法。這里我們用到是python的字符串下相似度算法庫：python-Levenshtein。計算相似度我們用了python-Levenshtein庫的ratio函數，即萊文斯坦比。如果大家對python-Levenshtein的字符串相似度計算有興趣，可以參考python-Levenshtein的官方文檔：https://pypi.python.org/pypi/python-Levenshtein/0.12.0#id1

3. 日志和告警的關聯

現在我們有了50多種日志的類別數據，每個類別也有在時間分布上的數據，同時，回到告警，每個告警也有在時間分布上的數據?，F在我們可以在時間維度上做關聯算法。

我們的日志類別數組和告警在時間維度一共有30*24*6=4320個點。我們的目標是找到和每個告警在時間維度上關聯度比較高的一組日志。這里我們采用的是基于余弦相似度的算法。我們選擇了所有的和告警在時間維度上相似度超過80%的日志類別。這些類別作為最終的統計結果作為我們輸出的一部分。

4. 告警和告警的關聯

這部分工作主要是研究告警和告警之間的統計關系。主要是基于統計的在時間維度上的父子關系。

由于告警數據較少，我們將時間間隔精確到1分鐘。對于每一種告警，我們檢查在該告警和其他告警在時間維度上的關系。我們檢查3種情況。

***種情況是在相同時間間隔出現的兄弟告警和該告警的統計關系，我們選擇在時間維度上和該告警相似度超過80%的所有告警，這些告警和該告警有時間上同步的關系，也就是這些告警統計上總是和該告警同時出現。

第二種情況是在該告警出現前一分鐘內的所有父親告警和該告警的關系，我們選擇在時間維度上和該告警相似度超過80%的所有告警，這些告警和該告警有時間上先后的關系，也就是這些告警統計上總是在該告警之前出現。

第三種情況是在該告警出現后一分鐘內的所有兒子告警和該告警的關系，我們選擇在時間維度上和該告警相似度超過80%的所有告警，這些告警和該告警有時間上先后的關系，也就是這些告警統計上總是在該告警之后出現。

以上就是對日志和告警數據挖掘的項目經驗總結，希望對大家有所啟發。

作者：劉建平Pinard(十年碼農，對數學統計學，數據挖掘，機器學習，大數據平臺，大數據平臺應用開發，大數據可視化感興趣。

責任編輯：武曉燕來源： 36大數據

日志告警挖掘

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板： а_天堂中文最新版地址 | 国产高清在线精品一区二区三区 | 久久精品久久久久久 | 在线观看a视频 | 久久精品色欧美aⅴ一区二区 | 一区二区三区电影在线观看 | 国产精品一区二区视频 | 日本在线精品视频 | 久久成人av电影 | 在线观看中文字幕视频 | 日韩视频中文字幕 | 日韩精品专区在线影院重磅 | 精品久久久久久久久久 | 久久精品亚洲国产 | 日本电影网站 | 91麻豆精品国产91久久久久久 | 自拍偷拍第一页 | 久久99国产精一区二区三区 | 超碰av免费| 国产在线视频一区二区 | 国产欧美一区二区三区在线看 | 精品国产乱码久久久久久蜜臀 | 国产乱码高清区二区三区在线 | 99精品欧美一区二区三区 | 国产乱性 | 国产精品18hdxxxⅹ在线 | 国产一二三视频在线观看 | 亚洲精品欧美 | 成人黄色在线视频 | 韩日在线观看视频 | 欧美综合国产精品久久丁香 | 超级乱淫av片免费播放 | 东方伊人免费在线观看 | 久久一二区 | 奇米四色影视 | 日韩欧美在线视频 | 蜜桃黄网| 国产人成精品一区二区三 | 成人亚洲视频 | 久草视频在线播放 | 久久精品国产免费看久久精品 |