機器學習促進大數據分析走向繁榮
譯文【51CTO獨家特稿】機器生成的日志數據可以說是大數據宇宙當中的暗物質。它由分布式信息技術生態(tài)系統(tǒng)當中的每一層、每個節(jié)點乃至每種組件所產生,其范疇從智能手機到物聯網終端可謂無所不包。它無窮無盡、無處不在,我們能夠對其進行收集、處理、分析以及使用,但整個過程大多在幕后進行。
日志數據往往充當著眾多枯燥企業(yè)應用程序的基礎,其中包括故障排查、調試、監(jiān)測、安全、反欺詐、合規(guī)性以及電子取證等等。不過在分析點擊流、地理位置、社交媒體以及其它與各類消費者核心類用戶密切相關的行為記錄數據當中,它同樣能夠成為一種強大的指導性工具。
僅憑人類的能力根本無法跟上機器記錄數據的產生速度。絕大部分這類數據在設計思路或者實際使用上都完全不會考慮人為分析的可能性。除非以粗暴的方式進行直接過濾,否則日志數據那極端的體積、可怕的積累速度以及豐富的具體類別將迅速擊潰人類的認知能力。Accenture公司在最近的一篇文章中對此作出了簡潔的解釋:
隨著日志文件在體積與種類方面的不斷攀升,日志管理方案解析日志文件、追蹤潛在問題乃至切實發(fā)現錯誤的難度也在隨之提升——特別是交叉日志間存在關聯性時,這種情況就變得更為突出。即使在最理想的狀況下,也需要由經驗豐富的管理員來捋順事件鏈、過濾干擾信息并最終診斷出根本原因——這實在是個相當復雜的過程。
很明顯,自動化已經成為在日志數據當中找到分析結論的關鍵所在,這一點在大數據領域體現得尤為突出。自動化機制能夠確保數據收集、分析處理以及規(guī)則與事件驅動響應能夠切實與數據中的信息相匹配,并在數據流的傳輸過程中完成任務執(zhí)行。而要實現日志分析機制的自動化擴展,關鍵因素則包括機器數據集成中間件、業(yè)務規(guī)則管理系統(tǒng)、語義分析、流計算平臺以及機器學習算法。
在以上因素當中,機器學習是自動化流程以及日志數據規(guī)?;治龅闹刂兄?/strong>。不過機器學習對于日志數據分析工作而言并不是一套能夠以不變應萬變的固定解決方案。不同的機器學習技術適合不同類型的日志數據以及不同的分析挑戰(zhàn)。利用相關性與其它現有模式為機器學習機制構建先驗性監(jiān)督方案才是正確的處理方式。不過監(jiān)督性學習人為為其編寫一套源自日志參考性“培訓數據”集,只有這樣才能準確定義機器學習算法的辨別能力、從而選擇與實際最為相符的處理能力。
不過如果日志數據模式無法以預告方式作出精確定義,那么非監(jiān)督性強化學習機制可能更為適合。這些由機器學習技術支持的日志數據分析方案可謂自動化處理的最理想場景,因為此類方案會自主選擇匹配程度較高的處理模式并進行優(yōu)先級排序,從而在無法人為提供培訓數據集的前提下完成既定任務。
多日志關聯性屬于非監(jiān)督性強化學習方案所針對的核心日志數據分析用例。由于異構式日志數據集在結合過程中會衍生出更高程度的異構性、復雜性以及不可預測性,分析過程當中數據變量以及數據關系將始終混亂而模糊。有鑒于此,如果我們僅僅利用簡單的查詢、預先設定好的報告與儀表板乃至其它標準化分析機制對其進行查看,隱藏在數據中的信息模式根本不會現身。在這類情況下,機器學習能夠利用各類定量方法——例如聚類、馬爾科夫模型以及自組織映射等等——提取出最值得注意的關系模式。
無監(jiān)督性強化學習機制的另一大關鍵性使用場景在于確定某種特定關系模式此前從未出現過——或者確實曾經出現,但卻被人為分析方案標記為“干擾因素”。有作者曾撰文探討過將機器學習機制應用在安全日志分析當中,從而“立即為用戶提供一種典型的訪問模式——即使這種特定方式模式此前從未出現過——并防止個人信息丟失所引發(fā)的高風險。”
大多數藏身于海量日志數據中的分析結論都擁有幾大共同特征:復雜、隱蔽而且此前從未出現過。相較于先驗性知識,從日志數據本身著手進行學習已經成為眾多數據科學家們投入大量時間與精力的研發(fā)重點。他們正不斷對自己的機器學習算法作出調整,希望能夠從日志中找到就連最出色的人類專家也往往會忽視的重要“信號”。
原文鏈接:
http://www.infoworld.com/d/big-data/big-data-log-analysis-thrives-machine-learning-244329
核子可樂譯