Verizon如何利用R語言分析數據泄露事故
譯文【51CTO.com 快譯】下圖為攻擊者侵入系統(tǒng)到企業(yè)實際發(fā)現數據泄露狀況之間的間隔時長,數據圖形由R軟件包ggplot2生成。
資深科學家Bob Rudis將《Verizon數據泄露報告》稱為“寫給R語言的情書”。
對20萬條記錄進行分析似乎還不算是什么了不得的大工程,但如果記錄所包含的是安全事件,那么每一條都可能包含有數以百計的屬性,而每條屬性——包括不良行為者、資產影響以及組織類型等等——都會讓工作變得更加復雜,特別是對于單純的Excel電子表格而言。因此,在本次的Verizon年度安全報告當中,電信巨頭首先決定采取由R語言生成的“全面”統(tǒng)計圖表來取代原本的Excel表格。
事實上,《Verizon數據泄露報告》在一定程度上可以算是“寫給R語言的情書”,Verizon公司企業(yè)解決方案資深數據科學家兼常務主管Bob Rudis在日前于波士頓召開的EARL(即R語言有效應用)大會上指出。
R語言“在使用過程中確實樂趣滿滿,”他指出。
作為轉換過程中的重要問題之一,由電子表格向R的變更將帶來相當復雜的數據格式轉變。Verizon公司的研究人員利用嵌套JSON的方式從各組織機構獲取安全事件數據,這意味著各匿名數據類別之內還存在大量子類。很明顯,以Excel方式對其進行導入以及分析幾乎是件不可能完成的任務。
而使用R語言還將帶來其它一些助益,Rudis表示。由于R語言的ggplot2軟件包能夠生成極為精細且可達出版質量水平的圖像,Verizon公司得以擺脫對外部圖形設計企業(yè)的依賴,從而節(jié)約下15000美元到20000美元支出。與此前方式相比,利用R語言創(chuàng)建而成的圖像只會帶來惟一一種區(qū)別——即對字體進行重新整理。“R語言在處理字體方面確實比較捉急,”Rudis坦言。
不過R語言在建模、聚類以及其它統(tǒng)計分析工作當中擁有著大量出色的工具,能夠幫助Verizon公司在單純的計數之外實現更多復雜的功能——例如根據不同組織機構類型檢測攻擊者的可能活動。即使是在金融服務范疇之內,他指出安全威脅的類型也會有所區(qū)別,例如銀行業(yè)與金融業(yè)之間也存在明顯差異。
該報告小組還利用R語言創(chuàng)建出各類具備交互性的可視化成果,例如查看哪些其它行業(yè)中存在類似的威脅狀況。
Verizon公司使用的安全數據格式為開源的VERIS,即事件記錄與事故共享詞表(Vocabulary for Event Recording and Incident Sharing)。對于那些希望對已公開安全泄露數據進行分析的用戶,VERIS Community Database能夠幫大家滿足需求,而名為verisr的R軟件包能夠輕松處理這類數據。Rudis與Jay Jacobs還聯名撰寫了一部論著,《數據驅動型安全》,其中詳盡描述了如何使用VERIS模式及R語言記錄并分析安全事故。
Verizon公司在報告當中分析的數據總量遠多于目前公開數據庫當中的可用數量,其中甚至包括一部分來自美國特勤局以及FBI等機構的數據,Rudis指出。
而在利用R語言進行數據分析的過程當中,Rudis總結出了以下經驗:
·使用R Markdown將解釋文本與分析及圖像關聯起來。R Markdown“能夠讓文件記錄、迭代、修改以及共享分析結果等工作變得超乎想象的簡單,”Rudis強調稱。
·“將一切整理進軟件包當中,”甚至包括不打算與外部人士共享的內部分析代碼。這能夠顯著降低文件記錄功能的實現難度,允許他人更輕松地檢查我們的分析結果。
·Version公司利用git等機制進行版本控制,將其作為“一切的實現基礎。”
該項目當中還提供其它一系列開源工具,包括利用GitLab進行內部協(xié)作開發(fā)、利用Slack進行協(xié)作; Rudis還特地編寫了一款名為slackr的R軟件包,旨在降低由R直接向Slack發(fā)送分析結果的難度。
其它相關工具:SurveyGizmo與Room.co實現安全視頻聊天; 之所以沒有選擇谷歌Hangouts,是因為谷歌方面會記錄這些會話內容,他解釋道。而GPG Suite則負責進行通信內容加密,RStudio用于同R語言環(huán)境對接。
Rudis在EARL波士頓大會上的演示材料已經公開,感興趣的朋友可以點擊此處查看。
原文標題:How Verizon analyzes security-breach data with R
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】