不可不知!如何利用機器學習來打擊AI下的網絡犯罪
譯文【51CTO.com快譯】在如今的互聯網時代,網絡安全已經給不同領域帶來了一系列巨大的問題和不同程度的挑戰。早在2004年,網絡安全的全球市場價值僅為35億美元;而預計到2017年底,網絡安全的全球市場價值會飆升到1200億。
數據安全曾是、也將持續成為不同組織中不斷改進的重要領域。就像貓與老鼠的游戲,黑客總是致力于尋找新的方法去闖入安全系統;而同樣地,安全系統會通過持續的自身升級來應對各種不同的攻擊策略和工具。
大數據
隨著人工智能的出現,許多工作崗位正在慢慢地被計算機或機器人所替代。這里并非指的是那些普通桌面上的防病毒軟件,而是請想象一個場景:如果你擁有一個具有上千名員工的大型組織。該組織內部的所有電腦都會產生PB級別的日志,它們被存儲在數據庫中,用來記錄各種日常活動,并且隨后用來進行單獨的和關聯性的威脅分析。這些海量的結果就導致了我們稱之為“大數據”的產生。
2012年,Gartner公司將大數據定義為:“需要新的處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。”如今,Gartner的這個3V定義仍然被廣泛使用著,而且大家一致認為“這些具有海量、高增長率和多樣化特征的信息資產,需要通過特定的技術和分析方法來轉化為價值。”
機器學習
有了上述關于大數據的概念定義,擺在我們面前的下一步就是對它進行分析了。你可以采取不同類型分析的方式,讓計算機能夠針對某些特定目的接受訓練。此類訓練的過程就稱為“機器學習”,它是由模式識別和有關計算學習理論的人工智能發展而來。
機器學習通過對算法結構的探索和研究,從而達到對數據進行預測。機器學習運用設計好的和預編程的算法來高效地完成一整套的計算任務。其中最常見的應用包括:郵件過濾、網絡入侵檢測、內部惡意人員涉及的數據泄漏行為、光學字符識別(OCR)、排序學習(learning to rank)和計算機視覺技術(computer vision)。
如今在許多情況下,組織的規模越是龐大,其網絡安全的任務就越是艱巨。這也就是為什么多數大型機構都擁有自己的網絡安全部門的原因。下面讓我們來看看一些有關規模和威脅類型的統計吧。
惡意軟件
惡意軟件歸類為:被專門設計用于中斷、損壞、或獲取計算機系統正常訪問權限的軟件。僅在2016年第三季度,某安全公司就捕獲到了1800萬個新生惡意軟件樣本,平均每天20萬個。惡意軟件不但在速度上持續增加,還在繞過反病毒保護的水平上不斷進化著。這些都是你的公司、IT團隊以及供應商所無法企及的。
勒索軟件
顧名思義,此類軟件就是通過鎖定系統的屏幕或是用戶的文件,以阻止或限制用戶訪問系統,直到他們支付贖金。自2016年以來,每天都有4000起勒索軟件的攻擊。相對于2015年的每天1000起來說,該數字增加了300%。
計算機病毒統計
威脅類型
泄漏類型
泄漏通道
安全信息和事件管理
既然我們已經認識到:各個大型組織的網絡安全部門每天都需要面對來自各類惡意軟件的數十億次攻擊,那么我們在安全配置方面不僅要提高在遭遇威脅時能及時警報的能力,而且還要能夠識別與分類各種威脅,從而讓用戶充分了解他們所處的狀況。
因此,我們的安全系統不能止步不前,而應該通過關聯各類事件通知,以形成一條偵探式線索,從而引導用戶,并向他們展示在其所處的動態系統中,各種發生情況的“清晰圖像”。我們把實現此類目的的軟件歸類為SIEM(安全信息與事件管理)、SEM(安全事件管理)或SIM(安全信息管理)。
當然這些術語經常會被交替使用,用來在不同場景中指代這類軟件。為了實現它們的高度可定制化和可訓練化,下面讓我們來看看機器學習是如何被運用到其中,進而打擊網絡犯罪的。注意,這些智能軟件會用到深度學習(deep learning)之類的技術,我們會在下一節討論到。
威脅智能感知系統
深度學習和人工神經網絡(ANN)
通常說來,單獨的惡意軟件是“創建容易,檢查難”。系統一旦能夠對它予以識別,就能“學會”如何下次對它進行響應。但是,如果在原來惡意軟件的基礎上稍作修改,那么系統很可能就無法識別了。
而實際上,成百上千種新生的惡意軟件就是在單一的原始軟件的基礎上重建而來。因此在這種情況下,我們需要用一個不同的策略,來有效地創建一個安全區域。在那里,人工神經網絡通過參考各種案例來學會(逐步地提高性能)完成各項任務,而且一般不需增加針對特殊任務的編程。
例如,在圖像識別的時候,它們通過已經手動標記為“是貓”或“不是貓”的多個例圖,來學會分析和識別含有貓的其他圖像。他們同時也發現大多數應用程序都難以使用基于規則編程的傳統計算機算法來準確表示。
而在網絡安全領域,我們可以根據系統已經能夠識別出的、通用惡意軟件類型的相似度水平來將各種軟件判定為是否是惡意軟件。當然,在人工神經網絡尚未完成“培訓”的情況下,是不可能一蹴而就的,而且深度學習本身就是一個相當耗時的過程。
人工神經網絡(ANN)源自生物神經網絡的啟發,它是通過對所謂人工神經元(類似于生物大腦中的軸突)的已連接單元的集合來實現的。神經元之間的每個連接(突觸)能夠發送信號到另一個神經元處。接收端的(突觸后的)神經元處理該信號,然后將其連接發送到它的下游神經元。
神經元通常可以用介于0和1之間的實數來表示其狀態。隨著學習的深入,神經元和突觸的權重也會發生變化,而這正好可以體現它發往下游信號時的強度增減變化。另外,它們可以具有一個閾值,僅當聚合的信號低于(或高于)該值的時候,下行信號才會被發送。
通常情況下,神經元具有多層結構。不同的層面可以根據其不同的輸入,執行不同類型的轉換。信號從第一(輸入)層開始,可能經過多次、多層穿越之后,來到最后(輸出)一層。
單層的前饋人工神經網絡,如下圖所示:
單層前饋
而雙層前饋人工神經網絡,則如下圖所示:
雙層前饋
因此,我們必須將所有可獲取的、有關惡意軟件的信息提供給SIEM軟件,讓它能夠同時識別出所有不同類型的惡意軟件的存在,并且根據既定的智能標準來將各種達到一定程度的惡意軟件進行分類。從而將整個學習過程提高到只需半人工監督、甚至是無需人工監督的先進程度。
用戶行為分析
通過上述分析,我們已經了解到SIEM是如何從外部進行檢測和保護的。但是在安全領域,我們還有另一個需要考慮的方面,那就是內部威脅。
現在我們來考慮一個例子:假設任何一名員工在使用VPN完成某項任務的時候,成為了網絡釣魚攻擊的受害者,他的用戶名和密碼信息被盜取,系統正面臨著數據泄露的攻擊。那么對于SIM而言,只要當它查看到這些異常的個人行為、或是一系列活動,就應該能夠將它們聯系起來,進而指向并匹配那些不正常的、或是危險的數據泄漏與跨界轉移的案例。
SIM必須帶有一個已經足夠先進的系統,能夠理解并分析用戶以及環境中的各種行為,通過關聯不同的活動,以產生所謂的“攻擊鏈”。這里的攻擊鏈是指對整體事件“鏈條”的識別,它包括:誰、是什么、何處、何時、為什么、如何等關于當前事件的具體細節,并最終給出整個事件當前狀態的清晰視圖。
這些能夠有助于讓用戶獲知到諸如:發生了什么、什么已被確認了等方面的信息。系統所提供的這些信息是頗具價值的。它們能夠幫助用戶進一步反饋給人工智能諸如:時間線和影響程度,并最終讓系統能夠從數以百萬計的普通事件中進行相應的分類,標注出上千條“異常事件”,然后判定出其中的幾條為真正的“攻擊事件”,進而提供出所有被ANN所確認的、包含關系圖的“攻擊鏈”。
結論
人工智能技術的各種優勢可以被運用到當前的網絡安全基礎設施之中。當然在不久的將來,隨著人工智能(AI)系統變得更為強大,我們也會看到有更多自動化的和日趨復雜的社會工程攻擊的出現。各類具有AI的網絡攻擊勢必會導致網絡滲透和個人數據失竊的爆炸式增長,以及計算機病毒的智能蔓延。
頗具諷刺的是:我們還在希望運用AI來抵御具有AI的各類攻擊。正所謂:道高一尺,魔高一丈,這樣發展下去就很可能會導致AI式的“軍備競賽”,其后果只會變得越來越復雜。
原標題:Machine Learning enabled attacks,作者:Saman Abbad
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】