新興的AI和機器學習網絡安全領域要考慮的三個方面
譯文【51CTO.com快譯】網絡威脅的復雜性和數量都與時俱進。然而,傳統的威脅檢測方法不足以確保提供保護。相應地,機器學習已被證明在識別和抵御網絡攻擊方面非常有效。
機器學習的能力歸功于這三個因素:數據、算力和算法。由于性質使然,網絡領域生成大量數據。
比如說,公司網絡可能每天在端點設備上看到數十億個IP數據包、數百萬個DNS查詢、解析的URL和執行的文件,以及數億事件(進程、連接和I/O)。提取、清理和處理這些數據需要龐大的算力,幸好可通過各種基于云的平臺輕松、靈活、低成本地獲得這種算力。同樣,可以使用功能越來越強大的開源機器學習網絡安全算法來抽取復雜的底層數學,以便開發、調整和訓練復雜模型。這些因素共同為網絡安全供應商提供了過去無法想象的功能。
通常,網絡安全供應商使用實時客戶數據、為吸引攻擊者而設計的“蜜罐”以及通過在網絡社區內共享數據來訓練機器學習模型。
這可以更全面地了解威脅狀況,比如創建模型特征,可能包括文件在整個客戶群中的新鮮度、流行度和使用頻率。供應商還使用大量已知類型的惡意軟件和合法文件來訓練其模型。訓練包括確定文件是不是惡意文件,還常常嘗試對惡意軟件的類型進行分類,這對于確定如何修復或刪除惡意軟件至關重要。
機器學習的應用范圍很廣,包括反惡意軟件、僵尸程序檢測、反欺詐和隱私保護。令人關注的是,網絡安全界使用機器學習存在多個新興挑戰,這使其成為大有潛力的領域。
對抗性AI和機器學習的角色
機器學習因可以訪問龐大數據集、快速降低大規模計算的成本以及強大算法的開源可用性而大眾化,已證明大大地推動了網絡安全行業,機器學習也成為了網絡對手新增的一個重要工具。
比如說,生成式對抗模型用來開發策略,以減小攻擊被網絡安全工具識別的風險?;跈C器學習的行為異常檢測系統可學習正常行為,以快速識別異常和可能惡意的活動,但是對手也在開發惡意軟件,這種惡意軟件可學習正常的用戶和系統行為以模仿正常行為,并盡量減小被檢測的風險。
機器學習網絡安全系統的有效性可能受到用于訓練模型的數據的清潔度的嚴重影響。為此對手可能借助“毒害”攻擊,企圖注入壞的訓練數據以影響模型錯誤學習。這種攻擊呈現多種形式,從生成虛假流量模式到毒害商業或開源惡意軟件樣本數據集,不一而足。
對手已經能夠利用旨在防止誤報的機器學習模型來避免被檢測。比如說,攻擊者明白通過將特定的模式嵌入到惡意軟件中,也可以誘騙流行的反惡意軟件產品將代碼列入白名單(將代碼標記為合法),即便是惡意軟件。
使用機器學習建模人類交流模式以開發更逼真、更有效的網絡釣魚攻擊,這是另一個值得關注的對抗例子。自然語言處理和自然語言生成方面的最新技術(比如Open AI的GPT-3)意味著,很快極難區別真實通信與合成通信。
機器學習和深度強化學習
常規機器學習技術用于網絡安全已大獲成功,尤其是在檢測未知攻擊(又叫零日攻擊)方面。這些技術在靜態線性環境下表現出色。相反,如今復雜的攻擊場景是動態的、多途徑、非線性的。僅依靠機器學習網絡安全系統來被動地識別某個攻擊環節已遠遠不夠。
深度強化學習是機器學習領域最令人興奮的主題之一,因為它結合了深度學習技術(比如卷積神經網絡)和強化學習。這是DeepMind的AlphaZero取得突破背后的核心方法。將深度強化學習應用于網絡安全是應對復雜威脅的關鍵一步。
深度強化學習系統的學習有點像人類。它們探索其環境(在網絡安全領域指事件空間),根據它們采取的行動獲得反饋和獎勵,從而不斷學習。事實證明,這種自主方法非常適合復雜的對抗場景,有出色的有效性、通用性和適應性。
機器學習網絡安全和物聯網
每年數百億個新的聯網設備上線,未來會有更多。然而,許多這類物聯網設備的計算或存儲容量有限,無法運行端點網絡安全軟件,基于專有固件而建。這些設備還往往“無外設”,用戶訪問或更新設備上運行的軟件的能力有限。由于這些原因,物聯網設備顯然很容易遭到網絡攻擊。
解決該問題的合理方法是在網絡層面及/或在云端運行物聯網網絡安全技術。然而,傳統的基于特征的網絡安全技術并非旨在解決物聯網設備安全問題。此外,目前大多數物聯網網絡安全產品只是重新包裝的IDS、URL聲譽或加固版DNS服務而已。不過,將機器學習應用于該領域方面出現了前沿工作。已設計出了高級模型,只需檢查少量數據包就能識別被感染的設備,從而能夠主動檢測和阻止威脅。
最重要的創新常常出現在周邊學科領域的交匯處。眼下在機器學習領域和網絡安全領域都是令人興奮的時期。我們看到機器學習的強大功能被用來推動網絡領域的重要創新,這些創新最終將幫助我們所有人更安全。
原文標題:Three Things to Consider in the Emerging AI and ML Cybersecurity Landscape
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】