機器學習用于安全是美麗的謊言?
譯文譯者 | 布加迪
審校 | 孫淑娟
機器學習(ML)并不是神奇的技術。通常來說,ML適合在擁有龐大數據集的情況下解決范圍狹窄的問題,受關注的模式具有高度可重復性或可預測性。大多數安全問題不需要ML,也并不得益于ML。包括谷歌人員在內的許多專家建議,在解決復雜問題時,應該在用盡所有其他方法后再試用ML。
ML結合一系列廣泛的統計技術:即使我們沒有提前為正確答案編好程,ML也讓我們可以訓練計算機來估計解決問題的答案。如果精心設計的ML系統用來處理合適類型的問題,可以發掘原本無法獲得的洞察力。
每家組織的IT環境有不一樣的用途、架構、優先級和風險承受力。不可能創建在所有場景下廣泛支持安全用例的算法、ML或其他產品。這就是為什么ML在安全領域的大多數成功應用結合了多種方法來解決一個非常具體的問題。典型例子包括垃圾郵件過濾器、DDoS或僵尸程序(bot)緩解以及惡意軟件檢測。
1.垃圾進垃圾出
ML的最大挑戰是擁有相關的可用數據來解決實際問題。對于監督式ML而言,您需要一個正確標記的大型數據集。比如說,要構建一個識別貓照片的模型,需要拿許多標記為“貓”的貓照片和許多標記為“非貓”的非貓照片來訓練模型。如果您沒有足夠的照片或者它們的標記不準確,模型的效果就不會很好。
在安全方面,一個著名的監督式ML用例是無特征惡意軟件檢測。許多端點保護平臺 (EPP)供應商使用ML來標記大量惡意樣本和良性樣本來訓練模型,知道“惡意軟件是什么樣子”。這些模型可以正確識別規避性變異惡意軟件及其他詭計(文件被篡改后,可以規避特征檢測方法,但仍然是惡意的)。ML并不匹配特征,而是使用另一個特征集預測惡意內容,常常可以逮住基于特征的方法所疏漏的惡意軟件。
由于ML模型是概率性的,因此需要取舍。ML可以逮住特征方法所疏漏的惡意軟件,但也可能疏漏特征方法逮住的惡意軟件。這就是為什么現代EPP工具使用混合方法,結合ML和基于特征的技術,以實現最大保護范圍。
2.誤報問題
即使模型精心設計,ML在解釋輸出時也會帶來一些另外的挑戰,包括:
- 結果是概率。ML 模型輸出的是可能性。如果您的模型旨在識別貓,會得到類似“這東西80%的可能性是貓”的結果。這種不確定性是ML系統的固有特征,可能會使結果難以解釋。80%的可能性是貓夠準確嗎?
- 模型無法調整,至少最終用戶無法調整。為了處理概率性結果,工具可能由供應商設置的閾值,將它們處理成二進制結果。比如說,貓識別模型可能會報告任何可能性>90%的“貓”都是貓。貴企業在這方面的容忍度可能高于或低于供應商設置的容忍度。
- 漏報(FN),即未能檢測出真正的惡意內容,這是ML模型的一大弊端,尤其是調整欠佳的模型。我們不喜歡誤報(FP),因為它們浪費時間。但PF 率和FN率之間存在固有的取舍。調整ML模型以優化這種取舍,優先考慮FP率-FN率的“最佳”平衡。然而,“正確”的平衡因組織而異,取決于它們各自的威脅和風險評估。使用基于ML的產品時,必須信任供應商為您選擇適當的閾值。
- 沒有足夠的上下文進行警報分類。ML的一部分魔力在于,從數據集提取顯著的預測性但任意性的“特征”。想象一下,識別一只貓恰好與天氣高度相關。沒有人會這樣推理。但這就是ML的重點——找到我們原本無法找到的模式,并且大規模地這么做。即使預測的原因可以暴露給用戶,它在警報分類或事件響應情況下常常毫無幫助。這是由于最終定義ML系統決策的“特征”對預測能力進行了優化。
3.任何其他名稱的“統計”方法
聽起來都很美嗎?
除了ML的利弊外,還有一個地方要注意:并非所有的“ML”都是真正的ML。統計方法可以為您提供有關數據的一些結論。ML根據您擁有的數據對您沒有的數據進行預測。營銷人員熱衷于蹭“ML”和“人工智能”的熱度,號稱這是某種現代、創新、先進的技術產品。然而,人們常常很少考慮這項技術是否使用ML,更不用說ML是否是正確的方法。
4.ML能檢測出惡意內容嗎?
當“惡意內容”定義明確且范圍狹窄時,ML可以檢測出。它還可以檢測出與高度可預測的系統中的預期行為相偏差的情況。環境越穩定,ML越有可能正確識別異常。但并非每個異常都是惡意的,操作人員并不總是有足夠的上下文來響應。
ML的強大功能在于增強而不是代替現有方法、系統和團隊,以實現最佳覆蓋范圍和效率。
原文鏈接:https://www.darkreading.com/vulnerabilities-threats/the-beautiful-lies-of-machine-learning-in-security