簡析基于自適應學習的AI加密流量檢測技術
人工智能技術的廣泛應用正在深刻改變我們的生活。在網絡安全領域,基于機器學習的檢測技術也應用在許多場景中。隨著信息技術的迅猛發展和數字化轉型的深入推進,加密技術逐漸成為保障網絡安全和數據隱私的核心手段,而基于機器學習的檢測技術已成為應對加密威脅的重要方式。
由于網絡流量巨大,如果檢測模型頻繁產生大量警報,將嚴重干擾安全人員的分析和研判工作。為了解決這個問題,我們可以采用自適應學習技術。這種技術通過從現網中收集實時網絡流量,并將其作為訓練集的一部分,動態更新模型,從而有效降低模型的誤報率,并提高模型的準確率。
1、對比分析
1) 固化模型
在流量檢測領域,由于加密技術的應用越來越廣泛,基于傳統的明文檢測方法失效,但是機器學習算法可以通過對非加密內容數據作為訓練數據,從中發現其中規律,進而有效的鑒別惡意流量。而基于機器學習技術的檢測方法通常會使用預先收集的正常業務流量(白流量)與惡意加密流量(黑流量)構建訓練集,然后通過訓練模型進行檢測,這樣的模型稱之為固化模型。然而,經過實際驗證發現,由于預先收集的白流量與客戶特定場景網絡環境的白流量存在差異,固化模型的靈活性與適應性不夠,會使模型出現一些誤報,從而增加了安全研究人員分析與研判的難度。下圖展示了其處理流程:
圖片
2) 自適應模型
為了進一步提高固化模型的實際效果,可以采用自適應模型。這種方法通過在部署位置本地收集客戶特定網絡環境流量并將其作為訓練集的一部分來擴充白流量的數據集,然后訓練出的模型可以適應不同現網環境,更好地區分可能出現的惡意加密流量。下圖展示了該處理流程:
在自適應模型中,使用歷史數據構建的數據集訓練模型后,在現網環境中會周期性收集客戶現網的白流量(因為客戶側絕大多數的流量都是白流量),而后采用增量學習的方式將其加入到原有模型中,以完成模型的動態更新。自適應模型能夠很好地適應客戶側現網流量的變化情況,相比于固化模型,它顯著減少了許多誤報的問題,檢測效果得到了大幅提升。
2、原理解釋
在構建自適應模型時,引入了增量學習的概念,這也是構建自適應模型的核心技術。增量學習的目的是學習系統能夠不斷從新樣本中學習新知識,并且能夠保留大部分先前學習到的知識。在構建自適應模型的過程中,引入增量學習技術能夠在充分學習新環境中的知識的同時,不會遺忘模型學到的歷史知識,從而豐富了模型的檢測能力。這樣的方法使得模型能夠不斷地適應變化的環境,并持續提升其檢測能力。
3、自適應學習面臨的技術問題
應用自適應學習技術時,需要解決以下技術問題:
1) 數據分布未知
現網數據可能存在短時間內數據量大且相對單一的情況,因此需要應對未知的數據分布,以保證模型的魯棒性。
2) 惡意加密流量難獲取
在現網流量中獲取具有惡意加密流量的數據可能是一項挑戰,需要尋找解決方案以獲取足夠的惡意加密流量進行學習,例如利用模擬攻擊、合成數據或其他數據增強技術。
3) 流量不平衡
正常業務流量(白流量)與惡意加密流量(黑流量)在現網流量數據中可能存在極大的不平衡,這需要采用有效的處理方法,如過采樣、欠采樣、類別權重調整等,以確保模型對各種情況都具有良好的適應性。
4) 設備計算資源限制
現網設備的計算資源有限,因此在實施增量學習時需要考慮性能和效率,以確保在有限的資源下取得最佳效果,可以采用輕量化模型、優化算法或分布式計算等方法來解決該問題。
解決這些技術問題,可以有效應用自適應學習技術,并提高模型的適應性、魯棒性和性能效果。
4、處理流程
在考慮到上述這些問題后,可以采用以下步驟進行處理:
1) 數據預處理
提取流量中的行為特征,并進行去重、處理缺失值等初步預處理操作,以準備數據用于后續處理。
2) 白流量獲取
在現網數據獲取階段,針對復雜的正常業務流量(白流量),通過多時段的隨機采樣方法,獲取新的代表性數據,以確保覆蓋流量的多樣性和變化性。
3) 黑流量獲取
針對難以獲取的惡意加密流量(黑流量),利用歷史的黑流量數據,采用基于數值擾動的數據增廣方法,模擬生成新的黑流量數據,以擴充惡意加密流量的多樣性。
4) 參數調整
由于現網數據中的正常業務流量和惡意加密流量可能存在不平衡,根據上一步獲取的實時流量數目,基于代價敏感學習,進行類別權重的調整,以消除偏置,使得模型能夠平衡地對待不同類別的流量。
5、現網實驗結果
在某現網環境下,針對TLS協議的Cobalt Strike檢測和Webshell檢測,我們進行了固化模型和自適應模型的檢測對比,結果如下:
圖片
對于Webshell檢測,我們收集了現網中共5萬條白流量,并使用固化模型和自適應模型進行檢測對比。實驗結果顯示,固化模型檢測結果分數高于50的為1300條,而自適應模型結果僅有140條。(分數高于50分意味著模型預測該條流量是黑流量的可能性大于預測為白流量的可能性)
圖片
對于Cobalt Strike檢測,我們同樣收集了現網中共5萬條白流量,并使用固化模型和自適應模型進行檢測對比。實驗結果顯示,固化模型檢測結果分數高于50分的為53條,而自適應模型結果僅有1條。
從測試結果可以看出,采用自適應模型后誤報明顯減少。這顯示自適應模型在現網環境下具有更好的準確性和魯棒性,能夠更有效地識別出真正的威脅,減少了誤報的問題。
6、結語
觀成科技研究團隊一直致力于不斷改進和優化人工智能檢測模型,以適應不斷變化的威脅環境,并提供更準確、可靠的檢測方案。針對目前基于預先訓練模型的機器學習技術檢測惡意流量在現網特定網絡環境中存在誤報率偏高的現象,引入基于增量學習的自適應學習技術,通過在一定時間周期內提取客戶現場的白流量,我們使得原有的固化模型能夠學習到最新的流量知識,從而大大減少了誤報率,提升了檢測能力。