如何讓人工智能更加實際的輔助網絡安全
機器學習,以及人工智能,最近都頗受關注,人們對該技術熱情高漲。機器學習的發展,讓安全系統更容易被訓練,處理動態情況也更靈活,但并非所有的用例都以同樣的效率令人受益。
副作用之一,就是什么都被重新貼上“機器學習”的標簽,讓該術語很難被確定。就像“云”這個字眼兒被拿來指任何發生在網上的事一樣,“人工智能”也很快達到幾乎任何涉及到計算機的東西都被拍上這一標簽的程度。
普華永道美國分析創新主管阿南德·勞說:“炒作太多,都在說AI正變得超級智能,將替代人類和人類決策等等。”
安全工作一項常見任務,就是確定新下載或安裝的應用程序是否惡意。傳統方法是非常基礎的專家系統——該應用程序的特征是否符合已知惡意軟件的?
這種標準反病毒方法的缺點,是需要隨新惡意軟件的出現而經常更新升級,而且防范非常脆弱。惡意軟件只要做極微小的修改,就很容易逃過檢測。
Deep Instinct,一家初創公司,正在將深度學習技術應用到該問題上,利用的是現有近10億已知惡意軟件樣本可供用于訓練目的的事實。
該公司CTO艾利·大衛說:“深度學習革新了很多領域。計算機視野每年提升20%到30%,到超人類視野也就是分分鐘的事。還有語音識別。難道網絡安全上就不行嗎?”
甚至基于概率的機器學習系統也有極限。有太多因素可被專家識別、衡量,再為了更好的結果而進行微調。同時,無數的其他因素因為太過微小或不相關而被舍棄。
你扔掉的數據是大多數。
Deep Instinct 的模式是,深度學習系統在實驗室被訓練,饋送進去的是所有已知惡意軟件的樣本。訓練過程耗時一天,需要功率強勁的圖形處理器(GPU)來分析數據。
經過訓練的系統大約有1GB大,對大多數應用來說都太大了,然后該公司將之縮減至只有20MB大小。任何終端設備都可輕松安裝上,包括移動設備,最慢的機器也能在幾毫秒內分析進入系統的威脅。
1MB大小的普通文件,分析時間不超過1毫秒。實驗室里的超高端的基礎設施做了全部復雜的工作,客戶拿到的,是濃縮過的“大腦”。同時,在實驗室,新惡意軟件樣本不斷被加入數據集中,每3到4個月左右,終端設備上運行的所有大腦就會收到一次更新升級。
但即便大腦6個月沒更新,也能繼續檢測新文件。深度學習對新修改或變種非常敏感。
每天出現的數百萬新惡意軟件樣本中的大多數,不過是已有惡意軟件的微小變種而已。
“即使是出自高級威脅黑客和民族國家黑客之手的全新零日漏洞利用程序,也有80%與舊版相似。傳統方法檢測不出它們。但深度學習可以輕易檢出。”
該公司正與獨立測試實驗室合作,量化檢測結果。不過,對財富500強客戶的早期測試顯示,該公司的深度學習方法相比已有解決方案,在惡意軟件檢測率上高出20%到30%。
“我們最近對美國一家大銀行的100000個文件做了測試。現有解決方案是測試當天更新的,我們的是2個月前的版本。我們的解決方案得到了99.9%的檢出率,他們的是40%。”
找出原因
最新深度學習系統的缺點之一,是它們可以給出答案,但未必能解釋是怎么得出的。
不過,也不總是這樣。事實上,Nutonian公司專利AI引擎Eureqa的主要工作,就是找到為什么這些事情會發生的解釋。比如說,面對物理數據,Eureqa能重新發現牛頓定律。
該公司創始人兼CTO邁克爾·施密特說:“它能找出最簡單最優雅的方式來描述發生的事情,以及其間的關系。”
該公司將此引擎對研究人員免費開放,至少為500篇期刊論文提供了幫助。例如,在醫學方面,該引擎幫助發現了黃斑變異和闌尾炎等疾病的診斷新模式。在網絡安全上也有該引擎的引用。
“最困難的問題之一,是剖析網絡攻擊。Eureqa的一個AI應用,就是自動完成該過程。”
客戶一旦注冊該基于云的系統,大約會花1小時左右的時間等待引擎分析數據,然后各種答案就能很快出來了。
“他們原來用了 數月或數年才得到的結果,我們只用幾分鐘就重現了。”
本地和全球訓練
在網絡安全界,因為態勢改變太快,任何機器學習系統都需要經常性的更新。
缺了經常性更新,所有系統都將過時,因為人類總是遇到新東西。員工又開始玩新玩意兒了,廠商又改變他們的應用了,客戶的消費模式又變了等等等等。當然,黑客也不例外,專門設計出繞過已有系統的新惡意軟件,是黑客的日常。
同時,下一次更新出現前,總會有感染窗口期的。尤其是,壞人也能購買安全軟件并測試他們的攻擊,直到找出能有效規避的方法。
托管網絡公司 Masergy Communications 的首席科學家麥克·司徒特警告道:“惡意軟件變種就能用到廠商的客戶身上,直到下一波更新出爐。”解決方案之一,就是轉變很多安全系統廠商慣用的“均碼”方式。
“可以設置本地模式、對等模式、全行業模式等等,以不同的速率進行更新。”
Masergy公司采用一系列全球因素來查找可疑事件的發生,然后將之與特定本地指標綁定。全球系統可以只關注有限的輸入。范圍實在是太大了,找那些最經常發生的特征就好。
另外的本地焦點允許添加更多輸入。在本地模式下,不用將輸入壓縮到更小的特征集。這不僅會帶來獨特性,還能引入更好的準確性。
本地和全球模式的結合,也是 Acuity Solutions 公司采用的方法,其 BluVector 產品就采用機器學習來檢測網絡威脅。
在美國政府機構高級研究項目的基礎上,該系統開啟了數年的良好軟件產出,知曉良性代碼的方方面面。
Acuity首席執行官克里斯·樂福喬伊說:“我們的引擎精于代碼分析,可指出給定代碼是否缺乏良性代碼的特征。”該引擎也結合了來自個人客戶的新知識。
我們在交付給客戶前已經對引擎進行了預訓練,它就像是已離巢的孩子,將在客戶環境中繼續學習。
主引擎還會基于全球數據進行季度性更新,但客戶相關的獨特數據是不會跨系統共享的。
這使得每個產品的部署都略有不同,為每一位客戶進行特別定制。即便攻擊者購買了一套系統,開發出可以規避代碼,也不會有什么卵用。
“這是運動防御戰,不可能被逆向工程,因為這些技術是特定于客戶環境的。”