SoReL-20M: 2000萬惡意軟件樣本數(shù)據(jù)集開源
12月14日,網(wǎng)絡(luò)安全公司Sophos和 ReversingLabs聯(lián)發(fā)布史上最大規(guī)模惡意軟件研究數(shù)據(jù)集——SoReL-20M,旨在構(gòu)建有效的防御能力,增強安全檢測和響應(yīng)的能力。
SoReL-20M是一個含有2000萬Windows PE文件元數(shù)據(jù)、標(biāo)簽和特征的數(shù)據(jù)集,其中包含1000萬去除惡意軟件功能的惡意軟件樣本,目標(biāo)是為設(shè)計檢測惡意軟件的機器學(xué)習(xí)方法提供足夠的數(shù)據(jù)集。同時開源的還有在這些數(shù)據(jù)上預(yù)訓(xùn)練的基于PyTorch 和 LightGBM的機器學(xué)習(xí)模型作為基準(zhǔn)。
自然語言處理和圖像處理領(lǐng)域都有很多公開的數(shù)據(jù)集,比如MNIST、ImageNet、CIFAR-10、IMDB Reviews、Sentiment140和WordNet。與自然語言處理和圖像處理領(lǐng)域不同的是,標(biāo)準(zhǔn)化的、標(biāo)記的數(shù)據(jù)集對網(wǎng)絡(luò)安全來說是非常具有挑戰(zhàn)性的,因為有很多個人識別的信息、敏感的網(wǎng)絡(luò)基礎(chǔ)設(shè)施數(shù)據(jù)、個人知識產(chǎn)權(quán)數(shù)據(jù)等,更何況要把惡意軟件提供給未知的第三方。
2018年發(fā)布的EMBER(Endgame Malware BEnchmark for Research)是一個開源的惡意軟件分類器,其中只有110萬惡意樣本,其功能只是單一的標(biāo)記數(shù)據(jù)集(惡意軟件或非惡意軟件),也就是說會限制試驗的范圍。
SoReL-20M的目標(biāo)是通過2000萬的PE 惡意軟件樣本來解決這一問題,其中含有1000萬去除惡意軟件功能的惡意軟件樣本(無法執(zhí)行),以及1000萬非惡意軟件中提取的特征和元數(shù)據(jù)。

此外,該方法使用基于機器學(xué)習(xí)的標(biāo)記模型來生成指定惡意軟件樣本重要特征的人類可理解的語義描述。
SoReL-20M 的發(fā)布與近期業(yè)界動向是一致的。20年10月,微軟發(fā)布了對抗機器學(xué)習(xí)威脅矩陣來幫助安全分析人員檢測、響應(yīng)和修復(fù)針對機器學(xué)習(xí)系統(tǒng)的對抗攻擊。
ReversingLabs研究人員稱,安全領(lǐng)域威脅情報共享的思想并不新鮮,但是是非常關(guān)鍵的。人工智能和機器學(xué)習(xí)已經(jīng)成為檢測新的惡意軟件和定向攻擊軟件的關(guān)鍵,而且應(yīng)用也越來越廣泛。
Github 頁面:https://github.com/sophos-ai/SOREL-20M
關(guān)于SOREL-20M的論文SOREL-20M:A Large Scale Benchmark Dataset for Malicious PE Detection 下載地址:https://arxiv.org/abs/2012.07634
更多參見:https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/
本文翻譯自:https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/如若轉(zhuǎn)載,請注明原文地址。