移動互聯網勒索病毒研究報告(二)--威脅場景的還原
移動互聯網勒索病毒研究報告(二)
--威脅場景的還原
(2017-12-1)
通付盾移動安全實驗室
二〇一七年十二月
移動安全管理現狀
2017年5月,勒索病毒像顆長熟的膿瘡,借著移動互聯網的“東風”在全球大范圍的爆發。勒索病毒給網絡用戶特別是移動端設備嚴重依賴人群帶來了惡劣影響。盡管各安全廠商對勒索病毒響應及時,但是不得不承認在這場網絡安全戰中,我們損失慘重。這場網絡攻防戰使得安全廠商們心有余悸,甚至要求安全廠商們重新思考傳統的應用安全管理方法是否能夠經得起下一次的病毒攻擊?
移動互聯網作為這個時代的“弄潮兒”,它的每一場技術革新改變的不僅是信息傳輸的便捷性,同時還隱藏著數以萬計的高危漏洞、惡意程序、仿冒等,僅僅靠對應用進行檢測、加固或者監測是遠遠不能取勝的。對于類似勒索病毒這樣級別的威脅攻擊,移動應用安全管理不僅包括輿情監察和公開的威脅情報,還需要能夠做到對威脅攻擊場景的還原的移動互聯網威脅信息管理平臺。
移動互聯網威脅信息管理平臺
傳統的應用安全管理平臺以威脅識別為主且數據處理能力有限,處于被動應急響應,威脅信息之間的關聯分析維度較低,主要依賴于人工分析,威脅對抗能力不足。在威脅主動防御戰中,我們需要一個高度具備驅動力的數據流轉和響應驅動體系,平臺反饋的威脅信息在時效性、數據關聯復雜性以及威脅信息構成多樣性上具有高度要求,不僅僅是一個威脅感知平臺,更是一個基于大數據技術的威脅信息分析平臺。
本文將從威脅信息的數據來源、數據處理以及如何實現威脅信息挖掘三個角度,介紹通付盾移動安全實驗室推出的,一個具有大數據智能分析能力的移動互聯網威脅信息管理平臺。平臺共包含威脅信息采集、數據標簽化處理、威脅信息挖掘三個層面。
2.1 應用信息采集:全渠道覆蓋
通付盾移動安全實驗室通過對300多個應用渠道的應用數據進行實時采集,實現對全網移動應用數據的基本覆蓋。包括手機廠商應用商店、運營商應用商店、第三方應用商店、手機論壇、下載網站、網盤等。
圖2-1 樣本采集覆蓋渠道
在完成應用信息獲取以及清洗之后,研究人員對數據進行進一步處理。在分布式文件服務器的支撐下,對獲取的數據進行存儲,包括應用的文件信息、運行信息、網絡信息、代碼特征等數據,基于分布式處理技術,實現數據的實時查詢與分析。通過對全渠道應用的增量采集,使應用信息庫保持持續更新,應用信息達到全網覆蓋,數據質量高,具備高度可用性。
2.2 數據標簽化處理
僅對已有的數據進行簡單整合后加上可視化的呈現方法展現,這并不足以體現出數據的全部價值,對于大數據量的應用信息我們采用數據標簽化的處理方式。
在警匪類電影中,我們通常會看到破案者在分析案件過程會在白板上標記從已知線索中拆解出的小標簽,利用標簽之間的聯系梳理案件線索,找出犯罪嫌疑人并最終鎖定罪犯。這其中就體現了數據標簽化處理的思想。研究人員對所存儲的應用信息建立應用畫像,給應用從多維度“貼”上不同類型標簽,建立應用“線索”關系圖譜。同時,通過漏洞檢測引擎、病毒檢測引擎、內容違規檢測引擎的多維度分析實現對已知威脅、疑似威脅信息的識別。
圖2-2 數據標簽化--多維分析線索圖示
數據標簽化的處理可以使得應用與應用之間更好的關聯起來,對威脅場景還原、威脅行為溯源起到支撐作用。
2.3 威脅信息挖掘:TBS病毒挖掘模型
在數據標簽處理的基礎上,就已經實現對已知威脅的識別具備安全管理平臺的功能。為了提升威脅信息的深度挖掘能力和對威脅事件的應急響應能力。在此基礎上,通付盾移動安全實驗室提出并引入了TBS病毒挖掘模型(簡稱TBS模型;Target-Behavior-Source,縮寫:TBS)。TBS病毒挖掘模型基于已有的應用數據標簽,從惡意程序的攻擊目的、傳播方式和惡意行為三個方面的特征建立多層挖掘模型,實現從威脅識別到威脅感知、威脅溯源的體系升級。
2.3.1 TBS病毒挖掘模型的依據
惡意程序的三個重要特征為目的性、傳播性和破壞性,這三者也是判斷一個程序是否為惡意應用的主要依據。其中,目的性是惡意代碼的基本特征,也是法律上判斷惡意程序的標準;傳播性是惡意程序達到攻擊目的的重要手段;破壞性體現了惡意程序的攻擊行為,例如破壞軟硬件系統、竊取用戶數據等。不同的惡意應用,在攻擊目的、傳播方式和惡意行為這三個方面也會有所區別。
圖2-3 惡意程序基本特征
移動端惡意應用與PC端應用相比具有不同的特點。例如,移動惡意應用的來源主要為第三方應用市場、網站以及公開的論壇等,通過社交軟件、網盤、惡意網站等方式傳播,獲取用戶的個人數據或勒索用戶個人財產是其主要的攻擊目的,因此,所利用的攻擊行為與PC端存在顯著差異。我們在傳統惡意程序特征的基礎上進行調整和細化,衍生出針對移動端惡意應用的三類特征作為TBS病毒挖掘模型的三個主要依據,分別為:攻擊目標、威脅行為、傳播源。
- 攻擊目標(Target):與惡意攻擊的目標和目標用戶等相關的信息,例如惡意應用的目標用戶、偽裝方式等信息。
- 威脅行為(Behavior):與具體惡意破壞行為相關的特征,例如惡意扣費、信息竊取、遠程控制、惡意傳播、資費消耗、系統破壞、誘騙欺詐、流氓行為等。
- 傳播源(Source):與移動端惡意應用的傳播方式、傳播來源相關的信息,例如相關的社交賬號信息、網址、開發者信息等。
圖2-4 移動端惡意程序特征衍生關系
2.3.2 TBS病毒挖掘模型單層結構
如前文所述,TBS病毒挖掘模型在應用數據標簽的基礎上,將惡意程序樣本特征作為病毒挖掘依據,實現多層迭代式搜索挖掘。每層搜索過程分別檢測與樣本集合特征相匹配的應用。當某個應用有兩種以上特征符合病毒樣本特征,則認為該應用為相關惡意應用。而符合一個病毒特征的視為潛在惡意應用。下一層的迭代搜索以對應的上一層獲得的惡意應用為基礎。
圖2-5 TBS病毒挖掘模型頂層示意圖
圖2-5描述了TBS模型基本的病毒挖掘過程。將移動應用從傳播源、攻擊目標以及威脅行為三個特征匹配的結果作為三個集合,根據集合之間的關系,每層挖掘得到的病毒樣本結果分為7個部分。
具有兩種或兩種以上病毒樣本特征的應用均具有較高的惡意性,我們將這些樣本作為捕獲的新增病毒樣本,并且在下一層的挖掘過程中作為分析病毒特征的依據。主要包括以下4個部分:
1)新增同質病毒樣本
三個集合交集處的應用與原始樣本具有相同的傳播源、攻擊目標以及威脅行為特征(即具有同質性),可以認為這些樣本的惡意性程度很高。我們稱這些新增的樣本為同質病毒樣本。
2)威脅行為變異型病毒
若應用的傳播源和攻擊目標特征與原始病毒樣本匹配,而在威脅行為方面有所不同,可以認為這些樣本具有較高的惡意性,我們將其標記為威脅行為變異型病毒。
3)攻擊目標變異型病毒
若應用的威脅行為和傳播源特征與原始病毒樣本匹配,而在攻擊目標方面有所不同,可以認為這些樣本具有較高的惡意性,我們將其標記為攻擊目標變異型病毒。
4)傳播源變異型病毒
若應用的威脅行為和攻擊目標特征與原始病毒樣本匹配,而在傳播源方面有所不同,可以認為這些樣本具有較高的惡意性,我們將其標記為傳播源變異型病毒。
僅匹配了一種特征的應用程序被標記為潛在惡意應用,包括:傳播源衍生潛在惡意應用、攻擊目標衍生潛在惡意應用以及威脅行為衍生潛在惡意應用3個部分。
1)傳播源衍生潛在惡意應用
若被掃描應用具有原始病毒樣本的傳播源特征,則該應用具有一定的潛在惡意性,我們將此類應用稱為傳播源衍生潛在惡意應用。
2)攻擊目標衍生潛在惡意應用
若被掃描應用具有原始病毒樣本的攻擊目標特征,則該應用具有一定的潛在惡意性,我們將此類應用稱為攻擊目標衍生潛在惡意應用。
3)威脅行為衍生潛在惡意應用
若被掃描應用具有原始病毒樣本的威脅行為特征,則該應用同樣具有一定的潛在惡意性,我們將此類應用稱為威脅行為衍生潛在惡意應用。
2.3.3 TBS病毒挖掘模型多層迭代過程
在單層病毒挖掘模型的基礎上,進行多層迭代搜索,通過已經獲得的病毒樣本得到更多的病毒和潛在惡意應用,使我們能夠獲得更完備的惡意應用樣本庫,為分析威脅態勢提供可靠依據。
圖2-6 TBS病毒挖掘模型層級迭代過程
TBS模型第n層的病毒挖掘以n-1層獲得的病毒樣本為基礎,并且根據第n-1層的獲得的樣本所屬的來源集合進行擴張:
- 威脅行為變異型病毒:對該集合,在威脅行為特征上進行擴充,即:搜索與該集合樣本具有相同威脅行為的應用樣本。
- 攻擊目標變異型病毒:在攻擊目標特征上進行擴充,即:搜索與該集合樣本具有相同攻擊目標的應用樣本。
- 傳播源變異型病毒:在傳播源特征上進行樣本擴充,即:搜索與該集合樣本具有相同傳播源特征的應用樣本。
通過這種樣本擴充方式,能夠在維持模型可靠性的同時挖掘出更多的變種病毒樣本,并且盡可能避免了重復的搜索。
與單層模型相同,迭代獲得的樣本根據所屬的集合分為同質病毒樣本、威脅行為變異型病毒、攻擊目標變異型病毒、傳播源變異型病毒、傳播源衍生潛在惡意應用、攻擊目標衍生潛在惡意應用、威脅行為衍生潛在惡意應用7類。并且根據樣本所匹配的病毒特征的個數,分別作為新增病毒樣本和新增潛在惡意應用。
2.3.4 TBS病毒挖掘模型效果驗證
此前,我們針對勒索病毒進行了全網的態勢分析,基于TBS病毒挖掘模型我們對勒索型惡意應用進行了全網搜尋,通過三層的檢測過程,共檢測到5萬余勒索類病毒樣本和30萬余潛在的惡意應用。圖2-7展示了經過TBS模型各層檢測過程捕獲的樣本數量,包括病毒樣本和潛在的惡意應用。圖中,每層對應的樣本數量為累積值(例如Level 1的樣本數量為第一輪檢測所獲得的數量,Level 2的樣本量為前兩輪獲取和病毒樣本去重后結果,以此類推)。
圖2-7 TBS模型每層捕獲樣本數量
下面,結合獲得的病毒樣本的數量和增長局勢的情況來看TBS病毒挖掘模型的實際挖掘效果。
1)TBS模型具有較強的病毒樣本挖掘能力
TBS模型具有較高的病毒挖掘能力經過第一層的基于TBS模型的檢測,我們從200余個病毒樣本的原始樣本集出發,獲取到51151個惡意應用和潛在惡意應用247332個。從比例來看,第一層檢測捕獲的病毒樣本數量是原始樣本個數的兩百余倍、捕獲的潛在惡意應用數量原始樣本個數的一千余倍。這表明,TBS模型具有較高的病毒樣本挖掘能力,能夠通過有限個數的原始病毒樣本迅速地挖掘出大量相關病毒樣本和潛在惡意程序樣本,從而能夠有效地評估和預測病毒威脅態勢。
2)TBS模型具有較準確的病毒識別能力
TBS模型具有較準確的病毒樣本識別能力TBS模型是通過應用特征多次迭代進行挖掘,因此,如果模型所基于的檢測特征不夠準確、缺乏代表性,會導致每次迭代引入大量無關的(非惡意)樣本,使得檢測結果不可信。從實際數據來看,前三層檢測過程所獲取的新增病毒數依次為50935個、2943個、1218個。換言之,對于TBS模型每層檢測到的病毒樣本數量,其增長趨勢是逐層減緩并收斂的。這表明TBS模型所選擇的三個方面特征能夠捕捉到病毒程序的特性,與我們對TBS模型捕獲的樣本進行抽樣核驗的結論相符。因此可以認為,我們此次獲取的樣本具有較高的覆蓋率和可信性,并且能夠反映勒索類病毒的分布和數量趨勢。
價值落地:從威脅識別到威脅感知和溯源
平臺搭建的最終目的是對威脅數據的有效利用,輸出具有時效性強、數據關聯復雜度高的威脅信息。高覆蓋率和高可信度的樣本數據的價值也從威脅識別提升到威脅感知和溯源。
3.1 多維度感知,源頭可溯
要想洞悉整個威脅場景,要求安全研究人員對威脅信息的分析維度要足夠全面。在此前發布的勒索病毒研究報告中,通付盾移動安全實驗室研究員在自動化感知的病毒數據基礎上,針對勒索病毒從偽裝類型、傳播源、威脅行為三個維度上展開分析,在威脅地域、時間、攻擊者特征等方面得出重要結論,并以此追蹤到較大的犯罪團伙—彼岸花技術團隊。針對攻擊場景的威脅信息能夠更直觀的反映出攻擊目的,為相關部門采取防護行動提供參考。我們已經具備在獲悉部分條件的情況下,還原整個威脅場景的能力。
圖3-1 多維度威脅溯源分析示意圖
3.2 多角度告警,隱患可防
在利用數據關聯性分析還原威脅事件的前提下,我們對威脅趨勢進行預判,從攻擊手段、攻擊地域、攻擊目的等不同角度分析威脅趨勢,針對攻擊者本身以及攻擊事件向移動網絡用戶個人、企業發出告警信號并提供專業、全面的防護措施方案,形成具有決策性的威脅情報。
移動互聯網威脅信息平臺的搭建實現了威脅場景還原、威脅來源追蹤、未知威脅感知等。在保證威脅信息時效性的基礎上,實現了利用威脅信息驅動安全管理的主動防御機制。
當然,威脅情報驅動安全威脅信息管理平臺要想實現大范圍的威脅告警需要和企業、公安部門、監管部門、應用商店以及各安全廠商等建立聯動機制,保證威脅信息時效性的前提下采取網絡威脅的應急措施,在遭受攻擊之前排查隱患、修復漏洞,切實的保護網絡數據安全和個人財產安全。
總結
窮源溯流,網絡安全威脅的來源主要包含技術風險、網絡安全管理環節薄弱以及人為攻擊三個因素。盡管目前移動安全管理處于初步階段,但是隨著國家相關政策的支持,尤其是《網絡安全法》的出臺,網絡安全管理機制逐漸完善,公安部、監管部門、網絡運營者、安全廠商等各方面的力量逐漸匯聚在一起,政企聯合、警企聯動的防御體系逐漸形成,安全團隊正逐漸擴大,共同維護網絡安全。
參考資料
[1]《移動互聯網勒索病毒分析報告》
http://mp.weixin.qq.com/s/VG0M8zoljckR1f9g7K33fg
[2]數據與威脅情報
http://www.jianshu.com/p/036e33992deb
[3]如何評估安全威脅情報對企業的價值
https://zhidao.baidu.com/question/692428794650528164.html
[4]以數據為核心的SOC3.0時代到來
http://blog.51cto.com/yepeng/1729338
[5]如何利用用戶標簽數據
http://f.dataguru.cn/forum.php?mod=viewthread&tid=537447