百度高級(jí)安全工程師吳登輝:Web防火墻大數(shù)據(jù)分析實(shí)踐
原創(chuàng)吳登輝表示,本次分享是站在一個(gè)甲方的角度,詳細(xì)的闡述了利用大數(shù)據(jù)安全分析技術(shù)對(duì)百度Web防火墻的海量日志包括訪問日志和攔截日志進(jìn)行多角度分析,帶大家感知未知Web攻擊,并為其他安全產(chǎn)品提供情報(bào)支持。
安全運(yùn)維體系里最常見的四大痛點(diǎn)
透過百度的安全體系建設(shè),安全建設(shè)之困主要有主動(dòng)漏洞發(fā)現(xiàn)、WAF和IPS做的攻擊阻斷、IDS做的攻擊檢測(cè)、XSRC或者Wooyun做的漏洞報(bào)告四方面的痛點(diǎn)。
主動(dòng)漏洞發(fā)現(xiàn)。主動(dòng)漏洞發(fā)現(xiàn)掃描器到底能發(fā)現(xiàn)多少個(gè)漏洞,這是個(gè)未知答案。因?yàn)榇嬖谏矸菡J(rèn)證和掃描器URL不全問題。對(duì)于一些需要身份認(rèn)證的掃描頁面,假如用戶是一條刪除記錄的操作,掃描很可能給線上業(yè)務(wù)帶來傷害。如果在公司用掃描器時(shí),帶上身份認(rèn)證進(jìn)行登錄的形式,很有可能造成線上數(shù)據(jù)一團(tuán)糟。 掃描器UIL為什么不全,是因?yàn)橛泻芏郩RL不一定爬蟲能夠爬到,是受限于爬蟲的。
攻擊阻斷。不要以為發(fā)布WAF和IPS就不備受攻擊,使用WAF不是百分之百解決你的問題,它只是使你的黑客攻擊更加困難了而已。黑客只要想攻擊,他還是有辦法的。
攻擊檢測(cè)。傳統(tǒng)的攻擊檢測(cè)是上了一臺(tái)設(shè)備,做了攻擊檢測(cè),運(yùn)維人員應(yīng)都有感受。當(dāng)Web黑客用掃描器時(shí),如遇某種情況,掃描器會(huì)觸發(fā)一千多條報(bào)警,面臨運(yùn)維人員每天面臨這樣幾千條報(bào)警,放棄是必然。
漏洞報(bào)告。感覺利用XSRC能夠能夠攔截到攻擊,不被發(fā)現(xiàn)。真實(shí)情況是在被黑以后,黑客怕被警察抓,就在黑完之后,在Wooyun上發(fā)報(bào)告,以顯示自己是一個(gè)白帽子。但是他在你網(wǎng)站上做了什么事情,并無人知曉。
從入侵檢測(cè)角度談大數(shù)據(jù)安全
了解綜上這些甲方苦逼運(yùn)維人員的痛苦之后,我們從從一個(gè)入侵檢測(cè)角度來談大數(shù)據(jù)安全。吳登輝表示,入侵檢測(cè)并不是針對(duì)一條報(bào)警,畫一個(gè)攻擊圖,說哪個(gè)IP在哪個(gè)地方攻擊你,展示在大屏幕上里,這樣做并沒有實(shí)際意義。而是通過從海量數(shù)據(jù)中發(fā)現(xiàn)一些傳統(tǒng)設(shè)備發(fā)現(xiàn)不了的問題,同時(shí)解決某些問題,如解決海量報(bào)警的問題。下面將從入侵監(jiān)測(cè)角度從數(shù)據(jù)采集、數(shù)據(jù)分析、基礎(chǔ)架構(gòu)、數(shù)據(jù)分析實(shí)踐四方面談大數(shù)據(jù)安全。
數(shù)據(jù)采集。數(shù)據(jù)采集也要講究方法,如把所有系統(tǒng)的數(shù)據(jù)全部采集過來那是采集狂魔。如只采集系統(tǒng)已有的數(shù)據(jù)放在集群上是采集懶人。安全數(shù)據(jù)采集是要有針對(duì)性的采集數(shù)據(jù),甚至需要開發(fā)特定的采集探針,有效的數(shù)據(jù)會(huì)保證你最后的分析事半功倍。
按攻擊樹和Cyber kill Chain采集數(shù)據(jù)
可按照攻擊樹和Cyber kill Chain來采集數(shù)據(jù),構(gòu)建攻擊場(chǎng)景。黑客到底有多少攻擊手法,來攻擊我們,在這條攻擊路徑上的所有日志,都可以采集來。
數(shù)據(jù)分析。通過機(jī)器學(xué)習(xí)發(fā)現(xiàn)異常,但異常的結(jié)果會(huì)比較多。其次要人工標(biāo)定分析,人工標(biāo)定分析就可以產(chǎn)出一個(gè)規(guī)則情報(bào),之后將規(guī)則情報(bào)反饋給分析系統(tǒng),會(huì)產(chǎn)生更多的信息。這個(gè)流程其實(shí)是一個(gè)閉環(huán)的,情報(bào)是通過我們學(xué)習(xí)發(fā)現(xiàn)異常里面出現(xiàn)的,并且通過分析師分析得出。最終規(guī)則情報(bào)是反饋給現(xiàn)有分析系統(tǒng)。
基礎(chǔ)架構(gòu)。如上圖,大數(shù)據(jù)有很多種系統(tǒng)架構(gòu),吳登輝表示,真正的系統(tǒng)架構(gòu)應(yīng)該是可以實(shí)現(xiàn)交互式搜索,情報(bào)易集成可動(dòng)態(tài)配置,支持機(jī)器學(xué)習(xí)模型訓(xùn)練以及支持實(shí)時(shí)模型調(diào)用。
分析實(shí)踐。為了發(fā)現(xiàn)繞過Web防火墻的攻擊行為,并提取攻擊情報(bào),包括掃描器payload惡意攻擊IP等。需要從HTTP請(qǐng)求的各個(gè)角度,PATH, QUERY, UA, SESSION等多個(gè)維度進(jìn)行分析。并采用基于統(tǒng)計(jì)、機(jī)器學(xué)習(xí),對(duì)PATH,QUERY,SESSION等建立模型的分析方法。包括:參數(shù)分布,請(qǐng)求頻率,SESSION請(qǐng)求寬度,404比例等。分析實(shí)踐有QUERY模型、PATH模型和SESSION模型。
實(shí)踐的效果
吳登輝在分享接近尾聲時(shí),分享了實(shí)踐效果。他說到:“日輸入數(shù)據(jù)是3T多,這邊是保守的數(shù)據(jù),這是去年一開始3T,現(xiàn)在已經(jīng)接了安全網(wǎng)的數(shù)據(jù),其實(shí)是不止3T的。產(chǎn)出的異常,就是3T日志里面異常是十幾兆,經(jīng)過進(jìn)一步剝離發(fā)現(xiàn)是千條。WAF總共50條規(guī)則,給WAF增加了十幾條規(guī)則。同時(shí)又改善了WAF十幾條規(guī)則,也就是說你可以認(rèn)為WAF大部分規(guī)則都被我們這個(gè)系統(tǒng)調(diào)整過。另外一個(gè)發(fā)現(xiàn)眾多繞過WAF的Webshell,發(fā)現(xiàn)很多有趣的payload”。
講師簡(jiǎn)介:
吳登輝,百度高級(jí)安全工程師。歷經(jīng)安全運(yùn)維,安全測(cè)試,安全開發(fā)。對(duì)企業(yè)安全體系建設(shè),以及安全大數(shù)據(jù)分析具有較為深入的了解。曾就職于華為,負(fù)責(zé)二進(jìn)制方面的漏洞挖掘工作。入職百度后,曾負(fù)責(zé)web安全測(cè)試、移動(dòng)app安全評(píng)估以及一些安全規(guī)范安全體系的建立等,也參與了百度安全中心的建立。目前,主要負(fù)責(zé)web日志的安全分析。