成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

顛覆傳統(tǒng)安全方式,AI重新定義Web安全

人工智能 應用安全
從 2006 年 Amazon 發(fā)布 EC2 服務至今,已經(jīng)過去了 11 年。在這 11 年里,AWS 收入從幾十萬美金上漲到 100 多億美金,讓云計算走進每一家企業(yè)。

從 2006 年 Amazon 發(fā)布 EC2 服務至今,已經(jīng)過去了 11 年。在這 11 年里,AWS 收入從幾十萬美金上漲到 100 多億美金,讓云計算走進每一家企業(yè)。

根據(jù)信通院發(fā)布的“2016 云計算白皮書”,目前近 90% 的企業(yè)已經(jīng)開始使用云計算(包括公有云、私有云等),這說明大規(guī)模云化對于企業(yè)而言已經(jīng)不只是趨勢,更是確鑿的既成事實。

[[206042]]

云化普及的同時也給安全帶來很多挑戰(zhàn),主要包括:

01云化導致以硬件設備為主的傳統(tǒng)安全方式失效

在跟企業(yè)交流時,不止一家企業(yè)提出了這樣的擔心:在上公有云的過程中,因為無法把已購買的硬件防護搬到云上,所以非常擔心業(yè)務安全性。

有趣的是,他們對于上云后的流量層攻擊反倒不擔心,因為他們認為云上的高防 IP 等產(chǎn)品可以解決大部分問題。云化導致了業(yè)務層的安全空白,這不僅發(fā)生在公有云環(huán)境,在私有云環(huán)境也時有發(fā)生。

02云化導致攻擊/作惡成本大大降低

云是 IT 領域里“共享經(jīng)濟”的再升級,從最早的 IDC 租用升級進化到 Linux kernel namespace 租用,但這種“共享經(jīng)濟”在給企業(yè)帶來成本降低、使用便利等益處的同時,也給攻擊者帶來了同樣的好處。

按目前市場行情,攻擊者租用一個公網(wǎng)彈性 IP 的成本可低至 1 元/天,租用一個 IaaS 平臺的 hypervisor 層的計算環(huán)境,每日成本也只有幾元,如果是 container 層的計算環(huán)境,成本還要更低。

在如此低的成本下,致使攻擊者不再像過去那樣花大力氣挖掘培養(yǎng)肉機,而是可以在瞬間輕松擁有用于攻擊的計算網(wǎng)絡資源。

以某著名互聯(lián)網(wǎng)招聘領域網(wǎng)站為例,攻擊者最多可以在一天內動用上萬個 IP 以極低的頻率爬取核心用戶簡歷。

03云化導致業(yè)務可控性降低,遭遇攻擊的風險大大提高

云客觀造成了業(yè)務的復雜性和不可控性:大量自身或合作方的業(yè)務都跑在同一個云上,其中任何一個業(yè)務被攻擊,都有可能對其他部分造成影響。

不可否認的是,現(xiàn)有的 hypervisor 隔離技術很成熟,以 CPU 為例,通過計算時間片分配進而在執(zhí)行指令間插入各種自旋鎖,可以精確控制執(zhí)行體的 CPU 分配,其他資源包括內存、IO 也都可以恰當?shù)目刂啤?/p>

但在所有資源里,隔離性最脆弱的就是網(wǎng)絡,尤其是公網(wǎng),畢竟 NAT 出口、域名等很難被隔離。

所以,我們不得不面對這樣的現(xiàn)實:在享受云計算時代紅利的同時,面臨的業(yè)務層安全問題也越來越嚴重。

機器學習是解決安全問題的金鑰匙

機器學習發(fā)展史

由上圖可以看出,目前大紅大紫的深度學習,其源頭-神經(jīng)網(wǎng)絡,早在上世紀 70 年代就已經(jīng)被提出。

從上世紀 80 年代到本世紀,機器學習經(jīng)歷了幾次平淡期和爆發(fā)期,隨著大數(shù)據(jù)的發(fā)展和一些熱點事件(如 AlphaGo 戰(zhàn)勝李世石),機器學習又一次進入爆發(fā)期。

那么,大數(shù)據(jù)和機器學習有什么關系呢?這還要和深度學習掛鉤,從理論上講,深度學習本質上是利用多層的神經(jīng)網(wǎng)絡計算,代替?zhèn)鹘y(tǒng)特征工程的特征選取,從而達到媲美甚至超越傳統(tǒng)特征工程進行分類算法的效果。

基于這個邏輯,當標注樣本足夠多時(即所謂“大數(shù)據(jù)”),通過深度學習就可以構造出非常強大的分類器,如判斷一個圍棋的棋局對哪方有利。

[[206043]]

AI 隨著深度學習的火爆看似非常強大,但不幸的是,目前 AI 的發(fā)展成熟度遠沒有達到可以取代人腦抑或接近人腦的水平。根據(jù)圖靈測試理論,AI 本身要解決的問題有:識別、理解、反饋。

這三個問題逐步遞進,真正智能的機器人最終可以跟人腦一樣反饋,從而在圖靈測試中無法區(qū)分它是人還是機器。

按當前 AI 發(fā)展情況,“識別”的進展目前效果最好,無論是圖像、語音還是視頻,很多廠商都可以做到很高的識別率;但“理解”就差強人意了,大家都用過蘋果的 Siri,它還未能達到與人真正對話的程度。

而反饋就更難了,這要求在理解的基礎上不斷地應變,同一個問題可能因對方身份、心情、交流場合不同,以不同的語氣語調做出不同反應。

所以,目前應用機器學習效果非常好的領域,幾乎都是某個特定領域內的識別問題,并非通用領域,如人臉識別、人機對弈(人機對弈本質上也是某個棋種領域的識別問題:機器通過學習成千上萬的棋局后,就可以自動識別某一棋局在一方走的情況下對誰有利。)

非常幸運的是,安全領域中的問題大多是特定場景下的識別問題,而非通用場景,也并未涉及理解和反饋,你只需要把相關數(shù)據(jù)交給機器學習系統(tǒng),讓它做出識別判斷即可:安全或者不安全,不安全的原因。

正因為安全問題本質是特定領域內的識別問題,所以從理論上講,機器學習非常適合應用在安全領域,是解決安全問題的金鑰匙。

機器學習在安全領域的應用難點

雖然機器學習早已存在,但是長久以來并未改變安全市場,究其原因,主要有以下幾點:

01安全領域的樣本標注成本較高

對于機器學習而言,擁有海量、完整、客觀、準確的標注樣本異常重要,標注樣本越多、越全面,訓練出來的分類器才可能越準確。

對于所有行業(yè)來講,獲取樣本(標注樣本)都不容易,而安全領域尤為困難。如對人臉識別的標注,初中生甚至小學生就可以完成,但對于一次安全的威脅事件,就需要極具經(jīng)驗的安全人員才可以完成,兩者的成本差距十分巨大。

某個注入攻擊

如上圖所示,這個注入攻擊經(jīng)多次復雜編碼,非專業(yè)人事很難進行樣本標注。所以目前在通用場景下,安全領域的深度學習落地并不多,主要原因也是很難獲取海量的標注數(shù)據(jù)。

02安全領域的場景特點更加明顯

判斷攻擊的標準會隨著業(yè)務特點的不同而不同。以最簡單的 CC 攻擊為例,600 次/ 分鐘的訪問對于某些企業(yè)可能意味著破壞性攻擊,但對其他企業(yè)則屬于正常訪問范圍。

所以,即便有大量的標注樣本,某一企業(yè)的標注樣本可能對于其他企業(yè)毫無用處,這也是導致安全領域應用機器學習較為困難的另一個重要原因。

03針對傳統(tǒng)的文本型攻擊,傳統(tǒng)思維認為簡單的特征工程,甚至直接的正則匹配更有效

我們把 Web 攻擊分為行為型攻擊和文本型攻擊兩類:

  • 行為型攻擊。每個請求看起來都是正常的,但將其連接成請求走勢圖時,就會發(fā)現(xiàn)問題,如爬蟲、撞庫、刷單、薅羊毛等。

以刷粉行為為例:每個請求看起來都是正常的,但攻擊者可能動用大量 IP 在短時間內注冊大量賬號,并關注同一個用戶。只有我們把這些行為連接起來一起分析時,才能發(fā)現(xiàn)問題。

  • 文本型攻擊。傳統(tǒng)的漏洞類攻擊,如 SQL 注入、命令注入、XSS 攻擊等,單純的把一個請求看成是一段文本,通過文本的特征即可識別其是否為攻擊。

當特征的維度空間較低,且有些維度的區(qū)分度很高時,通過簡單的線性分類器,就可以實現(xiàn)不錯的準確率。

例如我們簡單的制定一些 SQL 注入的正則規(guī)則,也可以適用于很多場景。但是,這樣的傳統(tǒng)思維卻忽略了召回率問題,實際上也很少有人知道,通過 SQL 注入的正則規(guī)則,可以達到多少的召回率。

同時,在某些場景,假如業(yè)務的正常接口通過 JSON 傳遞 SQL 語句,那么這種基于正則規(guī)則的分類器就會產(chǎn)生極高的誤判。

04傳統(tǒng)安全人員并不了解機器學習

大量傳統(tǒng)安全公司的安全人員精于構造各種漏洞探測、挖掘各種邊界條件繞過,善于制定一個又一個的補丁策略,卻并不擅長 AI 機器學習方面的內容,這也說明了這種跨界人才的稀缺和重要。

機器學習重新定義 Web 安全

如何解決安全領域的樣本標注問題呢?機器學習分為兩大類:

監(jiān)督學習。要求有精準的標注樣本。

無監(jiān)督學習。無需標注樣本,即可以針對特征空間進行聚類計算。在標注困難的安全領域,顯然無監(jiān)督學習是一把利器。

01無監(jiān)督學習

無監(jiān)督學習無需事先準備大量標注樣本,通過特征聚類就可以將正常用戶和異常用戶區(qū)分開,從而避免大量樣本標注的難題。

聚類的方式有很多,如距離聚類、密度聚類等,但其核心仍是計算兩個特征向量的距離。

在 Web 安全領域,我們獲得的數(shù)據(jù)往往是用戶的 HTTP 流量或 HTTP 日志,在做距離計算時,可能會遇到如下問題。

例如:每個維度的計算粒度不一樣,如兩個用戶的向量空間里 HTTP 200 返回碼比例的距離是兩個 float 值的計算,而 request length 的距離則是兩個 int 值的計算,這就涉及粒度統(tǒng)一歸一化的問題。

在這方面有很多技巧,比如可以使用 Mahalanobis 距離來代替?zhèn)鹘y(tǒng)的歐式距離,Mahalanobis 距離的本質是通過標準差來約束數(shù)值,當標準差大時,說明樣本的隨機性大,則降低數(shù)值的權值。

反之,當標準差小的時候,說明樣本具有相當?shù)囊?guī)律性,則提高數(shù)值的權值。

無監(jiān)督的聚類可以利用 EM 計算模型,可以把類別、簇數(shù)或者輪廓系數(shù)(Silhouette Coefficient)看成 EM 計算模型中的隱變量,然后不斷迭代計算來逼近最佳結果。

最終我們會發(fā)現(xiàn),正常用戶和異常聚成不同的簇,之后就可以進行后續(xù)處理了。當然,這只是理想情況,更多情況下是正常行為與異常行為分別聚成了很多簇,甚至還有一些簇混雜著正常和異常行為,那么這時就還需要額外的技巧處理。

02學習無監(jiān)督聚類的規(guī)律

無監(jiān)督聚類的前提是基于用戶的訪問行為構建的向量空間,向量空間類似:

  1. [key1:value1,key2:value2,key3:value3...] 

這里就涉及兩個問題:“如何找到 key”以及“如何確定 value”。

找到合適 key 的本質是特征選擇問題,如何從眾多的特征維度中,選擇最具有區(qū)分度和代表性的維度。

為什么不像某些 Deep Learning 一樣,將所有特征一起計算?這主要是考慮到計算的復雜度。請注意:特征選擇并不等同于特征降維,我們常用的 PCA 主成分和 SVD 分解只是特征降維,本質上 Deep Learning 的前幾層某種意義上也是一種特征降維。

特征選擇的方法可以根據(jù)實際情況進行。實驗表明在有正反標注樣本的情況下,隨機森林是一個不錯的選擇。如果標注樣本較少或本身樣本有問題,也可以使用 Pearson 距離來挑選特征。

最終,用戶的訪問行為會變成一組特征,那特征的 value 如何確定?以最重要的特征——訪問頻率為例,多高的訪問頻率值得我們關注?這需要我們對于每個業(yè)務場景進行學習,才能確定這些 key 的 value。

學習的規(guī)律主要包括兩大類:

  • 行為規(guī)律。自動找出路徑的關鍵點,根據(jù)狀態(tài)轉移概率矩陣,基于 PageRank 的 power method 計算原理,網(wǎng)站路徑的狀態(tài)轉移矩陣的最大特征值就代表其關鍵路徑(關鍵匯聚點和關鍵發(fā)散點),然后順著關鍵點,就可以學習到用戶的路徑訪問規(guī)律。
  • 文本規(guī)律。對于 API,可以通過學習得出其輸入輸出規(guī)律,如輸入?yún)?shù)數(shù)量、每個參數(shù)的類型(字符串 or 數(shù)字 or 郵箱地址等)、參數(shù)長度分布情況,任何一個維度都會被學習出其概率分布函數(shù)。

然后就可以根據(jù)該函數(shù)計算其在群體中的比例。即便是最不確定的隨機分布,利用切比雪夫理論也可以告訴我們這些值異常。

假如 GET /login.php?username = 中的 username 參數(shù),經(jīng)過統(tǒng)計計算得出平均長度是 10,標準差是 2,如果有一個用戶輸入的 username 長度是 20,那么該用戶的輸入在整體里就屬于占比小于 5% 群體的小眾行為。

通過特征選擇和行為、文本規(guī)律學習,我們就可以構建出一套完整且準確的特征空間將用戶的訪問向量化,進而進行無監(jiān)督學習。

03讓系統(tǒng)越來越聰明

如果一個系統(tǒng)沒有人的參與,是無法變得越來越聰明的,如 AlphaGo 也需要在同人類高手對弈中不斷強化自己。

在安全領域,雖然完全的樣本標注不可能,但是我們可以利用半監(jiān)督學習的原理,挑選具有代表性的行為交給專業(yè)的安全人員判斷,經(jīng)過評定校正,整個系統(tǒng)會越發(fā)聰明。

安全人員的校正可以與強化學習和集成學習結合實現(xiàn),對于算法判斷準確的情況,可以加大參數(shù)權重,反之則可以適當減少。

類似的想法出現(xiàn)于國際人工智能頂級會議 CVPR 2016 的最佳論文之一,“AI2: Training a big data machine to defend”,MIT 的 startup 團隊,提出了基于半監(jiān)督學習的 AI2 系統(tǒng),可以在有限人工參與的情況下,讓安全系統(tǒng)更安全更智能。

04重新定義 Web 安全

基于上述幾點,我們基本可以勾勒出基于 AI 的 Web 安全的基本要素:

AI Web 安全技術棧

從上圖可以看到,所有算法均包含在實時計算框架內。實時計算框架要求數(shù)據(jù)流的輸入、計算、輸出都是實時的,這樣才可以保證在威脅事件發(fā)生時,系統(tǒng)可以迅速做出反應。

但是,實時計算的要求也增加了很多挑戰(zhàn)和難點,一些傳統(tǒng)離線模式下不是問題的問題,在實時計算下會突然變成難題。

比如最簡單的中位數(shù)計算,要設計一套在實時流輸入的情況下,同時還能保證準確性的中位數(shù)算法并不容易,T-digest 是一個不錯的選擇,可以限定在 O(K)的內存使用空間。還有一些算法可以實現(xiàn)在 O(1)內存占用的情況下計算相對準確的中位數(shù)。

綜上所述,我們可以看出利用 AI 實現(xiàn) Web 安全是一個必然的趨勢,它可以顛覆傳統(tǒng)基于 policy 配置模式的安全產(chǎn)品,實現(xiàn)準確全面的威脅識別。

但是,構造基于 AI 的安全產(chǎn)品本身也是一個復雜的工程,它涉及特征工程、算法設計和驗證,以及穩(wěn)定可靠的工程實現(xiàn)。

總之,基于 AI 的 Web 安全是新興的技術領域,雖然目前還處于發(fā)展期,但最終一定會取代以 policy 為驅動的傳統(tǒng)安全產(chǎn)品,成為保證企業(yè) Web 安全的基石。

[[206044]]

叢磊

白山云科技合伙人兼工程副總裁

2006 年至 2015 年就職于新浪,原 SAE(SinaAppEngine)創(chuàng)始人,曾任總負責人兼首席架構師。2010 年起,帶領新浪云計算團隊從事云相關領域的技術研發(fā)工作。他擁有 10 項發(fā)明專利,現(xiàn)任工信部可信云服務認證評委。2016 年加入白山云,主要負責云聚合產(chǎn)品的研發(fā)管理和云鏈產(chǎn)品體系構建等。

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2017-10-18 10:09:50

2017-10-11 12:38:54

2017-01-10 13:18:32

IBM存儲IBM存儲

2025-03-27 00:01:25

2018-09-13 23:49:10

2022-09-01 10:35:22

?VMware

2009-08-03 18:42:55

2019-07-03 09:32:11

APIGGVKong

2024-12-12 11:32:51

2016-06-29 17:11:17

2021-08-27 16:40:44

網(wǎng)絡安全/邊界安全棧

2014-04-08 10:36:19

云安全M9000

2020-10-22 12:30:57

室內農(nóng)業(yè)人工智能AI

2020-10-23 16:06:47

人工智能農(nóng)業(yè)技術

2025-05-24 14:35:21

2022-03-05 11:53:41

網(wǎng)絡安全領導者網(wǎng)絡安全

2022-03-17 06:47:59

網(wǎng)絡安全網(wǎng)絡安全領導者

2016-09-28 01:05:14

工智能視頻分析漏洞

2025-03-11 08:30:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产玖玖| 国产精品亚洲一区 | 韩日免费视频 | 亚洲国产18 | 99福利视频 | 国产人久久人人人人爽 | 日韩在线视频免费观看 | 久久综合爱 | 久草网址| 天堂中文资源在线 | 欧美一级在线观看 | 亚洲欧美精品在线观看 | 欧美11一13sex性hd | 色综合视频 | 国产精品高潮呻吟久久 | 九九热在线视频 | 97国产精品 | 2020国产在线 | 欧美日本韩国一区二区 | www.啪啪.com| 伊人久久精品一区二区三区 | 亚洲国产一区二区三区, | 精品96久久久久久中文字幕无 | 国产精品久久一区二区三区 | xxx.在线观看 | 国产精品久久久久久中文字 | 欧美综合久久 | 国产在线一区二区三区 | 97人澡人人添人人爽欧美 | 国产激情精品一区二区三区 | 国产美女视频一区 | 免费国产视频在线观看 | 亚洲国产精品成人综合久久久 | 青娱乐一区二区 | 一区二区视频 | 色一级片| 黄片毛片免费看 | 久久久久久久久久久久91 | 免费不卡一区 | 中文一区| 亚洲综合二区 |