成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CTO訓(xùn)練營耿志峰:大數(shù)據(jù)驅(qū)動(dòng)網(wǎng)絡(luò)反欺詐

原創(chuàng)
大數(shù)據(jù)
由51CTO高招主辦的“CTO訓(xùn)練營”活動(dòng)圓滿結(jié)束,來自百度商業(yè)安全部資深架構(gòu)師耿志峰在活動(dòng)現(xiàn)場做了主題為“大數(shù)據(jù)驅(qū)動(dòng)網(wǎng)絡(luò)反欺詐”的分享,本文章是針對演講干貨整理,呈獻(xiàn)給大家。

百度商業(yè)安全部資深架構(gòu)師耿志峰在由51CTO高招主辦的“CTO訓(xùn)練營第四課百度技術(shù)專場”做了主題為“大數(shù)據(jù)驅(qū)動(dòng)網(wǎng)絡(luò)反欺詐”的分享。其內(nèi)容主要圍繞大數(shù)據(jù)如何作用于欺詐網(wǎng)頁展開,分為什么是欺詐網(wǎng)頁、大數(shù)據(jù)分析挖掘和欺詐網(wǎng)頁檢測三部分。

【演講人簡介】

[[166721]]

耿志峰·百度商業(yè)安全部資深架構(gòu)師

耿志峰,百度商業(yè)安全部資深架構(gòu)師。2013年進(jìn)入百度,從事大數(shù)據(jù)安全方面的工作,在將大數(shù)據(jù)技術(shù)應(yīng)用在網(wǎng)址安全掃描、網(wǎng)絡(luò)反欺詐等方面,具有豐富的經(jīng)驗(yàn)。

透過經(jīng)典案例深入了解欺詐網(wǎng)頁真面目

案例一: iCloud密碼泄漏。在這起案件里,很多美國好萊塢巨星被騙。犯罪分子被擒獲后,發(fā)現(xiàn)其作案手法非常簡單。過程是給受害者發(fā)電子郵件,告知其郵件里有很多騷擾郵件,iCloud密碼已泄漏,需要馬上重置。具體第一步就是要受害者輸入原始密碼。結(jié)果可想而知,很多明星輸入導(dǎo)致大規(guī)模泄露事件。

案例二:假機(jī)票。出行時(shí),需買火車票、飛機(jī)票等。當(dāng)買不到時(shí)很多人會(huì)去百度搜索,看看有沒有其他購票途徑。這樣就很容易受到賣假票網(wǎng)站的欺騙。

案例三:熱門節(jié)日中獎(jiǎng)詐騙。一個(gè)典型案例,我要上春晚節(jié)目通知某人中獎(jiǎng),但需要交一定的保護(hù)費(fèi)費(fèi)就可以領(lǐng)取,之后上當(dāng)受騙的人不在少數(shù)。

耿志峰表示,百度針對欺詐網(wǎng)頁做了相對應(yīng)的應(yīng)用。當(dāng)用戶搜索網(wǎng)頁時(shí),疑似欺詐網(wǎng)頁大部分會(huì)屏蔽,少部分顯現(xiàn)出來的會(huì)被標(biāo)注“風(fēng)險(xiǎn)”字樣。有些網(wǎng)站是用戶真實(shí)想要的,如說博彩,百度把它顯示出來,但會(huì)告訴用戶這是一個(gè)風(fēng)險(xiǎn)網(wǎng)站。風(fēng)險(xiǎn)含義包括有詐騙、欺詐、釣魚,被黑、網(wǎng)頁亂碼和違法等。

什么是釣魚網(wǎng)站?就是未經(jīng)授權(quán),通過模仿第三方網(wǎng)站從而誘導(dǎo)用戶采取只有正規(guī)網(wǎng)站才能進(jìn)行的操作,屬于社會(huì)工程學(xué)的范疇。簡單來講,利用用戶對某些其他網(wǎng)站的一個(gè)信任,然后再盜取用戶個(gè)人信息,如銀行卡、銀行卡密碼,用戶名密碼等。

欺詐網(wǎng)站有哪些特點(diǎn)?模板化、多宿主、時(shí)效性和游擊戰(zhàn)四大特點(diǎn)。

  • 模板化。快速繁殖。
  • 多宿主。可能存在于不同的國家和地區(qū)、不同的機(jī)房、不同的服務(wù)器、不同的網(wǎng)站。
  • 時(shí)效性。數(shù)據(jù)顯示,釣魚網(wǎng)頁的平均存活時(shí)間為三天,絕大多數(shù)的有效時(shí)間少于1天。
  • 游擊戰(zhàn)。不同地域不同時(shí)間段看到的內(nèi)容不同,不同時(shí)段出現(xiàn)的欺詐內(nèi)容不同。

耿志峰表示,做黑產(chǎn)的人會(huì)對人性加以研究,對技術(shù)研究較少。其發(fā)布的欺詐網(wǎng)站多為模板化,買一個(gè)模板,填一些內(nèi)容馬上生成或用機(jī)器去填寫生成從而達(dá)到快速繁殖的目的。還有很多人來百度做廣告,執(zhí)行開始之前,百度會(huì)有非常嚴(yán)格的審查環(huán)節(jié)。這審查環(huán)節(jié)也會(huì)投入巨大精力。在審核時(shí)沒有任何問題,就是普通的一個(gè)公司官網(wǎng)、ICP備案等都正常。但在特定的時(shí)段或者特定的地區(qū),如四川地區(qū)在晚上十二點(diǎn)時(shí),內(nèi)容就會(huì)發(fā)生這樣那樣的變化,看到的完全不是之前審核內(nèi)容,是一個(gè)動(dòng)態(tài)的內(nèi)容。

欺詐網(wǎng)站有哪些分類?虛假信息和知名站點(diǎn)模仿兩大類。虛假信息,不去模仿或是投入技術(shù)手段做內(nèi)容,只發(fā)布虛假信息。如購物信息(藥品、商城)、中獎(jiǎng)信息(節(jié)日中獎(jiǎng)、游戲中獎(jiǎng))、 金融詐騙(小額貸款、信用卡)。知名站點(diǎn)模仿,如模仿京東官網(wǎng),賣一些東西,用戶付款后收錢不發(fā)東西。如火車票、飛機(jī)票,10086這些都非常典型。其他違法檢測(賭博、色情)

大數(shù)據(jù)特點(diǎn)有哪些?大數(shù)據(jù)如何分析挖掘?

什么是大數(shù)據(jù)?指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長和多樣化的信息資產(chǎn)。

大數(shù)據(jù)時(shí)代三V

大數(shù)據(jù)的特點(diǎn)。如上圖三V:數(shù)據(jù)量大、數(shù)據(jù)產(chǎn)生和傳輸?shù)母咚傩浴⒍鄻有浴?/p>

大數(shù)據(jù)信息挖掘

大數(shù)據(jù)分析挖掘。大數(shù)據(jù)主要應(yīng)用場景有哪些?可以用大數(shù)據(jù)做什么?耿志峰在演講中,主要提到如上圖三點(diǎn)。

  • 了解現(xiàn)狀、把握規(guī)律,預(yù)測未來。百度旅游熱點(diǎn)預(yù)測是典型的案例。在剛剛過去的五一非常紅,請求量特別大。大家五一想要該去哪兒,去頤和園還是去天安門,百度旅游就會(huì)告訴用戶根據(jù)以往經(jīng)驗(yàn)或者最近趨勢,某個(gè)地區(qū)熱度會(huì)達(dá)到每立方米一千個(gè)人,最好不要去。還有谷歌預(yù)測和醫(yī)療類疾病診斷等也是經(jīng)典應(yīng)用場景。
  • 個(gè)性化的需求。如在買東西時(shí),逛淘寶會(huì)推薦很多店。如買過某件東西的人還買了什么。根據(jù)所買產(chǎn)品做從各個(gè)維度做對應(yīng)的推薦。
  • 信息識(shí)別和過濾準(zhǔn)則。垃圾郵件的過濾、虛假評論、刷單屬于這一范疇。如百度錢包拉新活動(dòng)是給用戶一個(gè)鏈接,用戶拿鏈接去邀請新同學(xué)注冊百度錢包。百度錢包就會(huì)返現(xiàn)50元。面對利益,就會(huì)有人刻意刷單,最高記錄顯示,某人一天有幾十萬拉新記錄,這就可以利用大數(shù)據(jù)去建立挖掘。當(dāng)他在請求時(shí),就可知道其使用環(huán)境,如是不是代理、是不是通過IP代理、手機(jī)號(hào)在運(yùn)營商是否真實(shí)存在、陶寶上是否有號(hào)碼注冊機(jī),有無專門收驗(yàn)證碼,都可以把他找出來。

在欺詐網(wǎng)頁上如何應(yīng)用大數(shù)據(jù)的技術(shù)? 

欺詐網(wǎng)頁檢測

欺詐網(wǎng)頁檢測模型需要四個(gè)流程。收集:網(wǎng)址安全信息查詢服務(wù)、系統(tǒng):大規(guī)模數(shù)據(jù)處理架構(gòu)、引擎:大數(shù)據(jù)+機(jī)器學(xué)習(xí)/深度學(xué)習(xí)算法、運(yùn)營:數(shù)據(jù)分析和可視化。

收集,網(wǎng)址安全信息查詢服務(wù)。收集就是獲取任務(wù),數(shù)據(jù)來源主要有百度索引(不良或不好數(shù)據(jù)過濾掉)和API查詢(新浪微博、普通瀏覽器I國際國內(nèi)涉及反饋網(wǎng)頁信息的服務(wù)廠商)。百度有大容量KV數(shù)據(jù)庫(幾十億URL Link,近10萬的domain) ,每天會(huì)有百億級的有效查詢。還有來自搜索/設(shè)備/運(yùn)營商/社交等復(fù)雜的場景以及高并發(fā)、低延時(shí)。

網(wǎng)頁數(shù)據(jù)處理框架理架構(gòu)

系統(tǒng):大規(guī)模數(shù)據(jù)處理架構(gòu)。怎么樣來做快速處理的十幾億網(wǎng)頁架構(gòu)呢?  針對大量數(shù)據(jù)源會(huì)先做合并、信息傳輸和存儲(chǔ)。生成任務(wù)后,輸入模型來提取,轉(zhuǎn)化成模型需要的方式,最終用模型來盡快來檢測,達(dá)到可視化呈現(xiàn)。

模型工作流程

模型是工作一個(gè)典型的storm,在實(shí)時(shí)計(jì)算方面會(huì)非常的有優(yōu)勢。存儲(chǔ)是HDFS。

引擎:大數(shù)據(jù)+機(jī)器學(xué)習(xí)/深度學(xué)習(xí)算法。怎么樣去鑒定一個(gè)網(wǎng)頁到底是不是一個(gè)欺詐網(wǎng)頁呢?

大數(shù)據(jù)+機(jī)器學(xué)習(xí)算法神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)示意圖

如上圖,是一個(gè)內(nèi)神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)示意圖。 耿志峰表示,就是把眾多的原子拆分成非常細(xì)的緯度,把各個(gè)緯度進(jìn)行組合,這就是深度學(xué)習(xí)的精髓。通過反復(fù)組合,組合成一個(gè)有意義的組織,輸入到模型中訓(xùn)練。架構(gòu)引擎在設(shè)計(jì)時(shí)就是把原子緯度提出來,進(jìn)行合并,和基于訓(xùn)練數(shù)據(jù)基礎(chǔ)上的某個(gè)模型進(jìn)行合作,最后再輸入模型。

大數(shù)據(jù)+機(jī)器學(xué)習(xí)/深度學(xué)習(xí)算法的歷程

Rule Based(基于規(guī)則),是最早也是最有效的一個(gè)方法。基于規(guī)則的優(yōu)勢是上線快,準(zhǔn)確高,容易理解。缺點(diǎn)是依賴于人,工作量比較大、容易受到干擾和召回低。侯選規(guī)則自動(dòng)推導(dǎo),線性模型/樹模型進(jìn)行文本特征選擇、Word Embedding進(jìn)行特征詞擴(kuò)展和聚類、關(guān)聯(lián)規(guī)則和共現(xiàn)頻率進(jìn)行類目內(nèi)的規(guī)則發(fā)現(xiàn)。

Nearest Neighbor Based(基于相近),是從歷史挖掘高質(zhì)量具有代表性的樣本,提取框架和文本特征,進(jìn)行相似度特征匹配。優(yōu)點(diǎn)是上線速度快,準(zhǔn)確率高高。仿冒類效果較好,但關(guān)鍵詞規(guī)則不能較好的表達(dá)仿冒特征、結(jié)構(gòu)和內(nèi)容相似。

Model Based(基于模型),對大量數(shù)據(jù)進(jìn)行挖掘,提供和清洗訓(xùn)練樣本,針對億級別的訓(xùn)練樣本,提取擴(kuò)展千萬的特征。之后利用大規(guī)模機(jī)器學(xué)習(xí)和深度學(xué)習(xí)平臺(tái)進(jìn)行模型訓(xùn)練,深度神經(jīng)網(wǎng)絡(luò)優(yōu)化的多分類模型,這中間用到Paddle/Caffe框架來處理一些問題。優(yōu)點(diǎn)是有準(zhǔn)召率高、預(yù)測效率高、善于發(fā)現(xiàn)新模型、從海量數(shù)據(jù)中總結(jié)規(guī)律、模型非常穩(wěn)定、還有能力同時(shí)應(yīng)對多個(gè)分類。

 Topological Based(基于拓?fù)洌?/span>針對圖論進(jìn)行檢測,利用URL間跳轉(zhuǎn)關(guān)系構(gòu)造有向圖,獲得千萬節(jié)點(diǎn),億級邊。這樣就可更抽象和高層的視角把握黑產(chǎn)規(guī)律。優(yōu)點(diǎn)是掌握黑產(chǎn)品質(zhì)的規(guī)律,讓受攻擊的影響降到最小。可以分析欺詐的源頭,對惡意URL傳播源頭進(jìn)行定位,對惡意種子節(jié)點(diǎn)標(biāo)注,對惡意的網(wǎng)站進(jìn)行排名。

運(yùn)營:數(shù)據(jù)分析和可視化。運(yùn)營意義在于把信息鑒定出來,對某個(gè)網(wǎng)址對全局進(jìn)行了解。如某個(gè)地域網(wǎng)站更容易是一個(gè)欺詐網(wǎng)頁。數(shù)據(jù)分析是對存有100M黑樣本的樣本庫進(jìn)行建設(shè)和完善,對離線數(shù)據(jù)挖掘發(fā)現(xiàn)樣本,做特征歸類。建立Ad-hoc查詢接口,完成友好交互界面。對欺詐進(jìn)行分布,如地域分布、用戶人群、時(shí)間序列分析(預(yù)警)等。數(shù)據(jù)可視化呈現(xiàn)是科學(xué)與藝術(shù)的完美結(jié)合,是建立在數(shù)據(jù)分析基礎(chǔ)上的。在大數(shù)據(jù)環(huán)境下輔助探索和理解問題,使得統(tǒng)計(jì)結(jié)果如趨勢、分布等得到很好的展示。樣本可以聚類呈現(xiàn),如惡意網(wǎng)頁地域分布、域名所在地、受害用戶所在地等。

演講接近尾聲時(shí),耿志峰表示,我們的生活方式越來越多,導(dǎo)致欺詐的手段層出不窮。大數(shù)據(jù)能夠有助于我們把握規(guī)律,進(jìn)行合理預(yù)測,做到安全智能化。當(dāng)然副作用也很明顯那就是隱私問題。其實(shí)最有效的方法還是網(wǎng)民自己提高安全意識(shí)。

 

責(zé)任編輯:王雪燕 來源: CTO訓(xùn)練營
相關(guān)推薦

2016-08-05 20:21:51

CTO導(dǎo)師技術(shù)

2016-08-05 18:53:25

CTO導(dǎo)師技術(shù)

2016-08-30 18:14:43

管理51CTO技術(shù)

2016-01-05 13:44:39

2016-05-25 16:57:23

百度大數(shù)據(jù)

2016-05-14 20:54:34

CTO訓(xùn)練營大數(shù)據(jù)百度開放云

2016-10-17 13:50:31

2016-04-27 10:42:44

宜人貸CTO段念

2016-09-13 19:21:07

CTO管理技術(shù)

2016-05-25 15:45:01

百度CTO大數(shù)據(jù)

2015-09-17 10:30:45

2015-09-25 10:46:48

2016-08-04 13:41:27

CTO訓(xùn)練營,技術(shù)管理

2016-12-05 20:20:15

CTO訓(xùn)練營公開課

2016-07-05 18:15:37

池建強(qiáng)ctocto訓(xùn)練營

2016-09-26 11:17:30

CTO創(chuàng)業(yè)技術(shù)

2016-06-02 14:29:27

CTO訓(xùn)練營創(chuàng)業(yè)公司

2016-02-29 14:48:38

51CTO高招

2021-08-06 14:02:26

CTO訓(xùn)練營 招生

2021-09-23 10:53:43

數(shù)據(jù)中心
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品久久久久久久午夜片 | 亚洲国产aⅴ精品 | 99热激情 | 56pao在线 | 黄色片在线免费看 | 婷婷久久五月天 | 日韩国产精品一区二区三区 | 日韩一区二区在线免费观看 | 国产精品久久久久久久毛片 | 福利二区 | 国产夜恋视频在线观看 | 国产精品美女久久久久aⅴ国产馆 | 精品久久久久一区二区国产 | 国产日韩欧美在线观看 | 欧美日韩中文字幕在线 | 欧美亚洲视频在线观看 | 日韩精品网站 | 亚洲欧美日韩精品久久亚洲区 | 黑人性hd | 99视频| 精品无码久久久久久国产 | 黄色片av| 91精品久久久久久久久久入口 | 色999视频| 99久久久久久| 欧美精品a∨在线观看不卡 国产精品久久国产精品 | 精品在线观看一区 | 欧美一级片在线看 | 日本一卡精品视频免费 | 羞羞色影院 | 欧美一区二区 | 欧美三区 | 欧美日韩综合精品 | 中文字幕蜜臀av | 久久久久久网站 | 久久精品亚洲国产奇米99 | 九九热在线观看 | 在线黄色网| 日本三级日产三级国产三级 | 久久国产成人午夜av影院武则天 | 午夜精品|