技術揭秘 | 互聯網廣告黑產盛行，如何反作弊？

作者：阿里技術 2020-12-17 10:58:43

世界廣告主聯盟WFA表示[1]“若不采取措施，2025 年虛假廣告花費將高達 500 億美元，僅次于毒品交易金額，成為世界第二大非法營收”。

有人的地方就有江湖。廣告作為互聯網公司商業變現最為直接快捷的途徑，廣告作弊已經形成了一個有完整鏈條的黑產行業。如何通過技術手段識別并防范廣告作弊？本文通過介紹常見的廣告計費模式和虛假流量的獲益形式和發生機制，分析廣告點擊反作弊的核心問題，分享相關的反作弊實踐經驗，詳解反作弊技術體系及核心算法。

背景

世界廣告主聯盟WFA表示[1]“若不采取措施，2025 年虛假廣告花費將高達 500 億美元，僅次于毒品交易金額，成為世界第二大非法營收”。

互聯網行業發展的幾十年來，已經滲透到生活的方方面面，各種互聯網公司層出不窮。互聯網公司的商業變現途徑已經發展出引流、電商、游戲等多種流派，但是廣告變現作為一種最快捷和直接的變現途徑，依然占據著整個行業的大半壁江山。國際國內的各大互聯網公司如：Google、Facebook、百度、阿里、騰訊、字節跳動、各大門戶或視頻網站，廣告收入占其總收入的比例都非常高。有人的地方就有江湖，有江湖的地方就有紛爭。互聯網廣告也引申出了作弊與反作弊的紛爭。互聯網廣告作弊已經成為了一個有完整鏈條的行業，而反作弊部門也成為了各大依靠廣告變現公司的標配。

一常見廣告計費模式

一個網絡媒體(網站)會包含數十個甚至成千上萬個頁面，網絡廣告所投放的位置和價格就牽涉到特定的頁面以及瀏覽人數的多寡。這好比平面媒體(如報紙)的“版位”、“發行量”，或者電波媒體(如電視)的“時段”、“收視率”的概念。網絡媒體常見的廣告收費模式[2]有CPM、CPC、CPA、CPT、CPS、CPI，下圖是各種廣告計費模式的邏輯和作用：

1 CPM

英文全稱Cost Per Thousand Impression，也稱每千次展示的成本。CPM是一種展示付費廣告，只要展示了廣告主的廣告內容，廣告主就為此付費。由于展示了廣告就可以收費，不關心用戶是否有后續互動轉化，因此這種廣告的費用也是比較便宜的。按此計費的廣告一般是以展示為目的，如開屏廣告。

2 CPC

英文全稱Cost Per Click。CPC是一種點擊付費廣告，根據廣告被點擊的次數收費。每一次點擊計一次費，因此即使向1000個訪問者展示了你的lander頁面，但是只有1個人點擊了你的lander，也只按照1次點擊進行計費，因此可以說CPC這種模式在廣告測試的初級階段使用較為合適，為確定對你的產品感興趣的目標人群的流量而付費，可以在測試的早期快速收集廣告數據，盡快定位出目標人群畫像，為下一步擴量的投放做準備。最常見的如搜索引擎關鍵詞廣告采用這種定價模式，比較典型的有Google的AdSense、百度鳳巢競價廣告以及淘寶的直通車廣告。

就是每一次點擊計一次費，但有些聯盟是有明確規定的，每個ip在一段規定的時間內只扣費一次，這樣的方法可以增加作弊的難度。但是此類方法就有不少人覺得不公平，比如雖然瀏覽者沒有點擊，但是他已經看到了廣告，對于這些看到廣告卻沒有點擊的流量來說，廣告成了白忙活。

3 CPA

英文全稱Cost Per Action。CPA是一種按廣告投放實際效果計價方式的廣告，而不限廣告投放量。CPA的計價方式對于網站而言有一定的風險，但若廣告投放成功，其收益也比CPM的計價方式要大得多。因為CPC有可能存在欺騙性(比如典型的機器人刷點擊)，所以就產生了CPA。比較常見的CPA計費方式的廣告有注冊賬號、電商場景的加購物車或者收藏、微信的關注公眾號等。

4 CPT

英文全稱Cost Per Time。CPT是一種以時間來計費的廣告，國內很多的網站都是按照“一個月多少錢”這種固定收費模式來收費的，這種廣告形式很粗糙，無法保障客戶的利益。但是對網站來說CPT的確是一種很省心的廣告，能給網站帶來穩定的收入。

CPT是品牌廣告的報價方式，這種收費模式簡單易用，廣告主自主選擇的空間大。但是CPT沿用幾年，廣告主漸漸發現這種收費形式缺乏說服力。對客戶和網站都不公平，無法保障廣告客戶的利益。由于各大媒體尚未能實時地公布其每天的不同頁面的日訪問量和日不重復訪客數，因此，廣告主在衡量廣告投放效果時只能根據媒體公布的數據進行估算，這種評估方法難以體現互聯網廣告所應有的精確性和實時性，而只是根據經驗估算出廣告所能傳達到的用戶數量及相應所需付出的費用。同時一個越來越明顯的趨勢是隨著媒體頁面訪問量的不斷變化提高，媒體缺乏有力的第三方數據向廣告主證明這種頁面訪問量增長的準確可靠性，只能被動地每半年或每一年調整一次價格，以提高自己的收人。

電商網站主頁中間位置的鉆展和門戶網站的包月廣告都屬于這種CPT廣告。適合垂直行業平臺展示廣告位，類似地鐵廣告、電梯廣告等戶外廣告也是這種類型，通常按周、月進行銷售。

5 CPS

英文全稱Cost Per Sales。CPS是一種以實際銷售產品數量來計算廣告費用的廣告，這種廣告更多的適合購物類、導購類、網址導航類的網站，需要精準的流量才能帶來轉化。

這種模式的好處是相對容易得到廣告主的認同，只需要在完成一單訂單后才會支付相應的廣告費用，不好的地方是在現有條件下，會導致廣告資源的浪費，例如一個網站投放了CPS廣告，10000個訪客中可能會有100個人對產品感興趣，而100個人中間只有10個人最后完成了購買的轉化，但另外9900個流浪其實就浪費了。所以大型媒體一般不會采用這種結算方式，采用此類方式的媒體一般處于長尾端利基產品進行廣告投放。因為推廣效果能夠比較準確的計量與評估，對于廣告主而言，CPC、CPA、CPS方式比CPM、CPT模式更加有利。

6 CPI

英文全稱Cost per install。按每次裝機付費，是移動端APP推廣常用的計費模式。

二虛假流量的獲益形式和發生機制

1 廣告投放流程

下圖是廣告投放流程[1]：

2 獲益方式

廣告作為互聯網最主要的盈利模式，利益誘惑下部分流量提供方會有作弊動機。下圖[1]是幾種常用廣告計費模式對應的獲益方式。

3 發生機制

機器作弊[1]成本低，特征集中，容易識別;人工作弊成本高，作弊者要想獲利也會表現會一定的集中性，需要深入分析數據挖掘異常特征，從而識別作弊。

三廣告點擊反作弊核心問題

世界廣告主聯盟WFA表示[1]“若不采取措施，2025 年虛假廣告花費將高達 500 億美元，僅次于毒品交易金額，成為世界第二大非法營收”。

互聯網行業發展的幾十年來，已經滲透到生活的方方面面，各種互聯網公司層出不窮。互聯網公司的商業變現途徑已經發展出引流、電商、游戲等多種流派，但是廣告變現作為一種最快捷和直接的變現途徑，依然占據著整個行業的大半壁江山。國際國內的各大互聯網公司如：Google、Facebook、百度、阿里、字節跳動、各大門戶或視頻網站，廣告收入占其總收入的比例都非常高。有人的地方就有江湖，有江湖的地方就有紛爭。互聯網廣告也引申出了作弊與反作弊的紛爭。互聯網廣告作弊已經成為了一個有完整鏈條的行業，而反作弊部門也成為了各大依靠廣告變現公司的標配。

虛假流量的存在，讓數字廣告行業遭受前所未有的信任危機。具體危害主要表現在：

虛假流量的存在，讓廣告效果、品牌安全等方面都難以實現廣告主的投放初衷，會導致獲客成本的增加，直接造成了廣告主的經濟損失。
無效流量掩蓋了真實用戶。從結果上看，虛假流量提升了流量數據，虛增的曝光次數實際對廣告主并無價值，無法提升客戶與商機的數量、無法提升真實的用戶留存和真實的用戶活躍。
數字廣告行業遭受前所未有的信任危機。因為不良的競爭及短期的利益驅使，加上廣告主對數字廣告營銷效果的困惑、混亂，造成廣告主對數據廣告的信譽危機。

下述探討按CPC計費的廣告點擊反作弊。

1 無效點擊定義

點擊反作弊的工作目標是把流量中存在的“無效點擊”過濾掉。對于“無效點擊”的定義，維基百科上的定義如下：

Click fraud occurs in pay per click online advertising when a person, automated script or computer program imitates a legitimate user of a web browser clicking on an ad, for the purpose of generating an improper charge per click.

簡單來說無效點擊是指在CPC計費的廣告系統中，以人工或者機器手段蓄意造成的非以轉化為目的的廣告點擊行為。

2 廣告點擊業務的運轉邏輯

下圖[3]是廣告投放過程涉及的4個角色，他們的基本功能和訴求如下：

廣告主：將自己產品的廣告觸達到用戶，通過廣告在受眾群體或目標用戶中產生一定的品牌影響力，進一步使得用戶成為其服務或產品的消費者。
廣告代理/銷售：比較專業的廣告推廣操盤手，幫廣告主管理賬號，提供專業的營銷服務。
廣告交易平臺：是一個連接互聯網媒體和廣告主的廣告系統平臺，不僅會給廣告主提供廣告營銷工具和廣告投放服務，而且會借助互聯網媒體的流量實現廣告的商業價值。比如有大量用戶和流量的搜索引擎公司、電商公司、社交公司。
媒體：媒體一般為互聯網網站或互聯網信息與服務的提供商。互聯網廣告投放的媒體通過用戶在其網站瀏覽信息或者使用服務的過程中完成廣告信息的傳播，媒體一般也叫聯盟。比如一些小網站，如博客。
用戶：在互聯網上瀏覽信息或使用服務的人，也是廣告主的潛在的廣告客戶。

下表介紹了上面5個角色的在廣告產業鏈中“提供的服務、利益訴求、作弊動機”。這些作弊者是黑產中的一部分，另外一些專業黑產為上述作弊者提供專業的作弊服務(比如養的批量賬號，比如提供可以修改點擊者環境信息的作弊器)，以收取服務費。

3 反作弊的意義

定性方面：業務發展和風險如同汽車的引擎和剎車，是有機的組成。引擎負責向前，剎車負責避免風險。
定量方面：業務如同放貸，而技術風險就是放貸的利率。利率高了，業務就跑不動了;利率低了，是要有泡沫破滅的大風險的。利率的高低是需要數據和藝術來平衡的。”

廣告點擊反作弊表面上是過濾了點擊，減少了營收。實際上是過濾廣告主認為不該扣費的點擊，保障廣告主的正常投放廣告，提升廣告主對平臺的信任度，為廣告業務的發展保駕護航。

正如CRO的使命中所說“反作弊的使命是讓消費者安心，讓業務方/商家與合作伙伴省心，讓監管單位放心，讓作惡者灰心”。

4 反作弊的難點

業務視角的難點

很贊同大家提的反作弊要盡量做到“上醫治未病”、“遏制劣幣驅逐良幣”以及反作弊要做到“水不驚魚不跳”、“沒有人知道我的存在就是我做得好的一個表現”。這是對平臺發展、買家和賣家體驗的義無反顧的責任，做得不好的時候別人很快就知道我的存在了，但是做到“風平浪靜”的時候怎么證明是反作弊的貢獻呢?準確過濾的作弊量一定程度上反映問題。客戶的體驗和信任度也反應反作弊的價值。

技術視角的難點

道高一尺魔高一丈，作弊和反作弊都在不斷迭代升級，如果沒能過濾新型大規模攻擊將非常影響客戶體驗和對平臺的信任，怎么持續做到“上醫治未病”、“防范于未然”，保障客戶體驗和避免平臺資損。后續我們會介紹事前我們的“主動發現作弊機制”，以及事后升級規則和模型。
缺少置信樣本，怎么在保證召回作弊的情況下控制平臺的資損。后續“樣本工程”部分介紹我們的有監督模型是怎么選樣本的。
用什么指標衡量業務做得好?我們用準召率和召回率兩個指標，準確率分兩種，一種是新策略的準確率，計算邏輯為“大盤點擊的轉化率/新策略單獨識別點擊的轉化率”;另一種是線上所有策略的準確率，計算邏輯為“大盤點擊的轉化率/所有策略識別點擊的轉化率”。召回率指客戶賠付總次數和金額。

5 作弊動機

在整個行業中每個角色在整個鏈條中利益訴求不盡相同，其作弊動機也不一樣，接下來我們單獨分析每個角色的作弊動機及利益所在：

廣告主：雖然廣告主是最初的金主，但也存在作弊的強烈動機。比如在競價環境下希望盡快消耗競爭對手的廣告從而使自己容易拿到量，或者對自己作弊從而提升自己的點擊率。
廣告交易平臺：廣告交易平臺還有被動的作弊，因為還有很多流量來自于其它媒體的引流，這些媒體參差不齊，廣告交易平臺和媒體之間的結算以點擊來結算，所以媒體也有足夠的動力作弊。而這些點擊完全不會有任何轉化。

6 作弊類型

機器作弊：使用機器或程序來模擬廣告行為，或者通過木馬和肉雞模擬用戶的廣告行為。為了使點擊行為不被規則類發現還會控制ip分布和時間。機器作弊有如下的方法：模擬器、Proxy(網關，修改ISP，IP，UA，設備類型等)、爬蟲(各家搜索引擎大量爬取著整個網絡，依然會消耗巨大的廣告預算)。
人工作弊：雇人用真實的設備進行廣告的各種行為操作，主要方式為眾包。

7 評價反作弊效果的方法

以下對比我們與阿里媽媽、百度鳳巢的主要評價指標，主要評價指標均是準確和召回兩個視角。召回視角比較相似：都是客戶感知，客戶賠付次數和賠付金額。以下對比準確視角的指標。

我們評價過濾準確的方法

準確視角：新策略上線前，計算其近似準確率的邏輯為“大盤點擊的轉化率/新策略單獨識別點擊的轉化率”大于 X，值越大越準確，具體閾值根據業務統計數據和人工評測確定

阿里媽媽評價過濾準確的方法

準確視角：借助淘系閉環轉化效果，估算準確率置信區間。

百度鳳巢評價過濾準確的方法

準確視角：人工抽樣，可視化的評測各個維度的統計分布特征，然后計算準確率。

我們與阿里媽媽均是電商業務，有轉化數據，比較適合用轉化率指標。百度鳳巢代表的其他無轉化指標的廣告系統，適合人工評測。

另外關于轉化率可以根據業務定義，比如騰訊APP推廣反作弊系統會讓各個APP設定轉化指標，如留存、激以及電商場景的收藏、加購物車等。

四反作弊技術體系

反作弊非常重要的一點是數據分析，本文暫不展開。下述技術已經應用到多個業務的廣告點擊反作弊中，下述技術不僅適用于按CPC計費的廣告點擊反作弊，多數技術也適用于其他計費模式(CPM/CPA/CPS/CPI)的反作弊。

1 技術體系大圖

數據層

線上系統使用了用戶歷史多天的站內全鏈路行為數據，和最近的曝光、點擊數據。行為反映用戶的意圖，在行為序列模型TextCNN、BiLSTM、Bert和GraphSage里都用到了用戶的歷史行為序列。

算法層&應用層

如前面所述，作弊和反作弊都在不斷迭代升級。目前的算法主要集中在人工經驗規則、統計策略、機器學習和深度學習模型、圖模型。

下述簡單介紹算法迭代的過程，詳細介紹請參考后面核心算法部分。

業務剛開始的作弊主要是機器作弊，一些人機識別、爬蟲識別、黑名單即可識別大部分作弊。我們稱之為單點反作弊。
隨后作弊者升級到人工作弊，比如大規模人工點擊(期間還不斷清除介質)，或者只點沒有轉化的行為序列異常，我們會升級到計數、比例、分布等統計策略和行為序列模型TextCNN、BiLSTM，已經能攔截大部分的個人作弊。我們稱之為線上反作弊。
接著作弊者又會升級高級的人工作弊，模擬人的點擊，盡可能的各種特征上不集中，但是畢竟作弊者要達到收益的話，需要有一定的作弊量，而他們不知道正常點擊的真實分布，自然的會在一些維度上出現異常。我們反作弊算法升級到無監督相對熵模型，再后面有樣本了升級到有監督的GBDT和Wide&Deep，均是從多個維度和特征上識別作弊。我們稱之為面上反作弊。
再后面作弊難度更大了，他們會有眾包團伙作弊，我們也升級聯通圖、圖神經網絡GraphSage等模型，識別作弊團伙。我們稱之為體反作弊。

架構層

廣告點擊涉及到錢，時效性要求高，所以必須有實時反作弊;但是實時策略只能看到當前點擊之前的數據，不能看到點擊之后的數據，可能存在少量判斷不準的情況。故我們增加了小時級別的離線模型，使用更多數據提升準確率和召回率。

運營平臺

投訴反饋是與廣告主反饋無效點擊的通道。
主動發現作弊是我們離線運行一些達不到上線準確率的策略，以在廣告主感知到之前主動發現作弊，提升客戶體驗。由于準確率達不到上線標準，故需要較多的人力分析挖掘的疑似作弊。在后面的主動發現作弊環境會詳細介紹思路。
數據沉淀包括兩方面，一是識別的無效點擊用于后續訓練有監督模型識別作弊，二是識別無效點擊，以便下游廣告算法等清洗數據。

2 規則與模型對比

新型作弊大規模出現時，非常影響客戶體驗，進而影響業務發展，規則適合解決這種緊急出現的大規模作弊;且規則容易實時部署;且規則可解釋性強，早期的反作弊中使用較多，正因為這個原因，微軟的廣告反作弊系統2016年主要還是規則;再者反作弊場景天然缺少作弊樣本，也是規則受歡迎的一個原因。但由于規則過于依賴人的經驗，且維度單一，容易被作弊者繞過，在作弊退去時可能因為準確率變低而誤過;另外一個規則解決一類作弊的話，后期會出現規則過多，維護成本高。另外統計規則為了保證準確率段首較大。

當規則和人工經驗多了會積累作弊樣本，這時候將規則作為模型的特征訓練模型，讓模型自己學作弊的特點以召回作弊。由于模型使用特征較多，準確率更高，且一定程度上解決規則的段首問題。

3 樣本工程

前面提到我們是電商場景，所以有轉化數據，而且前期有統計規則的過濾點擊，故可以用規則圈一些較準確的樣本(即轉化率較低的樣本)。
基于經驗構造樣本，也就是在其他場景的反作弊經驗的遷移應用。
使用SMOTE[4]生成樣本，我嘗試過SMOTE生成樣本的實驗，召回上略有提升。當作弊樣本較少，SMOTE相當于差值法，生成作弊樣本使得取值分布更全面。
使用GAN[5]生成樣本，[6]用GAN生成欺詐樣本用于訓練有監督模型。下圖是GAN生成作弊樣本的思路。

4 特征工程

一般來說，真實流量一般自然 (真實的流量在各個維度中表現一定是自然的)與多樣(網民的喜好各不相同，行為一定也是多樣的)。而對于虛假流量，常表現出一定的目的性(虛假流量的產生一定和某個特定的目的有關)和規律性(特定的目的導致虛假流量一定有特殊的規律)。

由于虛假流量與真實流量在具體訪問行為有較大差異，圍繞用戶行為可從以下幾方面識別出虛假流量。

模型的特征值或者規則是由下述的“維度*特征*類型”組合而成的，其中類型是通用的，支持配置。

維度

常用維度：時間&地域維度、終端類型、操作系統、聯網方式、瀏覽器、設備介質、IP、廣告主賬號、refer、query集中等。

下面以時間維度&地域維度舉例：正常的流量訪問分布在一天中的各個時段、地理分布較為均勻(區域性投放或者活動除外)、訪問趨勢較為平緩。而虛假流量出現時間段特殊、來源區域集中、趨勢突增的情況。因此，通過流量產生的時間、地理位置、訪問趨勢變化都可以成為判斷虛假流量的參考方式。

同理用戶的終端類型、操作系統、聯網方式、瀏覽器、設備介質、IP、廣告主賬號、refer、query集中等屬性，同樣可以成為判斷虛假流量的參考標準。

特征

1)產品參與度

具體包括平均訪問深度、平均訪問時長、用戶行為路徑、鼠標點擊位置等。

平均訪問深度：訪問深度是用戶一次瀏覽網站、APP的深度，它是衡量網站服務效率的重要指標之一。以刷量為目的的虛假流量，用戶訪問深度通常非常低，因為他的目的是作弊，點完即走。當然造成用戶訪問深度不夠的原因有多種，如新投放的落地頁的失敗引導。因此我們在觀察此指標時，應率先排除產品較大改動造成的訪問深度不足等特殊情況，或者與其他渠道的流量數據綜合比較，進行科學評估。
平均訪問時長：平均訪問時長指標，主要用來衡量用戶與網站、APP 交互的深度。交互越深，相應停留的時長也越長。顯然虛假流量追求的是“量”，而非“時長”，因此平均訪問時長也可以配合幾個網站參與度指標一起分析。比如機器點擊的訪問時間會比較集中。
用戶行為路徑：用戶在網站中的訪問行為路徑，用戶路徑的分析模型可以將用戶行為進行可視化展示。因此通常用戶通過渠道來到。網站后會有不同的行為，他們一般會從落地頁開始進行分流，會訪問不同的頁面，并在不同的頁面結束對網站的訪問。顯然，用戶行為序列分布是沒規律的，而對于虛假流量，雖然通過某些方式完成點擊，但也是預先設定，有跡可循的。后面的TextCNN和BiLSTM模型解決的就是行為序列異常的作弊，有相應的作弊case，用戶基本只訪問homepage和detail，沒有訪問其他頁面。
鼠標點擊位置：虛假流量用戶的鼠標點擊位置通常是集中的，借助熱力圖工具可以較為容易地發現問題。

2)轉化情況

很多作弊流量可以模仿人類行為，成功繞過平均訪問深度和停留時長這些宏觀指標，但是要模仿一個業務轉化就比較難了，如果宏觀指標表現很好，業務轉化很少的話，就需要提高警覺。當廣告主被惡意攻擊時，其點擊擊率會突然變高或者推廣時長突然變低。

類型

以下的策略類型均可配置“特征”和“維度”。

計數：如策略“IP近1天點擊次數”，超過一定閾值是則是作弊。適用于過濾大規模攻擊。
比例：如策略“IP下平均訪問時長小于等于0秒的點擊數占比為Y”，Y過大也是作弊。適用于“可列特征取值的某一個值占比異常的情況”。
分布：如下圖所示是作弊點擊和正常點擊在訪問時長的分布。我們可以用相對熵或者卡方分布計算其異常度。適用于“可列特征取值是多個值”。

Distinct：如策略“ip維度設備介質的數目”，該例子解決換設備作弊。適用于維度對象去重后值較多，如cookie的個數，行業的個數，國家的個數等值較分散的場景。
集中度：比如策略“廣告主維度top K的ip的點擊占比”，該例子解決特定ip攻擊廣告主的情況，適用于不可列特征值的top K值較集中的場景。
子維度Distinct數目分布：比如策略“廣告主主維度下的IP子維度下不同cookie數目的分布”——該例子解決換cookie攻擊Memberid的。這里廣告主是主維度，IP是子維度。適用于子維度換ip，換useragent，換設備介質等，子維度下某個特征取值分布于基準有差異。
計數分布：比如策略“IP維度設備介質子維度點擊次數的分布”，該例子解決機器均勻點擊作弊。適用于子維度點擊次數與基準差異，主要是多次點擊。

5 主動發現作弊

主動發現作弊是為了在客戶申訴前發現并召回作弊，以提升客戶體驗，但其實也已經出現作弊了。

異常檢測。[7]和[8]分別是之前我整理的中文和英文版“從時間序列、統計、距離、線性方法、分布、樹、圖、行為序列、有監督機器學習和深度學習模型等多個角度的異常檢測方法”。我們用這些方法結合上述特征工程環節的維度、特征、類型，提前發現異常。比如“memberid的點擊率和推廣時長的變化，或者某些維度下的其他的廣告指標”。如果策略準確率達到上線要求則部署到線上，否則需要對挖掘的數據做進一步分析，針對發現的作弊調研策略。
運營人員去市場上調研作弊器。
自己構建各種作弊數據模擬攻擊反作弊系統，觀察其魯棒性。
蜜罐。收集作弊者的更多信息。

6 核心算法

識別機器作弊(點)

早期的作弊是機器點擊、業務上的無效點擊上線規則，規則只關注較少維度的信息。比如識別爬蟲、內網點擊。我們稱之為單點反作弊。

識別個人簡單作弊(線)

在作弊者升級到人工作弊后，我們會升級到計數、比例、分布等統計策略和行為序列模型。我們稱之為線上反作弊。

下圖是我們發現的網站某行業出現的一類攻擊，作弊者只訪問A、B、C、G共4類頁面，因為他的目的就是點廣告。正常用戶訪問頁面很豐富。還會訪問D、E、F、H等頁面，想咨詢買東西。

我們將用戶近7天在網站的訪問頁面序列作為特征，識別本次點擊是否是作弊點擊。先通過Word2Vec對每個頁面進行文本向量化編碼。然后模型預測向量序列是否是作弊點擊。

1)TextCNN

TextCNN[9]是利用卷積神經網絡對文本進行分類的算法，輸入是詞向量，最后一層full connected網絡輸出預測結果。

卷積神經網絡的核心思想是捕捉局部特征，對于文本來說，局部特征就是由若干單詞組成的滑動窗口。卷積神經網絡的優勢在于能夠自動地對特征進行組合和篩選，獲得不同抽象層次的語義信息。如圖所示：

下圖的輸入是一個用預訓練好的詞向量(Word2Vec)方法得到的一個Embedding layer。詞向量的維度是固定的，相對于原來的One-Hot編碼要小，同時在新的詞向量空間語義上相近或者語法相近的單詞會更加接近。兩個維度，橫軸是單詞、縱軸是詞向量的維度(固定的)。我們的場景的模型結構圖如下：

2)BiLSTM+Attention

我們也嘗試了BiLSTM+Attention[10]，即雙向LSTM挖掘行為序列上下文關聯信息。LSTM依據之前時刻的時序信息來預測下一時刻的輸出，但在有些問題中，當前時刻的輸出不僅和之前的狀態有關，還可能和未來的狀態有關系。Bi-LSTM可以看成是兩層神經網絡，第一層從左邊作為系列的起始輸入，在文本處理上可以理解成從句子的開頭開始輸入，而第二層則是從右邊作為系列的起始輸入，在文本處理上可以理解成從句子的最后一個詞語作為輸入，反向做與第一層一樣的處理處理。最后對得到的兩個結果進行處理。在我們的場景中即理解為正常點擊的用戶行為序列和作弊點擊的用戶行為序列從左往右和從右往左都有較大的區分性。LSTM雖然能獲取歷史信息，但是不能突然重要信息，為了更好的篩選歷史信息中的重要信息，增加了Attention。

3)Bert

BERT (Bidirectional Encoder Representations from Transformers)模型是谷歌提出的基于雙向Transformer[11]構建的語言模型。通過海量語料預訓練，得到序列當前最全面的局部和全局特征表示。

BERT[12]網絡結構如上圖所示，Bert的內部結構是多個transformer 的encoder，從上圖可以看出Bert是雙向結構的，transformer 的encoder如下圖所示。encoder包含一個Multi-Head Attention層和一個前饋神經網絡，self-attention能幫助當前節點既關注當前的詞又能獲取到上下文的語義，Multi-Head Attention擴展了模型集中于不同位置的能力。

我們選擇BERT-Base，Uncased模型。在做文本分類項目時，只需要修改run_classifier.py文件的數據預處理類。

4)三者效果對比

TextCNN通過不同的滑動窗口可以獲取不同位置的上下文的特征，在測試集上效果比BiLSTM+Attention好。
Bert的雙向結構和多頭機制可以從多個角度獲取上下文特征，在測試集上效果比TextCNN好。

識別個人高級作弊(面)

在我們識別上述作弊后，接著作弊者又升級高級的人工作弊，模擬人的點擊，盡可能的各種特征上不集中，但是畢竟作弊者要達到收益的話，需要有一定的作弊量，而他們不知道正常點擊的真實分布，自然的會在一些維度上出現異常，故我們反作弊算法升級到無監督相對熵模型，再后面有樣本了升級到有監督的GBDT和Wide&Deep，均是從多個維度和特征上識別作弊。我們稱之為面上反作弊。

1)相對熵

下圖是正常點擊和疑似作弊點擊的訪問時長的分布。在我們沒有其中的作弊點擊標簽時，我們使用相對熵識別作弊點擊。

我們先計算N個特征的異常分，再計算M個維度的異常分，最后求和。

實際使用中，我們發現相對熵的一個缺點是新出現的作弊會帶偏基準，從而導致誤識別。由于相對熵模型是把線上策略識別為正常點擊的做基準，當新型作弊出現時，我們不能及時識別，會將其當做基準，從而基準不準確。另外就是相對熵在識別時的候選樣本不能包含大規模機器攻擊，它們也會帶偏分布。即使用時待識別樣本中需要剔除規則識別的特征非常集中的點擊。

2)Wide&Deep

Wide&Deep[13]通過分別提取wide特征和deep特征，再將其融合在一起訓練，我們場景下模型結構如下圖所示。

wide是指高維特征和特征組合的LR。LR高效、容易規模化(scalable)、可解釋性強。出現的特征組合如果被不斷加強，對模型的判斷起到記憶作用。但是相反的泛化性弱。deep則是利用神經網絡自由組合映射特征，泛化性強。deep部分本質上挖掘一些樣本特征的更通用的特點然后用于判斷，但是有過度泛化的風險。算法通過兩種特征的組合去平衡記憶(memorization)和泛化( generalization)。為了進一步提升高級人工作弊的召回率，減少統計規則的段首漏過，使用前面的一些規則和有監督模型挖掘的轉化率較低的比較準確的作弊樣本作為訓練樣本，線上統計規則作為模型的特征，訓練Wide&Deep模型識別作弊。

我們的場景中的特征有：ip、memberid、refer等維度的計數、比例、分布、distinct等類型特征。

識別團伙作弊(體)

我們也發現一些團伙攻擊廣告主，特征表現為先是一個cookie換不同ip，再是ip下換多個cookie和utdid。每個設備介質點擊次數較少，繞開了前面的統計策略，也有些點的多的段首漏識別了。而由于我們的CPC較高，客戶感知無效點擊較明顯。我們先是升級聯通圖解決同行攻擊和點自己的作弊，再升級圖神經網絡GraphSage等模型識別作弊團伙。我們稱之為體反作弊。

圖神經網絡[14][15][16]GraphSage[17]的異構網絡適合我們的場景。下圖是GraphSage兩層從鄰居聚合特征信息的示意圖：

在我們的場景中，ip、utdid、cookie等介質組成的異構圖神經網絡，下圖中紅色框的seller是為了示意被一個團伙換介質攻擊，實際構圖中沒有seller。即將強/弱介質連接的團伙的特征進行聚合。

頂點和邊特征：介質近30天的作弊信息和站內行為數據。

【本文為51CTO專欄作者“阿里巴巴官方技術”原創稿件，轉載請聯系原作者】

??戳這里，看該作者更多好文??

責任編輯：武曉燕來源： 51CTO專欄

互聯網廣告黑產

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

技術揭秘 | 互聯網廣告黑產盛行，如何反作弊？