重磅！阿里媽媽首次公開自研CTR預估核心算法MLR

作者：阿里技術 2017-06-16 15:16:32

CTR預估是互聯(lián)網(wǎng)計算廣告中的關鍵技術環(huán)節(jié)，預估準確性直接影響公司廣告收入。廣告領域的CTR預估問題，面臨的是超高維離散特征空間中模式發(fā)現(xiàn)的挑戰(zhàn)——如何擬合現(xiàn)有數(shù)據(jù)的規(guī)律，同時又具備推廣性。

一、技術背景

CTR(Click-Through-Rate)即點擊通過率，是互聯(lián)網(wǎng)廣告常用的術語，指網(wǎng)絡廣告(圖片廣告/文字廣告/關鍵詞廣告/排名廣告/視頻廣告等)的點擊到達率，即該廣告的實際點擊次數(shù)除以廣告的展現(xiàn)量。點擊率預估(Click-Through Rate Prediction)是互聯(lián)網(wǎng)主流應用(廣告、推薦、搜索等)的核心算法問題，包括Google、Facebook等業(yè)界巨頭對這個問題一直進行著持續(xù)投入和研究。

????CTR預估是互聯(lián)網(wǎng)計算廣告中的關鍵技術環(huán)節(jié)，預估準確性直接影響公司廣告收入。廣告領域的CTR預估問題，面臨的是超高維離散特征空間中模式發(fā)現(xiàn)的挑戰(zhàn)——如何擬合現(xiàn)有數(shù)據(jù)的規(guī)律，同時又具備推廣性。

二、 CTR預估算法現(xiàn)狀及進展

2.1 傳統(tǒng)CTR預估算法及不足

業(yè)界傳統(tǒng)的CTR預估解法是廣義線性模型LR(logistic regression，邏輯斯特回歸)+人工特征工程。LR使用了Logit變換將函數(shù)值映射到0~1區(qū)間，映射后的函數(shù)值就是CTR的預估值。LR這種線性模型很容易并行化，處理上億條訓練樣本不是問題。但這種解法的不足是，因為線性模型的學習能力有限，需要引入大量的領域知識來人工設計特征以及特征之間的交叉組合來間接補充算法的非線性學習能力，非常消耗人力和機器資源，遷移性不夠友好。

另外，目前業(yè)界也有一些效果不錯的非線性模型不斷被提出來，并被工程實踐且取得不錯效果，但這些模型都或多或少存在一些不足。比如Kernel方法，因為復雜度太高而不易實現(xiàn);比如Tree based方法，這個是由Facebook團隊在2014年首先提出，有效地解決了LR模型的特征組合問題，但缺點就是仍然是對歷史行為的記憶，缺乏推廣性;還有FM(factorization machine)模型，能自動學習高階屬性的權值，不用通過人工的方式選取特征來做交叉，但FM模型只能擬合特定的非線性模式，如最常用的2階FM只能擬合特征之間的線性關系和二次關系。深度神經(jīng)網(wǎng)絡非線性擬合能力足夠強，但面對廣告這樣的大規(guī)模工業(yè)級稀疏數(shù)據(jù)，適合數(shù)據(jù)規(guī)律的、具備推廣性的網(wǎng)絡結構業(yè)界依然在探索中，尤其是要做到端到端規(guī)模化上線，這里面的技術挑戰(zhàn)依然很大。

那么挑戰(zhàn)來了，如何設計算法從大規(guī)模數(shù)據(jù)中挖掘出具有推廣性的非線性模式?

2.2 阿里媽媽自主研發(fā)MLR算法

2011-2012年期間，阿里媽媽資深專家蓋坤(花名靖世)突破了主流大規(guī)模線性模型的思路，創(chuàng)新性地提出了MLR(mixed logistic regression, 混合邏輯斯特回歸)算法，引領了廣告領域CTR預估算法的全新升級。MLR算法創(chuàng)新地提出并實現(xiàn)了直接在原始空間學習特征之間的非線性關系，基于數(shù)據(jù)自動發(fā)掘可推廣的模式，相比于人工來說效率和精度均有了大幅提升。

MLR可以看做是對LR的一個自然推廣，它采用分而治之的思路，用分片線性的模式來擬合高維空間的非線性分類面，其形式化表達如下：

這里面超參數(shù)分片數(shù)m可以較好地平衡模型的擬合與推廣能力。當m=1時MLR就退化為普通的LR，m越大模型的擬合能力越強，但是模型參數(shù)規(guī)模隨m線性增長，相應所需的訓練樣本也隨之增長。因此實際應用中m需要根據(jù)實際情況進行選擇。例如，在我們的場景中，m一般選擇為12。下圖中MLR模型用4個分片可以完美地擬合出數(shù)據(jù)中的菱形分類面。

MLR算法適合于工業(yè)級的大規(guī)模稀疏數(shù)據(jù)場景問題，如廣告CTR預估。背后的優(yōu)勢體現(xiàn)在兩個方面：

1)端到端的非線性學習：從模型端自動挖掘數(shù)據(jù)中蘊藏的非線性模式，省去了大量的人工特征設計，這使得MLR算法可以端到端地完成訓練，在不同場景中的遷移和應用非常輕松。

2)稀疏性：MLR在建模時引入了L1和L2,1范數(shù)正則，可以使得最終訓練出來的模型具有較高的稀疏度，模型的學習和在線預測性能更好。當然，這也對算法的優(yōu)化求解帶來了巨大的挑戰(zhàn)，具體細節(jié)參見我們的論文(見文章尾部)。

2.3 MLR算法高級特性

在具體的實踐應用中，阿里媽媽精準定向團隊進一步發(fā)展了MLR算法的多種高級特性，主要包括：

1)結構先驗。基于領域知識先驗，靈活地設定空間劃分與線性擬合使用的不同特征結構。例如精準定向廣告中驗證有效的先驗為：以user特征空間劃分、以ad特征為線性擬合。直觀來講這是符合人們的認知的：不同人群具有聚類特性，同一類人群對廣告有類似的偏好，例如高消費人群喜歡點擊高客單價的廣告。結構先驗有助于幫助模型縮小解空間的探索范圍，收斂更容易。

2)線性偏置。這個特性提供了一個較好的方法解決CTR預估問題中的bias特征，如位置、資源位等。實際應用中我們對位置bias信息的建模，獲得了4%的RPM提升效果。

3)模型級聯(lián)。MLR支持與LR模型的級聯(lián)式聯(lián)合訓練，這有點類似于wide&deep learning。在我們的實踐經(jīng)驗中，一些強feature配置成級聯(lián)模式有助于提高模型的收斂性。例如典型的應用方法是：以統(tǒng)計反饋類特征構建第一層模型，它的輸出(如下圖中的FBCtr)級聯(lián)到第二級大規(guī)模稀疏ID特征體系中去，這樣能夠有助于獲得更好的提升效果。

4)增量訓練。實踐證明，MLR通過結構先驗進行pretrain，然后再增量進行全空間參數(shù)尋優(yōu)訓練，會獲得進一步的效果提升。同時增量訓練模式下模型達到收斂的步數(shù)更小，收斂更為穩(wěn)定。在我們的實際應用中，增量訓練帶來的RPM增益達到了3%。

2.4 大規(guī)模分布式實現(xiàn)

MLR算法面向的是工業(yè)級的數(shù)據(jù)，例如億級特征，百億級參數(shù)，千億級樣本。因此我們設計了一套分布式架構，以支持模型的高效并行訓練。下圖是架構示意圖，它跟傳統(tǒng)的parameter server架構略有區(qū)別，主要不同點在于我們在每一個分布式節(jié)點上同時部署了worker和server兩種角色，而不是將server單獨剝離出去部署。這背后的考慮是充分利用每個節(jié)點的CPU和內存，從而保證最大化機器的資源利用率。

此外，針對個性化廣告場景中數(shù)據(jù)的結構化特性，我們提出并實現(xiàn)了common feature的trick，可以大幅度壓縮樣本存儲、加速模型訓練。例如下圖示意，在展示廣告中，一般來說一個用戶在一天之內會看到多條廣告展現(xiàn)，而一天之內這個用戶的大量的靜態(tài)特征(如年齡、性別、昨天以前的歷史行為)是相同的，通過common feature壓縮，我們對這些樣本只需要存儲一次用戶的靜態(tài)特征，其余樣本通過索引與其關聯(lián);在訓練過程中這部分特征也只需要計算一次。在實踐中應用common feature trick使得我們用近1/3的資源消耗獲得了12倍的加速。

三、 MLR在阿里媽媽業(yè)務應用現(xiàn)狀

從2013年起，MLR算法在阿里媽媽及阿里集團多個BU的主要場景(包括阿里媽媽精準定向廣告、淘寶客、神馬商業(yè)廣告、淘寶主搜等等)被大規(guī)模地應用和嘗試，尤其是在阿里媽媽的精準定向廣告場景，算法模型創(chuàng)新帶來了業(yè)務上的重大突破，主要場景下的CTR和RPM均獲得20%以上的提升。典型應用如下：

3.1 基于MLR的定向廣告CTR預估算法

基于MLR算法的非線性學習能力，阿里媽媽的定向廣告CTR預估采用了大規(guī)模原始ID特征+MLR算法的架構。具體地，我們刻畫一次廣告展現(xiàn)為特征向量，它由三部分獨立構成：用戶部分特征(包括userid、profile信息、用戶在淘寶平臺上的歷史行為特征(瀏覽/購買過的寶貝/店鋪/類目上的id和頻次等)、廣告部分特征(包括adid、campainid、廣告對應的賣家店鋪id、類目id等)、場景部分特征(包括時間、位置、資源位等)。這些特征之間無傳統(tǒng)的交叉組合，維度在2億左右。然后我們將數(shù)據(jù)直接喂給MLR算法，并且應用了結構化先驗、pretrain+增量訓練、線性偏置等高級技巧，讓模型從數(shù)據(jù)中自動去總結和擬合規(guī)律。實踐證明，相比于傳統(tǒng)的LR+特征工程思路，這種解法更為高效和優(yōu)雅，模型精度更高，在實際生產(chǎn)中的可迭代更強。

3.2 基于MLR的定向廣告Learning to Match算法

Match算法是定向廣告中的一個重要環(huán)節(jié)，它的核心使命是基于用戶的人口屬性、歷史行為等信息來猜測用戶可能感興趣的廣告集合。傳統(tǒng)的Match算法更多采用的是規(guī)則匹配、協(xié)同過濾等方法，方法的擴展性不強。在阿里媽媽定向廣告系統(tǒng)中，我們研發(fā)了基于MLR的learning to match算法框架。簡單來說，用模型的方法基于用戶的行為歷史來學習用戶個性化的興趣，從而召回高相關性的候選廣告集。同樣地，基于MLR算法的非線性能力，我們可以很容易地將不同的特征源、標簽體系融合到框架中，不需要過多地關注和設計特征的交叉組合，使得框架的靈活性大大增強。

四、總結和挑戰(zhàn)

總的來說，阿里媽媽算法技術團隊自主創(chuàng)新的MLR模型和算法，在阿里媽媽業(yè)務中大范圍推廣和應用帶來了非常好的效果，另外在大數(shù)據(jù)智能方面，因為省去特征工程，具備了從數(shù)據(jù)接入到應用的全自動功能。

雖然目前取得了非常不錯的成績，但是未來的挑戰(zhàn)也不小：比如初值問題、非凸問題的局部極值、雖然MLR比LR好，但不知道和全局最優(yōu)相比還有多遠;第二，在初值的Pre-train方面需要改進和優(yōu)化模型函數(shù)等等;第三，目前規(guī)模化能力方面也需要能夠吞吐更多特征和數(shù)據(jù)，比如采用更快的收斂算法等等;最后，整體的MLR算法的抽象能力也需進一步得到強化。

【本文為51CTO專欄作者“阿里巴巴官方技術”原創(chuàng)稿件，轉載請聯(lián)系原作者】

??戳這里，看該作者更多好文??

責任編輯：武曉燕來源： 51CTO專欄

CTR 算法 MLR

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

重磅！阿里媽媽首次公開自研CTR預估核心算法MLR