成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

京東618廣告精排百分位AUC提升技術方案

移動開發 移動應用
推薦廣告的質量決定了京東平臺上的用戶的廣告體驗和京東平臺的廣告收入。精排是推薦廣告最重要的一環,它預估用戶對候選商品的點擊率(Click-Through Rate),也是機器學習在推薦廣告中最典型的應用環節。

?業務背景

推薦廣告是京東推薦流量的重要組成部分,它包含了多種廣告素材,包括商品、聚合頁、活動、店鋪、視頻、直播等。推薦廣告的質量決定了京東平臺上的用戶的廣告體驗和京東平臺的廣告收入。精排是推薦廣告最重要的一環,它預估用戶對候選商品的點擊率(Click-Through Rate),也是機器學習在推薦廣告中最典型的應用環節。精排點擊率預估技術是機器學習算法技術驅動業務增長的核心模塊,也是技術人員持續追求最佳精度的經典領域,下圖是京東推薦廣告幾種典型的廣告素材。

圖片

2022年618,京東首頁進行了改版升級,廣告精排技術也進行了相應升級,并應用到首頁精排模型和活動智能優選等項目中。

圖片

技術挑戰

京東首頁推薦場景的用戶構成十分復雜,有的用戶興趣十分多樣,有的用戶興趣較為單一,商品物料也變化迅速,這些因素對精準地建模廣告點擊率是極大的挑戰。我們將這些挑戰總結為以下三個方向:

(1)冷啟動現象的有效緩解:京東的首頁廣告推薦場景中存在明顯的用戶和商品長尾現象,長尾用戶和商品的數據稀疏,難以充分訓練。要提升這種情況下的點擊率,關鍵點是處理好任務中的冷啟動現象,對此,我們設計了一個通用的變分特征學習框架(VELF),以更好地利用有限的數據,保障冷啟動用戶和廣告獲得更魯棒的表征學習并避免過擬合。

(2)用戶興趣的深度挖掘:當前模型在學習用戶興趣分布時并沒有很好的融入用戶行為和京東物料庫之間的先驗知識,缺乏對整體廣告推薦語義的把控,針對該問題,我們對用戶興趣網絡結構進行了優化升級,設計了PPNet+、NeNet和Weighted-MMoE模塊,通過對用戶興趣的深層次個性化建模來提升模型的整體預測能力。

(3)全域數據的充分利用:當前模型中,用戶和廣告的數據來源相對有限,對用戶交互過程中產生的全域協同信息利用不夠充分,限制了模型預估能力的上界。對此,我們從用戶全域信息預訓練和用戶曝光數據建模出發,對用戶全域信息做一個立體擴展以提升模型預估能力。

技術方案

針對我們面臨的上述挑戰,我們對精排的工程和算法進行了重點升級,給出了系統優化方案。通過我們的系統優化,在精排點擊率模型上取得了累計超過1%的AUC提升,線上廣告收入提升也十分明顯。當前的精排模型整體結構如下圖所示,下文我們將從變分特征學習框架、用戶興趣網絡優化和全域用戶協同信息建模來介紹我們的優化方案。

圖片

01變分特征學習框架

為緩解冷啟問題,優化首頁推薦廣告場景中存在的長尾用戶及物品的處理,我們設計了一個通用的變分特征學習框架(VELF),更好地利用有限的數據為冷啟的用戶/廣告獲得更可靠的特征并避免過擬合。我們首先對用戶和廣告特征通過分布估計而非點估計進行建模。同時使用變分推斷(VI)的方法,對用戶和廣告的分布進行有效的學習。傳統變分推斷的方法使用標準正態作為分布的先驗信息,這削弱了不同特征之間的表達各異性。為了增強用戶和廣告之間的信息表達,使用用戶和廣告相應的副屬性作為各自的參數化先驗信息,進而通過后驗分布對先驗信息進行矯正。

模型的整體框架如下圖所示,其中u表示用戶id,i表示商品id,c(u)和c(i)分別表示用戶和商品相關的特征,z表示特征對應的embeding向量,zu和zi分別為用戶和商品的embeding向量,對應圖中的上下部分。在VELF中,將z的后驗分布作為待學習潛在變量,通過變分推斷來估計z的后驗分布p(z|x),x為包含用戶,商品和上下文的所有特征。

圖片

由于引入了分布建模的方法,傳統的優化方式不可導,這里使用變分推斷的方法進行求解,我們最終的損失函數可以化簡為(詳細的推導過程可見論文《Alleviating Cold-start Problem in CTR Prediction with A Variational Embedding Learning Framework》):

圖片

第一項為模型的似然(交叉熵損失),即希望模型的預測結果和真實的標簽盡可能的相似,第二項為特征分布的約束項(KL散度),即希望學到的特征后驗分布和假設的先驗分布盡可能的相似。

為了增強用戶和廣告之間的信息表達,我們使用用戶和廣告相應的副屬性作為各自的參數化先驗信息,更好的聚合具有相似特征的用戶和廣告的特征空間,損失函數改寫如下:

圖片

其中圖片為通過用戶和廣告相應的副屬性獲得的各自的參數化先驗信息,通過變分場,以及對參數先驗分布的正則,防止過度的擬合,最終的損失函數如下:

圖片

其中:

圖片

圖片

我們的方法在公開數據上取得了較大的收益,公開數據集實驗結果如下表。

圖片

上述相關工作已被推薦領域頂級會議WWW2022收錄:《Alleviating Cold-start Problem in CTR Prediction with A Variational Embedding Learning Framework》,文章鏈接:https://arxiv.org/abs/2201.10980

02用戶興趣網絡優化

為了提升用戶興趣層次化挖掘的深度,我們從強化個性化偏差,增強模型語義連接和用戶分布異構化三種建模角度出發,對模型的網絡結構進行了深層次優化。

1 、強化個性化偏差:PPNet+

當前的網絡結構中,用戶個體和目標廣告的共建語義模式,未考慮在全局用戶的共建語義模式基礎上的個性化偏差。為增加DNN網絡參數個性化,我們借鑒了快手推薦團隊提出的參數個性化網絡PPNet(Parameter Personalized Net),針對京東廣告推薦場景,做了適配化改造,提出了PPNet+,除了選取用戶ID,廣告ID,三級類目ID等關鍵特征外,還融入了物品特征,交叉特征和用戶行為特征作為門控神經網絡Gate NN(Gate Neural Network)的輸入特征。同時,我們還融入了用戶歷史點擊行為和曝光序列作為side info信息,輔助PPNet+網絡學習用戶個性化興趣。PPNet+模型結構示意如下:

圖片

如上圖所示,PPNet+繼承了PPNet的主體結構,底層由特征層(Features)和嵌入層(Embedding)構成,頂層由MLP學習并控制輸出。考慮到京東首頁推薦廣告場景的復雜性,我們還對序列信息進行了處理,通過融合emb模塊得到一個包含全域場景的fusion_emb特征向量,并將其同右側的id 特征embedding 拼接到一起作為 Gate NN 的輸入。同PPNet一樣,模型左側所有特征的 embedding 并不接受 Gate NN 的反傳梯度,以減少 Gate NN 對現有特征 embedding 收斂產生的影響。同時我們還對Gate NN模塊進行了改造處理,將原有的Neural Layer ReLU模塊替換為了對參數更加敏感的Dice激活函數,并在Gate網絡的輸入層加入normalization的操作,將不同域特征的embedding輸入大小能在相同的范圍,幫助Gate層學習到的權重參數更好的收斂。

2、增強模型語義連接:NeNet

我們注意到,經過強化個性化偏差的模型改造,PPNet+的引入雖然增加個性化偏置能力,但這種個性化偏置能力卻更容易受到短期活躍用戶的行為影響,容易使模型在后續訓練的過程中逐漸失去對長尾用戶的興趣的掌控能力,導致模型在每天更新時效果的逐步下降。為了彌補這個缺陷,我們需要對現有的網絡結構補足精度,恢復其在模型訓練過程中因為過度學習個性化偏置帶來的梯度更新損失。為此,我們基于殘差網絡的思想提出了穿針引線網絡NeNet (Needle Net),用以補償模型訓練過程中損失掉的梯度信息,主要思想可由公式表征如下:

圖片

為非線性激活函數。可以看到,NeNet融合了非線性函數的學習優勢,同時又包含了原始的輸入特征,通過類殘差學習的思想,減少了短期活躍用戶的行為帶來的影響,使模型能夠直接學習到底層非偏置化的向量特征。NeNet不需要保證嚴格的維度對齊,也沒有模塊深度要求,因此它可適用于大模型框架下的任何子模塊上,相比于原始的殘差網絡,學習的參數更加靈活,可適配在模型的主向量和子網絡上。

3、用戶分布異構化:Weighted-MMoE

從京東首頁入口我們可以發現,除主流的廣告推薦外,還包含多種類廣告的展示形式,即聚合頁廣告,活動廣告,店鋪廣告和視頻/直播廣告等。

通過獲取在線數據和離線實驗分析,我們發現不同廣告場景,用戶的點擊消費習慣并不相同;同時,不同場景在同一界面下的展現量不同,也會導致用戶興趣的分布差異。但在當前的模式下所有場景共用一套輸出,導致模型在預估時不同場景的輸出相互制約,進一步限制了推薦廣告的精排序效果。 

針對于上述問題,我們將這些多個相互關聯但又不一致的預估目標進行了綜合建模,即引入多任務學習的思想來提升上下文推薦的效果。不同于傳統的多任務模型的在時間上的串行關系(例如模型在推理用戶是否會點擊后還會推理是否下單),京東業務場景下的多任務模型更多的是一種時間上并行關系(即用戶在不同場景下的點擊不具有先后的承接關系)。考慮到上述兩種情況下,模型依然可以共享高度相似的底層輸入,為此我們引入了MMoE(Multi-gate Mixture-of-Experts)。

圖片

需要注意的是,上圖中tower A和tower B所用到的experts是同一套experts。對于不同的廣告場景任務,模型的權重選擇是不同的,所以我們為每個廣告場景配備一個 Gate 門控網絡。對于不同的任務,特定的 Gate n 的輸出表示不同的 Expert 被選擇的概率,將多個 Expert 加權求和,得到,并輸出給特定的 Tower 模型,用于最終的輸出。函數表達式如下:

圖片

圖片

同時,我們發現,原始的MMoE只涵蓋了Gate之間的相互制約關系,并未綜合考慮網絡層之間的信息共享和權重分配關系,為此我們對原有的模型做了一些改動,保持核心部分的專家網絡能夠共享底層輸入信息的同時還能將這種信息通過權重分配的方式匯總到專家輸出網絡中,由此上述公式可改進為:

圖片

圖片

其中,N的個數隨著專家數目保持一致,attention network模塊負責為學習到專家信息分配權重(即weighted賦能過程),通過這樣的網絡設計我們可以讓不同專家信息在反向求導時共享彼此的信息流,使模型始終維持一個統一的信息共享框架。

融合用戶興趣的網絡結構優化PPNet+、NeNet和Weighted-MMoE這3個策略合計精排AUC提升0.45%,對線上收入提升明顯。

03全域用戶協同信息建模

原有精排模型的數據來源信息單薄,對用戶交互過程中產生的協同信息利用不足,比如曝光數據和點擊數據等,這限制了模型的預估能力上限。京東擁有多app多場景的線上線下的綜合全域數據,是我們可以挖掘的潛在信息來源。本次升級中,我們從全域點擊數據預訓練和用戶曝光數據建模的角度出發,以增強全域數據的利用程度,提升模型的個性化預估上限。 

用戶在電商平臺與商品的交互(瀏覽,點擊,加購,搜索,購買等)信息深刻的反映了用戶的興趣。在CTR預估的任務中,用戶行為建模也一直是學術界和工業界重點關注的話題。現有的用戶行為建模主流方案都是基于attention的機制,將候選商品作為query,對用戶行為中的不同商品計算不同的權重分數來聚合用戶行為序列。我們在此基礎上針對我們的場景進行了一系列的升級拓展,從多個視角,維度對用戶和商品進行更加深入的挖掘和刻畫,在離線數據和線上真實系統中都取得了非常明顯的效果。

1、全域信息預訓練

在端到端的CTR模型訓練過程中,商品與商品之間的關系建模只會受到CTR預估準確性的影響,商品本身的相關性是被忽視的。而使用attention機制對用戶行為序列處理的初衷便是希望從行為序列中挑選出與當前候選商品相關的那一部分,雖然這種相關性與前述的商品本身的相關性不完全一致,但二者是呈現正相關的,許多工作如DIN在打印attention權重時也論證了這一點,相似商品的attention分數更高。另一方面,端到端的訓練過程中,商品關系的建模也僅僅使用了模型的訓練數據,一般模型的訓練數據只來源于其服務場景的點擊曝光數據,對于訓練數據覆蓋率不高的長尾商品建模不充分。若直接加入其他場景的訓練數據,一方面難以保證其他場景數據能正向遷移過來(實驗證明,直接加數據在大場景下很難有收益),另一方面會存在如離線訓練耗時成倍增加,不同場景數據特征難以對齊等諸多問題。因此,我們通過預訓練的方式,使用京東全站的數據,預先建模商品之間的相關性,將其通過embdedding以及相似性分數作為后驗統計特征的方式融入模型中,提升模型的表達能力。

由于在推薦系統中,用戶和商品,商品和商品之間的關系非常適合使用圖的方式組織,圖模型在建模商品相關性之間的關系具有天然的優勢。因此我們使用graph embedding的方式離線生成每個商品的embedding向量。主要生成流程如下,具體細節可參考EGES[1]。

通過graph embedding得到每個商品的預訓練向量后,可通過faiss進一步得到一份離線詞表,表中記錄了商品庫中與每個商品最相似的N個商品以及相似度分數。在模型訓練的過程中,一方面可將預訓練得到的商品embedding作為一種side info,與模型創建的隨機初始化的商品embedding參數相結合(相加,點積或concat可根據實驗效果調整)聯合訓練。離線實驗表明,相比于隨機初始化的方式,這種引入預訓練graph embedding的方式可幫助模型更好的學習候選商品和用戶行為中商品的關系。另一方面,由于用戶行為中有很多行為與候選sku沒有關系,即存在較多噪聲,且序列越長,噪聲信號越多,例如在SIM中提到,通過同類目過濾的方式,過濾大部分噪聲。類似的,我們可通過faiss生成的離線詞表,根據候選商品和用戶行為商品間的相似度分數對分數低于閾值的不相關商品進行過濾,并將相似度分數做一些離散化處理后,作為一種后驗統計特征加入模型中。

2、基于曝光信息的興趣建模(Gama)

雖然用戶的點擊,加購,購買等正向行為能夠反映用戶的近期和長期興趣,但在信息流推薦場景中,用戶的實時興趣也不斷受平臺展示出的商品的影響。例如用戶在平臺上瀏覽時可能從未點擊過T恤,但平臺給用戶曝光過某一款T恤后,或許是因為價格很便宜,或許是因為樣式用戶很喜歡,用戶當前時刻對T恤產生了興趣。這一類實時興趣由于用戶的點擊,加購,購買等行為沒有包含過,因此無法通過這些來建模。因此,需要通過引入用戶的曝光序列來刻畫用戶的實時興趣。

曝光序列建模存在兩方面的挑戰:1.曝光序列長,計算負擔大,而線上系統耗時要求較高;2.曝光序列中大多數商品與當前候選商品無關,噪聲信號多。針對這兩個問題,我們創造性的提出了一種門控自適應小波多分辨分析模型Gama,將無參信號處理方法和曝光序列信息獲取進行了結合,解決了上述兩大問題,在不降低模型性能的條件下,從海量曝光序列中自適應地挖掘多維用戶興趣,下面對我們的方法進行描述。

我們提出的模型結構如下圖所示,其中主要模塊包括小波分析模塊(Wavelet MRA)和興趣門控網絡(Interest Gate Net)。小波分析模塊,采用無參高效的小波分析方法,對曝光序列進行多層級數據分解,進而去除噪聲,挖掘出用戶曝光序列中蘊含的連貫興趣。而興趣門控網絡的加入,旨在自適應地調整多分辨率的數據分解結果的聚合權重。

圖片

小波分析模塊(Wavelet MRA):

圖片

針對向量化的曝光序列Eu,小波多分辨分析方法將其看作是多路信號,逐級進行數據分解,其中第J級的分解結果包括穩定的低頻信號a和孤立的高頻信號d,而低頻信號a會繼續進行下一級的分解。該多分辨分析過程可形式化為以下公式:

圖片

其中的H和G分別為低通過濾器和高通過濾器,其具體形式采用的小波基。常見的小波基包括Daubechies、Coiflet、Harr等,其形式請參考小波分析相關資料。

興趣門控網絡模塊(Interest Gate Net):

對于上述分析方法獲得的多路信號,最簡單的使用方法是采用其平均值。但該方法無法自適應的學習到各信號分量權重,因此我們進一步提出一下興趣門控網絡。假設目標商品表征為eq,我們采用注意力機制可對某一信號s進行聚合:

圖片

而針對所有我們需要考慮的分解信號(如d1,d2,a3),我們可以獲得用戶表征wu:

圖片

其中

圖片

我們首先驗證了該方法在公開數據集(Taobao)的效果,在多種基于用戶興趣的CTR建模框架中取得了約10%的效果提升,同時該方法對冷啟動用戶尤為有效。

圖片

同時,我們在京東數據集上也做了離線實驗,取得了不錯的AUC提升,線上A/B效果提升明顯。

圖片

圖片

圖片

上述兩項全域協同信息建模建模工作AUC累計提升0.35%,線上收入提升明顯,相關工作已被機器學習頂級會議SIGIR2022收錄:《Gating-adapted Wavelet Multiresolution Analysis for Exposure Sequence Modeling in CTR prediction》,文章鏈接:https://arxiv.org/abs/2204.14069

04其他工作

在變分特征學習框架、用戶興趣網絡優化和全域用戶協同信息建模工作之外,在精排模型上我們還做了以下升級:對特征由XGBoost綜合打分后排序,對重要特征的embedding向量做維度擴展;升級神經網絡結構的Dense層為Nadam,Sparse層為adagrad;在用戶行為序列中引入時間和位置信息增強序列屬性豐富度;引入商品廣告的主題ID頻次網絡子結構。綜合上述技術的整體優化方案,精排模型的累計AUC收益超過1%,在精排上我們還有幾個創新的工作在進展中,包括生成數據式CTR框架、Item-server分桶序列框架和Item協同替代表示學習技術。

總結與展望

總結過去,京東零售廣告算法定向組和工程團隊經過半年的技術探索,針對模型冷啟動場景、用戶興趣挖掘和全域協同建模三個維度的挑戰提出了針對性的系統升級方案:變分特征學習框架、用戶興趣網絡優化和全域用戶協同信息建模,總結歸納出了一套推薦廣告精排AUC百分位的提升技術方案,這套技術方案已于618開幕前夕在京東APP完成了全量上線。同時,本文中的技術方案也應用在了京東APP泛商品活動智能優選等項目,為京東618大促活動帶來了顯著收益。

京東零售廣告數據與算法團隊負責人林戰剛表示,"過去,我們通過技術創新構建更精準的用戶行為建模和預測能力,提升用戶體驗的同時帶來了平臺收益,實現了平臺和用戶的雙贏。未來,我們將通過持續提升數據的長度、寬度、厚度,建立針對全域用戶的深度理解,基于此構建更復雜更精準的智能算法模型,在新形勢下助力京東廣告業務發展"。展望未來,首先我們將積極探索新的精排技術范式,包括生成數據式CTR框架和Item協同替代表示學習技術框架。其次,在用戶興趣的深度挖掘上,我們構建了圍繞用戶特征的User Server動態表征賦能框架。面對多元的訓練數據和更長更寬更厚的全域用戶協同信息,我們設計了Item全域行為序列架構。精排點擊率預估技術是機器學習算法技術驅動業務增長的核心模塊,也是技術人員持續追求算法最佳精度的經典領域,我們會持續精進,與同行一起探索未來技術。

參考文獻

[1] Wang J, Huang P, Zhao H, et al. Billion-scale commodity embedding for e-commerce recommendation in alibaba[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 839-848.

[2] Zhou G, Zhu X, Song C, et al. Deep interest network for click-through rate prediction[C]//Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining. 2018: 1059-1068.

[3] Jiaqi Ma, Zhe Zhao, Xinyang Yi, Jilin Chen, Lichan Hong, and Ed H. Chi. 2018. Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts[C] //Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD '18).  2018: 1930?1939. 

[4] Andreas Veit, Michael Wilber, and Serge Belongie. 2016. Residual networks behave like ensembles of relatively shallow networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems (NIPS'16). 2016: 550?558.

責任編輯:未麗燕 來源: 京東零售技術
相關推薦

2015-07-17 07:28:39

用技術說話京東6

2021-12-28 14:10:41

開發技能代碼

2023-05-17 08:34:27

開發技術應用

2011-04-06 10:57:11

Cacti監控

2011-03-31 16:16:43

Cacti監控

2020-07-25 20:01:45

CSS前端

2016-06-13 15:48:33

京東

2016-06-06 11:36:06

數據中心

2016-09-22 09:12:45

Windows 10優化Cortana

2021-04-19 08:17:23

算法TDigestElasticSear

2017-06-05 18:27:41

黑科技618京東

2021-04-30 07:33:35

效率提升技巧

2016-06-21 16:25:26

京東京東云云計算

2015-07-17 07:47:51

京東618訂

2009-12-17 15:11:47

Ruby百分號表示法

2021-05-20 07:58:02

Appium環境搭建Windows10

2017-08-30 08:45:31

Web編程MySQL聊天機器人

2021-09-05 11:20:04

帶寬網絡排查

2016-06-06 14:02:19

京東

2024-01-03 08:40:47

開源庫技術代碼
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一级毛片在线播放 | 久久免费精品 | 欧美中文一区 | 午夜欧美一区二区三区在线播放 | 国产电影一区二区 | 日韩一级在线 | 国产精品视频网 | 国产一区二区在线观看视频 | 99久久婷婷 | 九色视频网 | 香蕉久久久久久 | 国产日批 | 日韩美香港a一级毛片免费 国产综合av | 国产一级在线 | 日韩一区二区三区精品 | 欧美视频1区 | 日韩一区二区三区在线视频 | 97人人澡人人爽91综合色 | 巨大荫蒂视频欧美另类大 | 亚洲一一在线 | 久久中文网 | 国产电影一区二区在线观看 | 国产高清在线观看 | 国产成人影院 | 人人亚洲 | 欧美精品在线播放 | 在线观看国产 | 久久久国产精品 | 精品久久精品 | 亚洲精品日韩综合观看成人91 | 综合二区| 国产精品久久精品 | 麻豆久久 | 亚洲欧美成人在线 | 午夜爱爱毛片xxxx视频免费看 | 成人不卡在线 | 国产精品久久久久久影视 | 日韩美女爱爱 | 永久免费av| 男女羞羞视频网站 | 成人精品鲁一区一区二区 |