排序模型一定要嘗試的特征交叉技巧，多場(chǎng)景驗(yàn)證有效

發(fā)布于 2024-5-22 11:37

瀏覽

0收藏

今天給大家介紹兩篇經(jīng)典的工作，這兩篇工作都是針對(duì)推薦系統(tǒng)中排序模型的優(yōu)化，方法有一些相似之處，都是利用門(mén)控網(wǎng)絡(luò)對(duì)底層特征進(jìn)行交叉。最關(guān)鍵的在于，這類方法已經(jīng)在很多真實(shí)業(yè)務(wù)場(chǎng)景中被驗(yàn)證效果顯著，非常值得還沒(méi)有應(yīng)用這類方法的同學(xué)進(jìn)行嘗試。

1.MaskNet

論文標(biāo)題：MaskNet: Introducing Feature-Wise Multiplication to CTR Ranking Models by Instance-Guided Mask

下載地址：??https://arxiv.org/abs/2102.07619??

MaskNet是2021年發(fā)表的一篇工作，引入instance-guided的mask，并使用該mask對(duì)embedding layer和hidden layer進(jìn)行element wise乘法，實(shí)現(xiàn)bit-wise的注意力機(jī)制。本文在三個(gè)工業(yè)數(shù)據(jù)集上驗(yàn)證了MaskNet的有效性，證明了本文方法能夠有效捕捉高階特征交互。

MaskNet的核心模塊是Instance-Guided Mask，結(jié)構(gòu)如下圖所示，由兩層FC layer組成，第一層稱為aggregation layer，第二層為projection layer。輸入為feature embedding layer。注意第一層FC layer寬度較寬，第二層FC layer寬度相對(duì)較小，保持和輸入維度相同。得到mask之后可以將其用于embedding層或者是隱層。

排序模型一定要嘗試的特征交叉技巧，多場(chǎng)景驗(yàn)證有效-AI.x社區(qū)

instance-guided mask可以認(rèn)為是一種特殊的bit-wise的attention機(jī)制或者是門(mén)機(jī)制，使用instance中包含的global 上下文信息指導(dǎo)訓(xùn)練中的參數(shù)更新，有效捕捉復(fù)雜特征交互。mask中數(shù)值大的元素認(rèn)為更重要，可以boost emb/hidden中的對(duì)應(yīng)元素。mask中數(shù)值小的元素認(rèn)為相對(duì)來(lái)說(shuō)不重要或者認(rèn)為是噪音，相應(yīng)的 emb/hidden中的對(duì)應(yīng)元素會(huì)被減小，達(dá)到弱化噪音，強(qiáng)化有用信號(hào)的目標(biāo)。

基于Instance-Guided Mask可以組成MaskNet中的基礎(chǔ)結(jié)構(gòu)，MaskBlock，包含三個(gè)組件：layer normalization, instance-guided mask, feed-forward hidden layer，可以有兩種輸入，當(dāng)輸入為Feature Embedding時(shí)，計(jì)算方法如下：

排序模型一定要嘗試的特征交叉技巧，多場(chǎng)景驗(yàn)證有效-AI.x社區(qū)

當(dāng)輸入為上一層MaskBlock的輸出時(shí)，多個(gè)MaskBlock可以堆疊形成一個(gè)更深的網(wǎng)絡(luò)：

排序模型一定要嘗試的特征交叉技巧，多場(chǎng)景驗(yàn)證有效-AI.x社區(qū)

MaskBlock作為一個(gè)基本的構(gòu)成單元，可以用于搭建Serial Model（SerMaskNet）和Parallel Model（ParaMaskNet），形成最終的MaskNet結(jié)構(gòu)。其中SerMaskNet是類似于時(shí)間序列預(yù)估任務(wù)，ParaMaskNet類似于多專家網(wǎng)絡(luò)/多頭注意力機(jī)制。兩種網(wǎng)絡(luò)結(jié)構(gòu)圖如下所示：

排序模型一定要嘗試的特征交叉技巧，多場(chǎng)景驗(yàn)證有效-AI.x社區(qū)

本文在三個(gè)工業(yè)CTR數(shù)據(jù)集上驗(yàn)證了MaskNet的有效性，SermaskNet在Malware和Avazu數(shù)據(jù)集取得最優(yōu)效果，在Criteo數(shù)據(jù)集上取得次優(yōu)效果。ParaMastNet在Criteo數(shù)據(jù)集上取得最優(yōu)效果，在Malware和Avazu數(shù)據(jù)集上取得次優(yōu)效果。

排序模型一定要嘗試的特征交叉技巧，多場(chǎng)景驗(yàn)證有效-AI.x社區(qū)

2.PEPNet

論文標(biāo)題：Kuaishou-PEPNet: Parameter and Embedding Personalized Network for Infusing with Personalized Prior Information

下載地址：??https://arxiv.org/pdf/2302.01115??

PEPNet是快手在2023年KDD發(fā)表的一篇工作，然而其在發(fā)表之前就已經(jīng)在多個(gè)場(chǎng)景取得了顯著效果，程維排序模型的基礎(chǔ)組件之一。

傳統(tǒng)推薦模型聚焦在單個(gè)領(lǐng)域單個(gè)任務(wù)的預(yù)估。但是現(xiàn)實(shí)中，推薦的數(shù)據(jù)分布在多個(gè)場(chǎng)景中，例如淘寶的猜你喜歡（購(gòu)前），看了又看（購(gòu)中），你可能還喜歡（購(gòu)后）等場(chǎng)景。

排序模型一定要嘗試的特征交叉技巧，多場(chǎng)景驗(yàn)證有效-AI.x社區(qū)

不同的場(chǎng)景中，user和item有重疊，因此不同場(chǎng)景中存在共性。不同的task也存在依賴關(guān)系。為每個(gè)場(chǎng)景中的每個(gè)任務(wù)訓(xùn)練單獨(dú)模型，開(kāi)發(fā)成本和后續(xù)迭代成本較大，并且由于沒(méi)有充分利用場(chǎng)景和任務(wù)之間的共性，只能得到次優(yōu)解。而將所有數(shù)據(jù)混合訓(xùn)練會(huì)由于多個(gè)場(chǎng)景數(shù)據(jù)量和多個(gè)任務(wù)目標(biāo)的稀疏性出現(xiàn)蹺蹺板現(xiàn)象。目前已有的解法包括以下兩種：?

multi-domain方法：將多個(gè)領(lǐng)域的特征對(duì)齊，但是忽略了多個(gè)target之間的依賴；

multi-task方法：擬合多個(gè)target的分布但是忽略了多個(gè)domain特征空間的語(yǔ)義差異；

現(xiàn)實(shí)中的推薦系統(tǒng)是一個(gè)multi-task && multi-domain問(wèn)題，目前工業(yè)界缺乏在這種問(wèn)題上的解法。

排序模型一定要嘗試的特征交叉技巧，多場(chǎng)景驗(yàn)證有效-AI.x社區(qū)

個(gè)性化建模始終是推薦系統(tǒng)的核心。multi-domain && multi-task任務(wù)可以認(rèn)為是user和item在不同situation下的交互，因此個(gè)性化建模可以幫助緩解multi-task && multi-domain中的double seesaw問(wèn)題。目前的很多做法在網(wǎng)絡(luò)輸入層使用個(gè)性化先驗(yàn)知識(shí)（如item_id, user_id等），但隨著網(wǎng)絡(luò)越來(lái)越深，這些個(gè)性化知識(shí)作用越來(lái)越小。因此本文提出了PEPNet，在正確的地方以正確的方式加入用戶個(gè)性化信息，通過(guò)增強(qiáng)個(gè)性化來(lái)消除multi task && multi domain任務(wù)中的預(yù)估偏差。模型結(jié)構(gòu)如下圖所示：

排序模型一定要嘗試的特征交叉技巧，多場(chǎng)景驗(yàn)證有效-AI.x社區(qū)

EPNet：注入領(lǐng)域特定的先驗(yàn)信息。使用domain-side特征作為輸入，包括domain ID和domain特定的個(gè)性化數(shù)值特征，如用戶行為/商品曝光的數(shù)值統(tǒng)計(jì)特征。????? 是gate nu function，不進(jìn)行梯度回傳

排序模型一定要嘗試的特征交叉技巧，多場(chǎng)景驗(yàn)證有效-AI.x社區(qū)

PPNet: 每個(gè)task tower中拼接user和item的個(gè)性化信息來(lái)獲取個(gè)性化的gate scores，通過(guò)門(mén)機(jī)制，在多任務(wù)中根據(jù)用戶興趣不同對(duì)DNN網(wǎng)絡(luò)參數(shù)進(jìn)行動(dòng)態(tài)化調(diào)整。傳統(tǒng)任務(wù)在擬合multi-task任務(wù)時(shí)，使用DNN網(wǎng)絡(luò)，網(wǎng)絡(luò)的參數(shù)都是一樣的，缺乏個(gè)性化。不可避免的帶來(lái)seesaw問(wèn)題。使用用戶側(cè)/商品側(cè)/作者側(cè)的特征作為個(gè)性化先驗(yàn)知識(shí)，例如user_id/author_id和其他他正，構(gòu)建DNN網(wǎng)絡(luò)裁剪用戶興趣

排序模型一定要嘗試的特征交叉技巧，多場(chǎng)景驗(yàn)證有效-AI.x社區(qū)

之后使用element-wise乘法作用于DNN中的每一個(gè)隱層進(jìn)行個(gè)性化squash，對(duì)參數(shù)進(jìn)行個(gè)性化選擇：

排序模型一定要嘗試的特征交叉技巧，多場(chǎng)景驗(yàn)證有效-AI.x社區(qū)

模型離線效果如下圖所示，PEPNets在絕大多數(shù)的domain的task上取得了最優(yōu)結(jié)果，在稀疏domain和稀疏task上效果更明顯，說(shuō)明PEPNet能較大幅度地緩解multi-domain和multi-task之間的double seesaw問(wèn)題。

排序模型一定要嘗試的特征交叉技巧，多場(chǎng)景驗(yàn)證有效-AI.x社區(qū)