成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

轉轉首頁推薦粗排優化實踐,你學會了嗎?

開發 前端
主流的推薦系統采用多階段級聯結構,主要分為召回(match)、粗排(pre-rank)、精排(rank)、重排(rerank)幾部分,每階段可以視為一個漏斗,候選物品數量逐漸減小。

1 粗排簡介

主流的推薦系統采用多階段級聯結構,主要分為召回(match)、粗排(pre-rank)、精排(rank)、重排(rerank)幾部分,每階段可以視為一個漏斗,候選物品數量逐漸減小。召回作為第一級漏斗,從海量物品池中盡可能召回所有用戶可能感興趣的物品,輸出數千個候選物品;粗排作為第二級漏斗,對數千個候選物品快速進行初篩,將候選物品減少到數百個;精排階段對候選進行精準排序;重排階段結合業務目標,決定最終結果的順序。

推薦系統漏斗推薦系統漏斗

在推薦系統整個流程中,粗排作為承上啟下的一個環節有獨特的挑戰。一方面,它決定了后續環節的輸入,既要保證輸出足夠優質,又要有一定多樣性,避免多樣性策略“巧婦難為無米之炊”;另一方面,與精排相比它的候選物品量級更大,這就限制了模型的復雜度,精度優化必須在保證效率前提下進行。

2 業界工作

2.1 模型優化

目前業界主流的粗排模型都基于深度學習,總體分為兩種:基于向量積的DNN模型(也稱為雙塔模型)、全連接DNN模型。

2.1.1 雙塔模型

粗排對性能有較高的要求,而精度要求沒有精排高。雙塔模型在高效的同時也有不錯的精度,得到了工業界的廣泛應用。

雙塔模型結構分為用戶塔、物品塔兩部分,分別輸入用戶及上下文特征、物品特征,經過DNN得到向量表示后計算相似度,最終得到打分。雙塔模型的兩部分相對獨立,通常會離線將物品向量算好并存入緩存,在線僅計算一次用戶向量,再與緩存中的物品向量計算相似度。物品向量離線計算使得物品側可以使用復雜的網絡結構,而不用擔心在線計算物品向量帶來的耗時問題。然而,簡單的結構是一把“雙刃劍”,雙塔結構導致模型無法使用用戶與物品的交叉特征,同時兩側特征交互太晚,細粒度特征經過DNN后可能已丟失,這兩點限制了雙塔模型的精度。

雙塔模型雙塔模型

為了減少特征交互晚帶來的效果損失,一種方法是在雙塔模型的特征embedding層上增加SENet[1]。SENet分為Squeeze、Excitation兩個階段,在Squeeze階段將每個特征的embedding向量壓縮為一個數值,在Excitation階段得到各特征的權重,用來對原始embedding加權。SENet的加入使得重要特征被放大,噪音和無效低頻特征被動態抑制,從而改善了特征交互的效果。

雙塔模型中的SENet雙塔模型中的SENet

2.1.2 全連接DNN模型

與強調效率、兼顧精度的雙塔模型不同,粗排模型的另一個分支是以最大限度提高精度為目標的全連接DNN模型。粗排全連接DNN模型的特征選取更加自由,可以像精排模型一樣使用交叉特征,但是為了提升效率,往往需要算法和工程的協同優化。這一方向的代表性工作是阿里的COLD[2]和FSCD[3]。

COLD模型通過特征篩選、計算邏輯優化來實現效果和性能的折中。模型結構基于GwEN,訓練時用SE Block計算特征重要度,篩選出重要特征后,重新訓練模型供在線使用。工程方面,COLD模型還使用了異構計算、列式計算、降低GPU計算精度的技巧。算法及工程優化雙管齊下使得COLD模型效果明顯超過雙塔模型,但是它的QPS仍比雙塔模型小一個數量級。

COLDCOLD

FSCD將COLD中的特征篩選過程放在了損失函數里。模型中定義了特征的dropout參數,使得特征復雜度越高保留概率越低。訓練分為兩個階段,首先學習特征embedding、網絡參數和特征域被保留的概率,然后保留k個高價值特征域,用上一步得到的特征embedding和網絡參數初始化,對模型進行微調。FSCD線上表現略好于COLD,但性能仍與雙塔有明顯差距。

2.2 樣本優化

以CTR模型為例,精排模型通常使用曝光樣本訓練,其中點擊為正樣本,未點擊為負樣本。然而,對于粗排,它在線預測的輸入為召回結果。若繼續只用曝光樣本訓練,則訓練樣本和預測樣本分布差異大,效果不確定,即存在樣本選擇偏差(Sample Selection Bias,SSB)。有許多工作提供了緩解SSB問題的方案。

樣本分類樣本分類

2.2.1 負樣本采樣

負樣本采樣的目的是使訓練數據和線上分布盡可能一致。常見的采樣方式有以下幾種:

全局隨機選擇

從全局候選物品中隨機抽取,代表工作為Youtube DNN[4]。這種方式的缺點是負樣本和正樣本可能太容易區分,模型學習不充分。此外,推薦系統中也存在二八定律,即少數熱門物品占據了大多數的曝光和點擊。由于正樣本被熱門物品“綁架”,采樣時也需要提高熱門物品在負樣本中的比例,同時保證冷門物品有可能被采到。實現時通常參考word2vec的方法計算各物品成為負樣本的概率。

batch內隨機選擇

訓練時僅輸入正樣本,在batch內對于當前用戶,隨機采樣除當前物品外的其他物品作為負樣本,即用其他用戶的正樣本作為當前用戶的負樣本。代表工作為Google雙塔召回模型[5]。

困難負樣本選擇

困難負樣本是與正樣本相似的負樣本,適當增加這種樣本可以使得模型關注細節。具體選取方法多種多樣。Airbnb[6]根據業務邏輯挖掘困難負樣本;Facebook[7]選取召回位置中段的物品;也有其他工作根據精排序選取,例如美團[8]使用精排結果蒸餾粗排模型的一系列實驗。

2.2.2 正樣本采樣

一般情況下,粗排模型的正樣本與精排相同,即曝光且有正反饋的樣本。當業務有多個場景時,例如淘寶有搜索、推薦等場景,我們可能希望將場景外的點擊、成交等收益轉化到場景內。淘寶主搜[9]通過引入場景外正樣本來實現這個轉化,實現分為修正樣本、補充樣本兩種。修正樣本時,對于原始的成交負樣本,如果在場景外有成交則修正為正樣本。與之相對,補充樣本將不存在于原始樣本中的場景外成交加入曝光樣本,同時設為曝光、點擊、成交任務的正樣本。淘寶主搜通過組合兩種擴充正樣本的方法,提升了場景外hitrate。

3 轉轉首頁推薦粗排實踐

轉轉首頁推薦場景的粗排模塊分為兩部分:第一部分為粗排模型,對召回的商品進行品類內排序,目標是最大化品類內預估精度;第二部分為流量池,負責分配各品類quota,目標是平衡粗排輸出的效率和多樣性。

3.1 模型優化實踐

粗排模型為CTR模型,目標是提升品類內預估精度。

轉轉首頁推薦粗排-模型部分轉轉首頁推薦粗排-模型部分

粗排模型以雙塔結構為基礎,在樣本、網絡結構方向進行了多次優化。

樣本優化

最初粗排訓練樣本與精排相同,即曝光點擊為正樣本,曝光未點擊為負樣本。此后對正樣本、負樣本都進行了擴充。擴充正樣本參考了淘寶主搜的做法,補充了其他場景的點擊樣本,嘗試將推薦場景外的點擊轉化到場景內。具體實現時,嘗試了修正曝光未點擊樣本、補充未曝光樣本兩種方案,實驗證明補充未曝光樣本效果更顯著。為緩解SSB問題,在曝光未點擊負樣本基礎上,補充了未曝光的隨機負樣本。未曝光負樣本細分為兩種,即在全場景有曝光無點擊、在全場景無曝光兩種,第一種相當于將其他場景的知識遷移到推薦場景。離線用hitrate評估各種負樣本組合的效果,發現同時補充兩種未曝光負樣本的模型效果最佳,在線AB實驗也印證了這一結論。

網絡結構優化

粗排由一個模型承接多個品類的CTR預估,各品類的樣本量級、流量效率乃至特征都存在較大差異,模型訓練容易被優勢品類主導。因此,網絡結構的設計需要使得模型能學到各品類的共性和差異性。將點擊視為任務,品類視為場景,則粗排預估屬于多場景單任務問題,可以參考業界多場景多任務的解決方案。我們參考PEPNet[10]設計了網絡結構,在雙塔的物品側通過EPNet進行特征選擇和融合。物品側特征包含品類共享特征(例如價格、類目)及品類特有特征(例如CPU、GPU),通過EPNet實現特征權重調整,使得對于不同品類的樣本,重要特征得到強化,無關特征得到削弱。

轉轉首頁推薦粗排模型結構轉轉首頁推薦粗排模型結構

3.2 流量池簡介

轉轉首頁推薦鏈路中精排環節無截斷,因此粗排輸出商品集合的多樣性直接決定了重排階段的多樣性策略能否開展。粗排結果的品類多樣性由流量池模塊保證。

流量池涉及召回、粗排等階段,保證了粗排輸出的品類多樣性,有效避免了優勢品類獨占流量,給非優勢品類的流量增長創造了空間。召回階段,流量池干預觸發,使得用戶點擊過的品類召回充足,保證了召回結果的多樣性。粗排進精排是流量池的主要生效階段,對應下圖中proportion部分。由于優勢品類、非優勢品類打分天然存在差距,如果一起競爭非優勢品類必然難以透出。為了保證非優勢品類能獲得流量,流量池對模型排序結果先拆分后融合。拆分階段將模型打分后的完整商品列表按品類拆分,每個品類對應一個有序列表。融合階段綜合用戶行為、商品供給等情況,為每個品類計算quota,取各品類列表頭部結果融合后輸出,保證各品類都有機會透出。

轉轉首頁推薦粗排-流量池部分轉轉首頁推薦粗排-流量池部分

3.3 未來規劃

未來轉轉首頁推薦的粗排優化仍會分為模型、流量池兩方面進行。模型方面,嘗試更先進的網絡結構,增加更強的特征等提高模型精度。流量池方面,優化流量分配邏輯,更好地平衡效率與多樣性。

參考文獻

[1] SENet雙塔模型:在推薦領域召回粗排的應用及其它:https://zhuanlan.zhihu.com/p/358779957

[2] COLD: Towards the Next Generation of Pre-Ranking System:https://arxiv.org/pdf/2007.16122

[3] Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach:https://arxiv.org/pdf/2105.07706

[4] Deep Neural Networks for YouTube Recommendations:https://dl.acm.org/doi/pdf/10.1145/2959100.2959190?utm_campaign=Weekly%20dose%20of%20Machine%20Learning&utm_medium=email&utm_source=Revue%20newsletter

[5] Sampling-bias-corrected neural modeling for large corpus item recommendations:https://dl.acm.org/doi/10.1145/3298689.3346996

[6] Real-time Personalization using Embeddings for Search Ranking at Airbnb:https://dl.acm.org/doi/abs/10.1145/3219819.3219885

[7] Embedding-based Retrieval in Facebook Search:https://arxiv.org/pdf/2006.11632

[8] 美團搜索粗排優化的探索與實踐:https://mp.weixin.qq.com/s/u3sw_PatpwkFC0AtkssmPA

[9] 承上啟下:基于全域漏斗分析的主搜深度統一粗排:https://zhuanlan.zhihu.com/p/587353144

[10] PEPNet: Parameter and Embedding Personalized Network for Infusing with Personalized Prior Information:https://arxiv.org/pdf/2302.01115

責任編輯:武曉燕 來源: 轉轉技術
相關推薦

2022-11-03 08:16:33

MySQL·窗口函數

2024-01-08 07:29:57

多集群模型Istio網絡拓撲

2023-12-08 13:23:00

大數據MySQL存儲

2024-10-12 10:25:15

2024-07-02 09:41:11

2023-08-01 12:51:18

WebGPT機器學習模型

2024-01-02 12:05:26

Java并發編程

2024-04-09 13:16:21

Rust命名規范

2024-01-19 08:25:38

死鎖Java通信

2023-01-10 08:43:15

定義DDD架構

2024-02-04 00:00:00

Effect數據組件

2023-07-26 13:11:21

ChatGPT平臺工具

2023-04-10 09:31:00

路由技術廠商

2024-10-31 09:15:09

2022-04-26 08:10:33

MySQL存儲InnoDB

2024-03-06 08:28:16

設計模式Java

2022-06-16 07:50:35

數據結構鏈表

2022-12-06 07:53:33

MySQL索引B+樹

2023-01-31 08:02:18

2023-10-06 14:49:21

SentinelHystrixtimeout
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产成人精品午夜视频免费 | 亚洲成人蜜桃 | 成人性视频免费网站 | 日韩精品免费在线观看 | 亚洲免费在线播放 | 国产精品不卡 | 欧美中文字幕一区二区 | 亚洲精品视频免费观看 | 在线一区视频 | 欧洲国产精品视频 | 国产成人精品久久二区二区 | 亚洲国产成人在线观看 | 99综合网| 久久99久久99 | 91看片| 超碰精品在线观看 | 日韩精品无码一区二区三区 | 美女爽到呻吟久久久久 | 成人精品| 午夜99 | 操操操操操 | aa级毛片毛片免费观看久 | 国产精品色 | 伊人影院99 | 国产成人综合一区二区三区 | 人人干人人艹 | 91久久久久久久久 | 91中文字幕在线观看 | 久久国内 | 99热在这里只有精品 | 久久国产精品久久久久久 | 欧美久久一区二区 | 亚洲成人一区 | 天堂免费看片 | 日本午夜在线视频 | 国产99久久精品一区二区300 | 操操操日日日 | 蜜桃av鲁一鲁一鲁一鲁 | 久草热8精品视频在线观看 午夜伦4480yy私人影院 | 羞羞视频网页 | 久久久久中文字幕 |