中科大&騰訊:通過提升各個(gè)專家網(wǎng)絡(luò)差異性提升基于MoE的CTR預(yù)估效果
今天給大家介紹一篇中科大、騰訊聯(lián)合發(fā)表的CTR預(yù)估模型優(yōu)化工作,探索了多專家網(wǎng)絡(luò)多樣性對于模型效果的影響。
論文標(biāo)題:Enhancing CTR Prediction with De-correlated Expert Networks
下載地址:??https://arxiv.org/pdf/2505.17925??
1.研究背景
最近兩年,隨著Scaling Law在各個(gè)領(lǐng)域的研究,推薦系統(tǒng)領(lǐng)域也開始逐漸引入這種思想進(jìn)一步提升模型能力。其中,一種常見的思路是利用MoE擴(kuò)大參數(shù)空間,并結(jié)合多種類型的網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建預(yù)估模型。
如何才能構(gòu)建出效果最優(yōu)的MoE預(yù)估模型呢?文中研究發(fā)現(xiàn),各個(gè)Expert之間的差異性大小,決定了最終效果的高低。文中定義了不同Expert的不相關(guān)度指標(biāo),對比了不同不相關(guān)度下,模型AUC變化。從圖中可以看出,隨著各個(gè)Expert不相關(guān)度的增加,模型的效果是逐漸提升的。
基于上述考慮,文中通過模型結(jié)構(gòu)差異性、正則化loss引入、embedding差異等多個(gè)角度,降低各個(gè)Expert的相關(guān)性,從而提升基于MoE的CTR預(yù)估模型的效果。
2.建模方法
下圖整體對比了不同MoE的結(jié)構(gòu)圖。其中Hetero-MoE是本文的建模方法,其核心是每個(gè)Expert有一套單獨(dú)的Embedding,并且每個(gè)Expert使用不同的網(wǎng)絡(luò)結(jié)構(gòu),從而最大限度提升不同Expert之間的差異性和抽取信息的多樣性。
在具體提升差異性的手段上,文中從底層Embedding、網(wǎng)絡(luò)結(jié)構(gòu)、正則化損失三個(gè)角度進(jìn)行優(yōu)化。
對于底層Embedding,文中采用了每個(gè)Expert使用一套單獨(dú)的Embedding的方法,讓各個(gè)Expert在學(xué)習(xí)過程中實(shí)現(xiàn)Embedding的差異性。
對于模型結(jié)構(gòu),相比一般的MoE各個(gè)Expert采用結(jié)構(gòu),本文采用了不同結(jié)構(gòu),每個(gè)Expert可以是CrossNet、CIN、基礎(chǔ)DNN等不同結(jié)構(gòu)。
對于正則化約束,文中首先定義了各個(gè)Expert之間的相關(guān)性指標(biāo)。這里采用的是皮爾遜系數(shù),計(jì)算每個(gè)Expert多條樣本的之間的相關(guān)系數(shù),直接作為損失函數(shù)引入模型中,公式如下:
在MoE的Gate生成方面,基本沿用了經(jīng)典MoE的思路,差異在于每個(gè)Expert使用對應(yīng)Embedding生成一個(gè)個(gè)性化的Gate打分。
3.實(shí)驗(yàn)效果
從實(shí)驗(yàn)結(jié)果來看,不同的增加各個(gè)Expert之間差異行的方法,包括Embedding差異、模型結(jié)構(gòu)異構(gòu)、正則化損失引入等,都能帶來模型AUC的提升,說明增強(qiáng)各個(gè)Expert之間差異的必要性。
本文轉(zhuǎn)載自??????圓圓的算法筆記??????,作者:Fareise
