MatRec : 解決推薦系統(tǒng)馬太效應(yīng)的利器
原創(chuàng)【51CTO.com原創(chuàng)稿件】推薦系統(tǒng)是互聯(lián)網(wǎng)行業(yè)中隨處可見(jiàn)的產(chǎn)品形態(tài)。從今日頭條到抖音都有推薦系統(tǒng)的影子。可以說(shuō)推薦系統(tǒng)已經(jīng)完全融入了我們的生活之中。然而推薦系統(tǒng)本身有些難以解決的痼疾,例如推薦系統(tǒng)中的馬太效應(yīng)和稀疏性問(wèn)題。所謂推薦系統(tǒng)的馬太效應(yīng),是指推薦系統(tǒng)的物品輸入分布通常表現(xiàn)為馬太效應(yīng)的形式,從而影響推薦系統(tǒng)的計(jì)算性能和推薦效果。
工業(yè)界對(duì)于推薦系統(tǒng)的馬太效應(yīng)的問(wèn)題有著豐富的經(jīng)驗(yàn),然而見(jiàn)著學(xué)術(shù)會(huì)議和期刊的內(nèi)容少之又少。僅有的少量的公開(kāi)資料都是 2017 年以后在 RecSys, ICCCBDA, SIGIR 等會(huì)議的論文。本文向大家介紹 2020 年國(guó)際學(xué)術(shù)會(huì)議 ICBDT 2020 的一篇論文 MatRec : Matrix Factorization for Highly Skewed Dataset. 本文是世界上第一批提出解決馬太效應(yīng)問(wèn)題的矩陣分解算法,因?yàn)槠洫?dú)到的見(jiàn)解獲得了 ICBDT 2020 的最佳論文報(bào)告獎(jiǎng)。因?yàn)轳R太效應(yīng)和算法公平性有著千絲萬(wàn)縷的聯(lián)系,MatRec 也是世界上首批基于公平性的推薦系統(tǒng)算法。
在解決推薦系統(tǒng)馬太效應(yīng)的時(shí)候,我們面臨的第一個(gè)問(wèn)題就是如何對(duì)推薦系統(tǒng)的馬太效應(yīng)進(jìn)行建模。對(duì)馬太效應(yīng)建模的最經(jīng)典也是最簡(jiǎn)單的概率統(tǒng)計(jì)分布是齊夫分布 (Zipf’s Distribution) , 也就是熱度排名第 i 位的物品出現(xiàn)的概率為 1/i。所以熱度特別高的物品出現(xiàn)的比率特別高,而熱度特別低的物品出現(xiàn)的比率特別低。從馬太效應(yīng)的經(jīng)典模型中,我們了解到,影響推薦系統(tǒng)馬太效應(yīng)的主要變量是用戶的熱度排名 user rank 和物品的熱度排名 item rank,因此我們對(duì)矩陣分解模型修正如下:
而矩陣分解的整體求解框架保持不變,為如下形式:
MatRec 的基本思路是在矩陣分解的用戶特征向量和物品特征向量中分別加入了用戶熱度排名和物品排名變量,然后用隨機(jī)梯度下降進(jìn)行問(wèn)題求解。
MatRec 算法思路簡(jiǎn)單,并且實(shí)現(xiàn)難度不高,同時(shí)性能上可以與主流的經(jīng)典算法看齊。在與 ALS、BPR-MF、Deep Matrix Factorization 等算法進(jìn)行對(duì)比的過(guò)程中,綜合性能出眾。
當(dāng)在 LastFM 數(shù)據(jù)集合上進(jìn)行測(cè)試時(shí),ALS 的最優(yōu) MAE 為 0.05, MatRec 的最優(yōu) MAE 為 0.1771,BPR-MF 的 MAE 為 0.2+;當(dāng)在 MovieLens 數(shù)據(jù)集合上進(jìn)行測(cè)試時(shí),ALS 的 MAE > 0.94,MatRec 的最優(yōu) MAE 為 0.8618,而 Deep Matrix Factorization 的 MAE 在 0.82 - 0.83,然而 Deep Matrix Factorization 的速度要比 MatRec 慢幾個(gè)數(shù)量級(jí)。
推薦系統(tǒng)的馬太效應(yīng)和公平性近年來(lái)獲得了越來(lái)越多的關(guān)注。中國(guó)政府也在今年成立了人工智能倫理委員會(huì),說(shuō)明世界上已經(jīng)有越來(lái)越多的人意識(shí)到了人工智能算法帶來(lái)的各種社會(huì)問(wèn)題。隨著越來(lái)越多的人加入到人工智能倫理的研究行列,人工智能帶來(lái)的各種社會(huì)問(wèn)題也一定會(huì)消失在萌芽階段。技術(shù)和人文是相伴相生、相互促進(jìn)的關(guān)系,人工智能會(huì)給社會(huì)法制和哲學(xué)帶來(lái)怎樣的變革,讓我們拭目以待。
本文介紹的 MatRec 算法鏈接:https://arxiv.org/pdf/2011.04395.pdf
作者介紹
汪昊,技術(shù)總監(jiān)/架構(gòu)師,美國(guó)猶他大學(xué)本科/碩士,對(duì)外經(jīng)貿(mào)大學(xué)在職MBA。曾在百度,新浪,網(wǎng)易,豆瓣等公司有多年的研發(fā)和技術(shù)管理經(jīng)驗(yàn),擅長(zhǎng)機(jī)器學(xué)習(xí),大數(shù)據(jù),推薦系統(tǒng),社交網(wǎng)絡(luò)分析等技術(shù)。在 TVCG 和 ASONAM 等國(guó)際會(huì)議和期刊發(fā)表論文 11 篇。國(guó)際學(xué)術(shù)會(huì)議 IEEE SMI 2008 和 ICBDT 2020 最佳論文獎(jiǎng)。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】