常用的幾種推薦算法介紹
今天給大家分享幾種常用的推薦算法及其各自優缺點。
個性化推薦(推薦系統)經歷了多年的發展,已經成為互聯網產品的標配,也是 AI 成功落地的分支之一,在電商(淘寶/京東)、資訊(今日頭條/微博)、音樂(網易云音樂/QQ音樂)、短視頻(抖音/快手)等熱門應用中,推薦系統都是核心組件之一。
推薦算法是整個推薦系統中最核心、最關鍵的部分,很大程度上決定了推薦系統性能的優劣。目前,主要的推薦算法包括:
- 基于內容推薦
- 基于行為協同過濾推薦
- 基于關聯規則推薦
- 基于效用推薦
- 基于知識推薦
- 基于上下文推薦
- 基于深度學習的推薦
- 組合推薦
基于內容的推薦
基于內容的推薦(Content-based Recommendation)是信息過濾技術的延續與發展,它是建立在項目的內容信息上作出推薦的,而不需要依據用戶對項目的評價意見,更多地需要用機器學習的方法從關于內容的特征描述的事例中得到用戶的興趣資料。
在基于內容的推薦系統中,項目或對象是通過相關的特征的屬性來定義,系統基于用戶評價對象 的特征,學習用戶的興趣,考察用戶資料與待預測項目的相匹配程度。用戶的資料模型取決于所用學習方法,常用的有決策樹、神經網絡和基于向量的表示方法等。基于內容的用戶資料是需要有用戶的歷史數據,用戶資料模型可能隨著用戶的偏好改變而發生變化。
基于內容推薦方法的優點是:
1)不需要其它用戶的數據,沒有冷開始問題和稀疏問題。
2)能為具有特殊興趣愛好的用戶進行推薦。
3)能推薦新的或不是很流行的項目,沒有新項目問題。
4)通過列出推薦項目的內容特征,可以解釋為什么推薦那些項目。
5)已有比較好的技術,如關于分類學習方面的技術已相當成熟。
缺點:
要求內容能容易抽取成有意義的特征,要求特征內容有良好的結構性,并且用戶的口味必須能夠用內容特征形式來表達,不能顯式地得到其它用戶的判斷情況。
基于行為的協同過濾
協同過濾推薦(Collaborative Filtering Recommendation)技術是推薦系統中應用最早和最為成功的技術之一。它一般采用最近鄰技術,利用用戶的歷史喜好信息計算用戶之間的距離,然后利用目標用戶的最近鄰居用戶對商品評價的加權評價值來預測目標用戶對特定商品的喜好程度,系統從而根據這一喜好程度來對目標用戶進行推薦。
該算法分為基于用戶的協同推薦和基于項目的協同推薦。基于用戶的協同過濾,將目標用戶對項目的歷史評價與其他用戶匹配,找到相似用戶,再將相似用戶感興趣的項目推薦給目標用戶。基于項目的協同過濾是指利用項目間的相似性,而非用戶間的相似性來計算預測值,從而實施推薦。
協同過濾最大優點是對推薦對象沒有特殊的要求,能處理非結構化的復雜對象,如音樂、電影。
和基于內容的過濾方法相比,協同過濾具有如下的優點:
1) 能夠過濾難以進行機器自動內容分析的信息,如藝術品,音樂等。
2) 共享其他人的經驗,避免了內容分析的不完全和不精確,并且能夠基于一些復雜的,難以表述的概念(如信息質量、個人品味)進行過濾。
3) 有推薦新信息的能力。可以發現內容上完全不相似的信息,用戶對推薦信息的內容事先是預料不到的。這也是協同過濾和基于內容的過濾一個較大的差別,基于內容的過濾推薦很多都是用戶本來就熟悉的內容,而協同過濾可以發現用戶潛在的但自己尚未發現的興趣偏好。
4) 能夠有效的使用其他相似用戶的反饋信息,較少用戶的反饋量,加快個性化學習的速度。
雖然協同過濾作為一種典型的推薦技術有其相當的應用,但協同過濾仍有許多的問題需要解決。
缺點:
存在數據稀疏和冷啟動問題
(1)數據稀疏:不同用戶的行為交集還是非常小。如果考慮將用戶與項目之間已存在的行為關系占系統全部可存在的行為關系的比重來預估稀疏 性,那么據統計,Movielens 數據集的稀疏度是 4.5%,Netflix 是 1.2%,需要說明的是這就已經算非常密的數據了。
(2)冷啟動問題就是指在沒有大量可參考的有用數據下,對用戶設計推薦系統。問題可細致劃分為三種:
1)用戶冷啟動:是指新用戶剛開始注冊使用,沒有可參考的歷史數據。
2)項目冷啟動:新上架的項目,沒有被消費的記錄。
3)系統冷啟動:系統剛開始發布運行,交易記錄中沒有任何數據信息。
為了有效解決冷啟動問題,匹茲堡大學有學者在基于協同過濾的算法上提出使用社區會員信息來改進推薦系統。因為在線社區的存在就是以特定的相似興趣為基礎,所以通過社區會員信息可以有效提取到用戶的興趣愛好信息,方便建立用戶畫像。
基于關聯規則推薦
基于關聯規則的推薦(Association Rule-based Recommendation)是以關聯規則為基礎,把已購商品作為規則頭,規則體為推薦對象。關聯規則挖掘可以發現不同商品在銷售過程中的相關性,在零售業中已經得到了成功的應用。
核心思想是:從大量的用戶行為數據中抽取潛在有用的關聯規則,向用戶推薦其感興趣的項目。通俗地說,就是發現項目A和項目B具有的交易關系。比如購買牛奶的同時很多人也會購買面包。
算法的第一步關聯規則的發現最為關鍵且最耗時,是算法的瓶頸,但可以離線進行。其次,商品名稱的同義性問題也是關聯規則的一個難點。
優點:
- 能發現新興趣點;
- 不要領域知識。
缺點:
- 規則抽取難、耗時;
- 產品名同義性問題;
- 個性化程度低。
基于效用推薦
基于效用的推薦(Utility-based Recommendation)是建立在對用戶使用項目的效用情況上計算的。其核心問題是怎么樣為每一個用戶去創建一個效用函數,因此,用戶資料模型很大 程度上是由系統所采用的效用函數決定的。
基于效用推薦的好處是它能把非產品的屬性,如提供商的可靠性(Vendor Reliability)和產品的可得性(Product Availability)等考慮到效用計算中。
優點:
- 無冷開始和稀疏問題;
- 對用戶偏好變化敏感;
- 能考慮非產品特性。
缺點:
- 用戶必須輸入效用函數;
- 推薦是靜態的,靈活性差;
- 屬性重疊問題。
基于知識推薦
基于知識的推薦技術,首先要預置用戶知識和項目知識,然后在明確用戶需求的基礎上進 行推薦。項目知識依靠于項目本身,所以不同項目的系統,其知識庫區別也較大。基于知識的推薦最大好處就是擺脫了對評分數據的依賴,且不存在冷啟動問題。
基于知識的推薦可以分為三類:基于KDD(KnowledgeDiscoveryinDatabase)的推薦、基于CBR(CaseBasedReasoning)的推薦和基于知識推理的推薦。
基于KDD的推薦系統是將數據挖據與傳統推薦系統相結合,挖掘數據中隱含的有價值知識和信息,以此向用戶做出推薦;
基于CBR的推薦系統以確定用戶需求為前提,再過濾和選擇已有案例,并根據推薦的反饋作出修正調整。
基于知識推理的推薦系統需要三部分知識:用戶知識、項目知識和功能知識,采用統一的 知識表示方式來表示用戶概要和項目,并采用各種知識推理方法在用戶概要和項目之間作出匹配,在此基礎上向用戶實施推薦。
優點:
- 能把用戶需求映射到產品上;
- 能考慮非產品屬性。
- 不依賴于用戶偏好歷史記錄,能夠即時響應用戶的推薦需求,不受用戶偏好改變的影響,也不存在冷啟動問題。
缺點:
- 知識難獲得,專業產品知識庫構建難度大;
- 推薦是靜態的。
基于上下文的推薦
大多數推薦系統都是研究和處理用戶和項目之間的二元關系,而忽略了時間、地點、周圍 人等上下文信息。在推薦系統中引入上下文信息,可以有效地提高推薦精度。
將時間上下文信息添加到推薦系統中,可以有效的反映出用戶變化的興趣,也可以看出項目的生命周期以及季節效應。在加入時間信息后,推薦系統從靜態演變為動態,用戶的行為數據就變為為一組時間序列。
優點:
提高推薦精度。
缺點:
- 數據量大,計算復雜,算法運行效率低。
- 稀疏性、冷啟動、隱私與安全方面都存在問題。
基于深度學習的推薦
基于深度學習的推薦是將深度學習技術糅雜在傳統的推薦算法(比如基于內容的推薦、協同過濾推薦)之中,或使用無監督學習方法對項目進行聚類,或使用監督學習方法對項目進行分類,是使用多層感知器、卷積神經網絡、循環神經網絡、遞歸神經網絡等對數據加工處理提取特征。
基于深度學習主要是體現出它使用機器學習的數據處理技術,通過組合低層特征形成更加稠密的高層語義抽象,從而自動發現數據的分布式特征表示,解決了傳統機器學習中需要人工設計特征的問題。深度學習技術是要依托于傳統推薦技術中,可以說是對傳統推薦技術的增強.
該類型推薦多用于處理圖像、文本、音頻等數據。比如電子商務平臺、電影售票系統等,主營項目都會附帶有明顯的圖片介紹,這就可以根據用戶當前瀏覽或是歷史購買記錄,來獲取圖片信息,深度學習提取出圖像的特征表示,再以此從項目數據庫中比對類似特征的圖像,從而推薦;像亞馬遜這樣的網上書店或小說平臺,主營項目以文本信息為主。經過深度學習,也可以提取出文本的風格、類型、特色等特征,從而匹配推薦;對于音樂播放器這類的以音頻為主系統,先將音頻數據變為數字信號,再進行深度學習,用數字信息抽象表示音頻特征(舒緩、嘻哈、古典等),從而可訓練出用戶的聽曲風格。
基于深度學習推薦的最優勢點就是可針對多種類型的輸入數據,都可以提取特征,并訓練模型,可以實現多元化的推薦,但是要想得到更好的推薦效果,就需要更長的時間來訓練模型。
基于深度學習的推薦系統中的常用神經網絡如下:
卷積神經網絡:卷積神經網絡多用于處理圖像數據,所以經常是通過處理分析用戶項目的歷史圖片信息來推薦類似風格和顏色布局圖片的其他項目。
循環神經網絡:這種神經網絡多用于處理序列數據,比如語音識別,要想語義翻譯準確,就要根據上文環境,所以循環神經網絡在處理這類問題時就具有一定的優勢。
優點:
可跨平臺進行信息融合,推薦效果較好。
缺點:
學習過程耗時,可解釋性差。
組合推薦
由于各種推薦方法都有優缺點,所以在實際中,組合推薦(Hybrid Recommendation)經常被采用。研究和應用最多的是內容推薦和協同過濾推薦的組合。最簡單的做法就是分別用基于內容的方法和協同過濾推薦方法去產生一個推薦預測結果,然后用某方法組合其結果。盡管從理論上有很多種推薦組合方法,但在某一具體問題中并不見得都有效,組合推薦一個最重要原則就是通 過組合后要能避免或彌補各自推薦技術的弱點。
在組合方式上,有研究人員提出了七種組合思路:
1)加權(Weight):加權多種推薦技術結果。
2)變換(Switch):根據問題背景和實際情況或要求決定變換采用不同的推薦技術。
3)混合(Mixed):同時采用多種推薦技術給出多種推薦結果為用戶提供參考。
4)特征組合(Feature combination):組合來自不同推薦數據源的特征被另一種推薦算法所采用。
5)層疊(Cascade):先用一種推薦技術產生一種粗糙的推薦結果,第二種推薦技術在此推薦結果的基礎上進一步作出更精確的推薦。
6)特征擴充(Feature augmentation):一種技術產生附加的特征信息嵌入到另一種推薦技術的特征輸入中。
7)元級別(Meta-level):用一種推薦方法產生的模型作為另一種推薦方法的輸入。
推薦算法之用戶推薦(UserCF)和物品推薦(ItemCF)對比
一、定義
UserCF:推薦那些和他有共同興趣愛好的用戶喜歡的物品;
ItemCF:推薦那些和他之前喜歡的物品類似的物品;
根據用戶推薦重點是反應和用戶興趣相似的小群體的熱點,根據物品推薦著重與用戶過去的歷史興趣,即:
UserCF是某個群體內的物品熱門程度;
ItemCF是反應本人的興趣愛好,更加個性化。
二、新聞類網站采用 UserCF 的原因:
用戶大都喜歡熱門新聞,特別細粒度的個性化可忽略不計;
個性化新聞推薦更強調熱點,熱門程度和實效性是推薦的重點,個性化重要性則可降低;
ItemCF需要維護一張物品相關度的表,當物品量更新速度太快時,此表的維護在技術上有難度。新聞類網站對于新用戶可直接推薦熱門新聞即可。
對于電商、音樂、圖書等網站而言,ItemCF的優勢更大:
用戶的興趣比較固定和持久;
不需要太過考慮流行度,只需要幫用戶發現他研究領域相關物品即可
技術角度考量:
UserCF需要維護一個用戶相似度矩陣;
ItemCF需要維護一個物品相似度矩陣。