成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

達觀數據新用戶推薦的三大利器

企業動態
推薦系統需要根據用戶的歷史行為和興趣預測用戶未來的行為和興趣,但對于新用戶而言,沒有任何的用戶行為,如何進行最有效的推薦呢?這就衍生了用戶冷啟動問題。

[[202390]]

推薦系統需要根據用戶的歷史行為和興趣預測用戶未來的行為和興趣,但對于新用戶而言,沒有任何的用戶行為,如何進行最有效的推薦呢?這就衍生了用戶冷啟動問題。在當下,企業拉新成本越來越高,用戶的選擇面也越來越多,當新用戶到達之后,如果不能很快的捕捉用戶興趣,推薦其所感興趣的物品,很容易造成用戶流失。所以能否解決好冷啟動問題,是推薦系統非常重要的課題

[[202391]]

達觀數據研發的個性化推薦引擎目前服務了上百家企業,行業覆蓋了新聞,視頻,直播,文學,電商等領域,每天API調用量超過10億,覆蓋近億網民。本文主要介紹下達觀數據個性化推薦引擎如何解決新用戶的冷啟動問題(達觀數據 紀達麒)

達觀個性化推薦引擎主要通過新用戶屬性挖掘,秒級模型更新,跨應用數據整合三種方法來解決新用戶的冷啟動問題

1.新用戶屬性挖掘

新用戶,指的是***次訪問的用戶,之前沒有任何的行為,但這些用戶也是有個性化信息的。信息包括

1)用戶的訪問時間,白天,晚上,還是深夜,是工作日還是周末

2)用戶所在的地域,一線城市或者二線城市

3)App用戶的手機型號,是安卓,還是IOS,是小米還是華為或者是OPPO

4)PC用戶的話,瀏覽器類型,如IE或者Chrome,分辨率1024*768還是800*600

5)用戶的登錄頁,首頁還是某個活動的頁面

6)一些應用在用戶注冊的時候,還會填寫用戶信息以及興趣偏好

7) 更多……

有了用戶屬性這些信息,就可以給新用戶進行推薦。一開始達觀使用的方式是對上面進行進行交叉組合,通過歷史數據挖掘交叉組合后的用戶偏好。比如深夜,從北京訪問,使用小米手機,通過首頁訪問的新用戶最可能偏好哪些物品。通過實踐發現,這種方式可以一定程度上提升新用戶推薦的效果,但也有不足之處。主要有2點

1) 上面用戶信息的交叉組合后,維度會比較高,造成滿足這些維度的數據在一些情況下質量不高,置信度不夠

2) 對于一些時效性應用場景,比如資訊類,該算法計算出來的往往是過去的文章

所以達觀個性化推薦引擎進行了升級,使用機器學習的方式獲得新用戶的偏好。目前使用的方法是LogicRegression

該模型中的X就是我們需要輸入的特征,B是訓練得到的特征權重。所以這里面最核心的是特征的選擇,會把上面提到的單維特征,多種組合特征,以及item的標簽,類別都加入模型,通過訓練得到特征權重。再對新用戶進行預測。

2.用戶模型秒級更新

用戶下載新的app或者到一個新的網站,他往往會根據自己的興趣,看看里面的內容,不會看一眼推薦不喜歡馬上就流失,達觀的經驗值是大部分用戶愿意花2~30分鐘來嘗試新的一個應用或者網站。所以對于推薦系統而言,如果可以快速捕捉用戶興趣,推薦出新用戶感興趣的物品,也能很大程度上提升用戶的推薦效果。(達觀數據 紀達麒)

傳統的推薦方法,離線模型定期挖掘(小時級甚至是天極)顯然不能滿足快速給新用戶建模的需求。達觀個性化推薦引擎使用了offline-nearline-online的三層體系

達觀數據推薦系統三層體系借鑒了信息檢索領域思想,采取online-nearline-offline的結構。主要思想是讓最珍貴的資源留給高價值的user和item。

Online模塊采用負載均衡,負責及時響應API請求,并返回推薦結果,保證高可靠高并發。

Offline基于hadoop集群對海量數據進行深入挖掘,承擔高負荷的算法。

Nearline模塊主要是填補Online和Offline之間的空白。作為Offline的補充,保證快速響應點擊反饋數據。作為Online的補充運行一些輕量級的算法。當新用戶產生了行為,(行為既包括正反饋,如用戶閱讀或者分享了某篇文章 ,也包括負反饋,給用戶展現了某篇文章,用戶沒有點擊)Nearline可以準實時獲取,并且更新用戶模型。達觀目前可以做到一個秒級的更新,所以用戶下次再訪問推薦結果的時候,就可以推薦給“新”用戶可能感興趣的結果

3. 跨應用數據整合

前面提到達觀數據目前給數百家企業提供推薦服務,覆蓋上億網民。所以如果可以加用戶數據打通,也能很好的解決冷啟動的問題。不過不同企業物品的分類,標簽并不一樣,甚至行業也有些不同,所以對用戶的刻畫也都有比較大的差別,如何使用好跨企業的數據,也是一個復雜的工程

3.1 生成用戶畫像,再進行個性化推薦

比較常見的跨應用數據打通的方式是生成用戶畫像,方法是每個應用根據各自的用戶行為,給用戶打上之前定義好的標簽,標簽包括了業務標簽和自然屬性標簽。業務標簽為根據業務信息打上的標簽,比如娛樂,體育等,自然屬性標簽主要為人口屬性,比如性別,年齡,收入等。新用戶推薦時再根據規則進行匹配,比如男性喜歡體育的推薦仙俠類小說

這種方式的問題有幾個問題

1) 由應用打上定義好的標簽往往準確率不會很高,對于自然屬性標簽,性別,經常看美女直播的用戶就是男性?年齡和收入的標簽誤差就更大了。對于業務標簽,如果定義很細,比如不是娛樂,而是劉德華這樣的屬性,那很難進行應用,比如在推薦小說的場景下,我們獲取用戶是劉德華的粉絲,那應該給他推薦什么小說呢?。而如果定義到娛樂這樣的粒度,那也是損失了很多信息。比如喜歡鹿晗的用戶和喜歡劉德華的用戶行為往往差別很大,如果都定義為娛樂類,就丟失了他們之間的區別

2)應用上使用上面標簽時,往往也有很大問題。因為人為的規則往往非常片面,比如上面的例子:男性喜歡體育的推薦仙俠類小說。其實往往不是非常客觀和準確

3.2 應用內行為直接作為推薦特征進行匹配

上面的做法的本質問題是人為的定義了一個中間屬性層,使得不論是基礎數據映射到中間層,還是具體應用通過中間層數據進行規則匹配,都存在很大的誤差。所以達觀的做法是去掉這個中間層,通過機器學習方法直接通過基礎數據映射到個性化應用中。具體方式為

a) 每個應用保留多個維度的用戶數據,包括

b)將用戶在每個應用中的數據進行整合,形成用戶向量

c)使用基于用戶的協同過濾方法進行新用戶推薦

基于用戶的協同過濾的思想是當一個用戶A需要個性化推薦時,可以先找到和他有相似興趣的其他用戶,然后把那些用戶喜歡的、而用戶A沒有聽說過的物品推薦給A。

***步,找到相似興趣的其他用戶

第二步,根據相似用戶的喜好進行推薦

對于新用戶,往往沒有什么行為,所以通過***步中的行為進行相似度計算往往沒有結果。所以我們用前面提到的跨應用的數據來解決這個問題

每個用戶可以通過***步的結果形成用戶向量,計算用戶間的距離。由于不同應用下不論是類別還是標簽,都不統一,比如有些應用下稱為搞笑,有些稱為笑話,標簽上更加五花八門,比如有些標簽是范冰冰,有些是范爺。需要轉化成詞向量才能方便而準確的計算距離

先介紹一下詞向量的定義。一種最簡單的詞向量是one-hot representation,就是用一個很長的向量來表示一個詞,向量的長度是詞典D的大小N,向量的分量只有一個為1,其他全為0,1的位置對應該詞在詞典中的索引。這種詞向量表示有一些缺點:容易受維數災難的困擾。另一種詞向量是Distributed Representation,它最早是Hinton于1986年提出來的,可以克服one-hot representation的上述缺點。其基本想法是:通過訓練將某種語言中的每個詞映射成一個固定長度的短向量。所有這些向量構成一個詞向量空間,每個向量是該空間中的一個點,在這個空間上引入“距離”,就可以根據詞之間的距離來判斷它們之間的(詞法、語義上的)相似性了。如何獲取Distributed Representation的詞向量呢?有很多不同的模型可以用來估計詞向量,包括有名的LSA、LDA和神經網絡算法。Word2Vec就是使用度比較廣的一個神經網絡算法實現的詞向量計算工具。(達觀數據 紀達麒)

所以在目前場景下,基于Distributed Representation的詞向量可以更好地解決跨應用標簽不一致的問題。為了訓練一個比較好的詞向量,達觀抓取了3000多萬微信文章作為訓練,詞向量本身不容易分辨好壞,所以通過抽查近距離詞來看結果

通過詞向量的方式,可以正確計算出找字面上看似無關,但含義相似的詞之間的距離,進而可以更加準確地計算用戶之間的距離

4. 總結

本文介紹了達觀數據個性化推薦系統在解決新用戶冷啟動問題的實踐經驗,通過新用戶屬性挖掘,秒級模型更新,跨應用數據整合三種方法,可以有效地提高新用戶的推薦效果,當然新技術也在不斷出現,深度學習的興起也給個性化推薦效果的提升帶來了更大的契機和想象空間,達觀數據也在這方面進行不斷探索。

【本文為51CTO專欄作者“達觀數據”的原創稿件,轉載可通過51CTO專欄獲取聯系】

戳這里,看該作者更多好文

責任編輯:武曉燕 來源: 51CTO專欄
相關推薦

2019-02-14 09:00:00

Linux發行版

2012-04-17 14:25:05

Chrome OSAura 體驗

2015-07-30 17:30:43

Linux命令

2014-12-30 15:33:22

Gmail郵箱

2010-10-12 17:08:16

MySQL命令行

2010-06-10 15:38:58

MySQL數據庫

2019-09-20 13:48:23

BashLinux命令

2009-08-25 09:31:04

2021-08-05 14:24:41

微信用戶注冊騰訊

2018-09-14 15:45:53

Windows10Windows新用戶

2022-11-03 11:19:22

2019-08-08 07:25:11

BashLinux命令

2018-03-20 16:20:29

LinuxChromiumLibreOffice

2016-09-01 11:08:20

Linux新用戶發行版

2021-07-07 10:29:39

Windows 11操作系統微軟

2010-05-20 13:11:04

MySQL GRANT

2014-04-09 14:21:44

Firefox OS用戶界面

2018-07-06 16:03:11

Windows 10Windows添加新用戶

2013-09-18 16:06:05

HENC千兆WIFI用戶體驗

2013-03-21 11:03:49

Google Play界面用戶商店
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲欧美另类在线观看 | 国产在线一区观看 | 国产一级视频在线 | 中文字幕日韩一区 | 人人草天天草 | 精品国产一区二区三区久久狼黑人 | 欧美a级成人淫片免费看 | 欧美成人精品一区二区男人看 | 日干夜干 | 亚洲一区二区三区在线免费 | 国产成人精品免费视频大全最热 | 国产一区视频在线 | 91久久| 可以在线观看av的网站 | 91久久久久久久久久久久久 | 在线日韩精品视频 | 国产精品国产a级 | 国产高清在线精品 | 九九热这里只有精品6 | 亚洲精品专区 | 伊人激情网 | av二区三区 | 国产精品欧美一区二区三区不卡 | 成人区一区二区三区 | 在线中文av| 欧一区二区| 中文字幕一区二区三区不卡 | 人人看人人草 | 成人欧美一区二区三区在线播放 | 欧美国产日韩一区二区三区 | 最新中文字幕第一页视频 | 一级欧美| 亚洲 欧美 日韩 精品 | av官网在线 | 暖暖日本在线视频 | 亚洲一区二区三区高清 | 激情 亚洲| 亚洲精品v日韩精品 | 国产欧美日韩综合精品一区二区 | 亚洲精品在线91 | 亚洲国产精品久久久久 |