成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何實(shí)現(xiàn)基于內(nèi)容和用戶畫像的個(gè)性化推薦

大數(shù)據(jù)
個(gè)性化推薦系統(tǒng)是一門由數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)綜合的學(xué)科,它必須能夠基于用戶之前的口味和喜好提供相關(guān)的精確的推薦,而且這種口味和喜歡的收集必須盡量少的需要用戶的勞動(dòng)。本文主要介紹了如何基于內(nèi)容和用呢畫像實(shí)現(xiàn)一個(gè)個(gè)性化推薦化系統(tǒng)。

基于內(nèi)容和用戶畫像的個(gè)性化推薦,有兩個(gè)實(shí)體:內(nèi)容和用戶。需要有一個(gè)聯(lián)系這兩者的東西,即為標(biāo)簽。內(nèi)容轉(zhuǎn)換為標(biāo)簽即為內(nèi)容特征化,用戶則稱為用戶特征化。

[[165092]]

因此,對于此種推薦,主要分為以下幾個(gè)關(guān)鍵部分:

  • 標(biāo)簽庫
  • 內(nèi)容特征化
  • 用戶特征化
  • 隱語義推薦

綜合上面講述的各個(gè)部分即可實(shí)現(xiàn)一個(gè)基于內(nèi)容和用戶畫像的個(gè)性化推薦系統(tǒng)。如下圖所示:

 

標(biāo)簽庫

標(biāo)簽是聯(lián)系用戶與物品、內(nèi)容以及物品、內(nèi)容之間的紐帶,也是反應(yīng)用戶興趣的重要數(shù)據(jù)源。標(biāo)簽庫的最終用途在于對用戶進(jìn)行行為、屬性標(biāo)記。是將其他實(shí)體轉(zhuǎn)換為計(jì)算機(jī)可以理解的語言關(guān)鍵的一步。

標(biāo)簽庫則是對標(biāo)簽進(jìn)行聚合的系統(tǒng),包括對標(biāo)簽的管理、更新等。

一般來說,標(biāo)簽是以層級的形式組織的。可以有一級維度、二級維度等。

標(biāo)簽的來源主要有:

  • 已有內(nèi)容的標(biāo)簽
  • 網(wǎng)絡(luò)抓取流行標(biāo)簽
  • 對運(yùn)營的內(nèi)容進(jìn)行關(guān)鍵詞提取

對于內(nèi)容的關(guān)鍵詞提取,使用結(jié)巴分詞 + TFIDF即可。此外,也可以使用TextRank來提取內(nèi)容關(guān)鍵詞。

內(nèi)容特征化

內(nèi)容特征化即給內(nèi)容打標(biāo)簽。目前有兩種方式:

  • 人工打標(biāo)簽
  • 機(jī)器自動(dòng)打標(biāo)簽

針對機(jī)器自動(dòng)打標(biāo)簽,需要采取機(jī)器學(xué)習(xí)的相關(guān)算法來實(shí)現(xiàn),即針對一系列給定的標(biāo)簽,給內(nèi)容選取其中匹配度***的幾個(gè)標(biāo)簽。這不同于通常的分類和聚類算法。可以采取使用分詞 + Word2Vec來實(shí)現(xiàn),過程如下:

  • 將文本語料進(jìn)行分詞,以空格,tab隔開都可以,使用結(jié)巴分詞。
  • 使用word2vec訓(xùn)練詞的相似度模型。
  • 使用tfidf提取內(nèi)容的關(guān)鍵詞A,B,C。
  • 遍歷每一個(gè)標(biāo)簽,計(jì)算關(guān)鍵詞與此標(biāo)簽的相似度之和。
  • 取出TopN相似度***的標(biāo)簽即為此內(nèi)容的標(biāo)簽。(N這里取3)

用戶特征化

用戶特征化即為用戶打標(biāo)簽。通過用戶的行為日志和一定的模型算法得到用戶的每個(gè)標(biāo)簽的權(quán)重。

  • 用戶對內(nèi)容的行為:點(diǎn)擊、不敢興趣、瀏覽
  • 對內(nèi)容發(fā)生的行為可以認(rèn)為對此內(nèi)容所帶的標(biāo)簽的行為
  • 用戶的興趣是時(shí)間衰減的,即離當(dāng)前時(shí)間越遠(yuǎn)的興趣比重越低。時(shí)間衰減函數(shù)使用1/[log(t)+1], t為事件發(fā)生的時(shí)間距離當(dāng)前時(shí)間的大小
  • 要考慮到熱門內(nèi)容會(huì)干預(yù)用戶的標(biāo)簽,需要對熱門內(nèi)容進(jìn)行降權(quán)。使用click/pv來降低熱門內(nèi)容的權(quán)重

隱語義推薦

有了內(nèi)容特征和用戶特征,可以使用隱語義模型進(jìn)行推薦。這里可以使用其簡化形式,以達(dá)到實(shí)時(shí)計(jì)算的目的。

用戶對于某一個(gè)內(nèi)容的興趣度(可以認(rèn)為是CTR):

 

其中i=1…N是內(nèi)容具有的標(biāo)簽,m(ci)指的內(nèi)容c和標(biāo)簽i的關(guān)聯(lián)度(目前都為1),n(ui)指的是用戶u的標(biāo)簽i的權(quán)重值,q©指的是內(nèi)容c的質(zhì)量,暫時(shí)使用點(diǎn)擊率表示。

責(zé)任編輯:Ophira 來源: 后端技術(shù)雜談
相關(guān)推薦

2022-11-01 07:19:45

推薦系統(tǒng)非個(gè)性化

2020-06-28 07:00:00

推薦系統(tǒng)智能商務(wù)服務(wù)平臺

2009-07-13 15:33:24

桌面虛擬化虛擬化IT

2016-01-07 13:23:35

構(gòu)建實(shí)時(shí)推薦系統(tǒng)

2015-11-09 10:12:08

大數(shù)據(jù)個(gè)性化推薦

2023-07-26 07:51:30

游戲中心個(gè)性化

2019-09-06 08:29:33

Netflix架構(gòu)推薦系統(tǒng)

2018-04-26 11:30:29

OracleBronto產(chǎn)品推薦

2016-02-19 10:16:48

母嬰個(gè)推電商

2024-05-09 07:32:09

用戶畫像平臺大數(shù)據(jù)算法

2011-01-20 10:19:21

PowerShell個(gè)性化

2018-04-27 16:23:27

Oracle Bron個(gè)性化產(chǎn)品

2017-07-24 09:18:29

大數(shù)據(jù)設(shè)計(jì)UX

2022-09-06 17:43:02

??AISummit數(shù)據(jù)運(yùn)營

2016-03-16 10:22:28

Spark用戶畫像數(shù)據(jù)科學(xué)

2018-11-08 09:37:08

微博系統(tǒng)架構(gòu)

2023-08-22 15:37:45

深度學(xué)習(xí)人工智能

2025-02-28 08:03:45

2025-03-19 08:36:55

2018-05-14 12:48:04

大數(shù)據(jù)銷售企業(yè)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 精品三区 | 国产一区 日韩 | www免费视频 | 精品国产一区二区三区久久久蜜月 | 美女一级黄 | 国产一区二区三区在线 | 国产成年人小视频 | 成人在线免费网站 | 天天操综合网站 | 羞羞网站在线观看 | 免费激情 | 日韩精品在线观看一区二区三区 | 亚洲精品国产第一综合99久久 | 亚洲视频国产视频 | 欧美日韩一区二区三区在线观看 | 国产亚洲一区二区三区在线 | 日韩在线观看精品 | 黄色三级在线播放 | 日韩不卡视频在线观看 | 中文字幕日韩欧美一区二区三区 | 毛片网站在线观看 | 国产成人精品一区二区三区网站观看 | 黄色av网站免费看 | 黄色毛片大全 | 国产传媒在线观看 | 欧美一区二区在线观看 | 久久成人国产精品 | 亚洲成人黄色 | 天天人人精品 | 国产女人与拘做视频免费 | 亚洲 自拍 另类 欧美 丝袜 | 毛片区| 日本成人中文字幕在线观看 | 蜜桃av鲁一鲁一鲁一鲁 | 日本成人久久 | 久久偷人 | 在线中文视频 | 国产三区四区 | 视频在线亚洲 | 亚洲精选一区二区 | 91精品国产91久久久久久吃药 |