成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

文本為王:如何在序列推薦過程中學習語言向量

譯文 精選
人工智能
推薦系統是 1992 年施樂公司的 David Goldberg 在論文中首次提出的。人類歷史上第一個發表的推薦系統算法是協同過濾。該算法長期占據著主導地位。一直到最近,仍然有研究者發問稱對比了大量的推薦算法,發現基于物品的協同過濾性能優異,吊打其他算法。

編譯 | 汪昊

審校 | 重樓

推薦系統是 1992 年施樂公司的 David Goldberg 在論文中首次提出的。人類歷史上第一個發表的推薦系統算法是協同過濾。該算法長期占據著主導地位。一直到最近,仍然有研究者發問稱對比了大量的推薦算法,發現基于物品的協同過濾性能優異,吊打其他算法。

隨著時間的推移,出現了越來越多的推薦系統算法。1998年,亞馬遜公司的員工發明了基于物品的推薦系統。隨后在 2006 年,因為 Netflix 推薦系統大賽的緣故,基于矩陣分解的推薦系統被發明出來。隨后在 2010 年左右,線性模型和排序學習算法風靡一時。從 2016 年開始,基于深度學習的推薦算法后來居上,一舉占據了包括 RecSys 在內的各大學術會議的顯要位置,給推薦系統領域帶來了一場徹底的革命。

2017 年開始,人工智能領域的研究者開始廣泛關注人工智能倫理問題。隨后,推薦系統的具體場景落地問題得到了關注,尤其是序列化推薦,成為了熱門研究課題。本文將帶領讀者閱讀數據挖掘頂級會議 ACM KDD 2023 年的論文 Text Is All You Need: Learning Language Representations for Sequential Recommendation。論文的作者來自美國高校 UCSD 和美國公司亞馬遜。

圖一輸入數據中用戶信息圖一輸入數據中用戶信息

圖一中顯示了這篇文章中的算法利用的輸入數據與其他算法的不同:物品不再是由物品 ID 唯一表示的數字,而是一個鍵值對構成的數據集合。例如,一臺蘋果筆記本電腦,不再由一個數字 315 表示,而是由產品名稱、品牌名稱和顏色代表的數據集合表示。

圖二算法架構圖圖二算法架構圖

在作者設計的算法架構中,共有 4 個嵌入層:

  • 元素嵌入向量:鍵值對中每個元素的嵌入向量
  • 元素位置向量:用于表示元素在序列中位置的向量
  • 元素類型向量:用于表示元素類型的向量
  • 物品位置向量:用于表示物品在序列中位置的向量

算法架構在 4 個嵌入層求和之后加入了一個 Layer Normalization 層:

隨后我們得到嵌入層的終極表示方法:

我們隨后利用雙向 Transformer 結構 Longformer 對嵌入層編碼,得到物品的嵌入式向量表示:

給定序列 S,序列中下一個出現的物品為物品 i 的評分由下述公式計算:

預測出現的物品 i 為使上面公式得分值最高的物品:

為了讓算法效率更高,作者提出了預訓練模型+兩階段微調算法來實現算法架構:

為了使上面的算法執行速度更加高效,研究者提出了利用預訓練模型來實現上述算法結構。第一種預訓練模式是 MLM,也就是 Masked Language Modeling 。MLM 的算法架構流程如下:

另一種預訓練模式是 item-item contrative (IIC)。這種預訓練模式的損失函數定義如下:

在算法的實際執行中,我們采用了加權和的形式:

最后,我們對算法做兩階段微調。算法的偽代碼如下:

作者最后在論文中針對該算法做了對比實驗:

通過實驗,我們發現作者在論文中提出的算法性能優越。

推薦系統自誕生以來,算法架構變得越來越復雜。隨著大模型的興起,如何利用大模型進行推薦也成為了研究的熱點。如果有一天大模型被證明能使推薦的效果明顯好于其他方法,推薦系統的研發將被集中在極少數有能力提供數據和大規模 GPU 集群的公司。因此,趁著這一切還沒有發生,廣大中小企業,還有高校師生,以及獨立研究者應該抓緊時間為這一領域增磚添瓦。

作者簡介

汪昊,達評奇智董事長兼創始人。汪先生在 ThoughtWorks、豆瓣、百度、聯想和趣加等公司有超過 13 年的研發和管理經驗。擅長推薦系統、風控反欺詐、爬蟲和自然語言處理等技術。成功上線了包括豆瓣小組推薦、聯想電商推薦和網易段子項目等 10 余款科技產品。在國際學術會議和期刊發表論文 44 篇。獲得 IEEE SMI 2008 (CCF-C) 最佳論文獎,ICBDT 2020、IEEE ICISCAE 2021、AIBT 2023 和 ICSIM 2024 最佳論文報告獎。

責任編輯:華軒 來源: 51CTO
相關推薦

2009-07-15 18:14:46

學習Jython

2021-03-05 14:49:28

編程語言工具

2012-09-24 11:45:28

IBMdw

2024-01-31 16:36:53

2011-08-11 14:35:47

SQL Server插入更新

2020-08-21 14:09:46

可視化數據集R語言

2022-10-21 13:57:46

2023-02-28 16:26:46

推薦系統模塊

2024-06-30 19:45:11

2014-06-16 13:24:36

營銷

2024-01-19 21:43:38

2015-05-06 09:36:05

Java語言從零開始學習

2012-08-13 09:40:12

語言編程語言程序語言

2022-09-20 14:46:17

PostgreSQL存儲工具

2010-04-28 13:25:06

求職潛規則

2018-03-02 13:13:21

2024-09-12 08:00:00

2019-08-05 14:27:41

首席信息官戰略企業

2010-05-27 17:56:39

MySQL存儲過程

2017-01-17 14:04:26

數據消費金融
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜精品一区 | 羞羞在线视频 | 亚洲国产欧美一区二区三区久久 | 国产超碰人人爽人人做人人爱 | 久久久夜 | 亚洲精品二区 | 一区二区国产在线观看 | 性网站免费 | aa级毛片毛片免费观看久 | 欧美久久久久久久 | 免费99精品国产自在在线 | 欧美日韩国产一区 | 亚洲一区二区在线播放 | 久久久婷 | 一级欧美日韩 | 亚洲免费在线观看视频 | 久久激情视频 | 日韩成人精品在线观看 | 欧美日韩视频在线 | 国产高清一区二区三区 | 国产日韩免费观看 | 日韩欧美手机在线 | 日韩一区二区福利视频 | 国产激情片在线观看 | 免费毛片在线 | 操到爽| 啪视频在线| 久热国产精品 | 性在线| pacopacomama在线 | 国产欧美精品一区二区三区 | 午夜男人天堂 | 黄色国产大片 | 国产一区二区电影 | 日韩在线观看 | 久久久久国产一区二区三区 | 久久九精品 | 欧美黄色免费网站 | 久久亚洲综合 | 亚洲欧美国产精品久久 | 久久精品久久久久久 |