成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

神奇的推薦系統:6億用戶音樂場景下的AI思考

原創
人工智能
網易云音樂是音樂愛好者的集聚地,云音樂推薦系統致力于通過 AI 算法的落地,實現用戶千人千面的個性化推薦,為用戶帶來不一樣的聽歌體驗。

【51CTO.com原創稿件】網易云音樂是音樂愛好者的集聚地,云音樂推薦系統致力于通過 AI 算法的落地,實現用戶千人千面的個性化推薦,為用戶帶來不一樣的聽歌體驗。

[[274065]]

圖片來自 pexels

2019 年 6 月 21 日-6 月 22 日,由 51CTO 主辦的 WOT 全球人工智能技術峰會在北京粵財 JW 萬豪酒店隆重舉行。

在機器學習實踐專場, 網易云音樂的音樂推薦算法負責人肖強,給大家介紹了《AI 算法在音樂推薦中的實踐》。

本次分享重點介紹 AI 算法在音樂推薦中的應用實踐,以及在算法落地過程中遇到的挑戰和解決方案。

將從如下兩個部分展開:

  • AI 算法在音樂推薦中的應用
  • 音樂場景下的 AI 思考

從 2013 年 4 月正式上線至今,網易云音樂平臺持續提供著:樂屏社區、UGC(User Generated Content)歌單、以及精準推薦等服務,孵化出了音樂人計劃、LOOK 直播、以及主播平臺等版塊。

目前云音樂的注冊用戶有 6 個億,而且持續在音樂類 App 排行榜里蟬聯著第一的位置。

AI 算法在音樂推薦中的應用

在音樂推薦的實際應用場景中,我們采用了 AI 技術來分發歌曲與歌單。其中比較典型的應用是:每日歌曲和私人 FM,它們能夠根據個性化的場景,進行相關曲目的推薦。

上圖是我們整個音樂推薦系統的邏輯圖,包括各種日志流、ETL、特征、召回、排序和最后的推薦。

對于該推薦系統而言,最主要的是如何理解用戶的畫像,也就是通過對前端數據進行整合,了解用戶具體喜歡什么樣的音樂。

如上圖所示:

  • 在數據層,我們主要用到了 Hive、Hadoop、Flink、SparkSQL 和 Mammut。
  • 在機器學習層,我們則用到了 SparkML、Tensorflow、Parameter Server 和 Caffe。

上面是數據體系建設的對比圖,其中,算法體系建設包括了針對用戶體系的建設,這是云音樂 AI 算法的應用環境。

而我們的團隊則主要分為:

  • 數據體驗團隊
  • 人工智能算法團隊
  • 中臺團隊
  • 業務相關的成員

說到采用人工智能的推薦方式,音樂類推薦與其他商品有著不同的地方。例如:

  • 由于我們能夠在很短的時間分辨出自己的喜好,所以我們可以做到在 10 秒鐘內瀏覽十來條連衣裙。

但是音樂是需要花時間去體驗的,往往一首曲子我們聽了 10 秒鐘或者更長的時間后,才發現它并非我們所喜好的。

所以說,音樂不是通過直接看就能被理解的,我們在制作推薦產品的過程中,應該以用戶的體驗為導向,真正去理解音樂的本身。

  • 連衣裙往往在單位時間內只能被消費一次,但是人們可以通過循環播放列表、以及單曲循環的方式,在單位時間內反復欣賞音樂。因此,這是一種可重復消費的行為,我們在做推薦時應當把握此規律。
  • 由于音樂消費的成本比較高,我們更需要重視用戶的體驗,以及用戶在其消費過程中存在的、較強的時間先后關聯性。
  • 同時,是否給讓用戶收聽一首歌曲的 10 秒、30 秒、以及 60 秒,對他們來說其表達的含義是截然不同的。
  • 因此,我們需要提供的是真正有意義的消費,從而讓這些關聯性體現出有效的行為含義。
  • 怎么去衡量音樂推薦系統的優劣呢?是考察用戶使用該平臺的時長?還是看他在收藏夾內收藏的音樂曲目數?當然,我們曾經發現有些用戶從來不以點擊紅心的方式去收藏任何歌曲。

后期通過交流,我們才發現他其實只是直接把自己碰到的不喜歡的歌曲拉黑了而已。可見,我們很難用單一目標去衡量音樂推薦系統的效果。

下面我們來看看,云音樂平臺是如何應用各種 AI 技術的:

①音樂的復雜性

鑒于上面提到的有關音樂的復雜性問題,我們該如何去理解音樂呢?在我們的平臺上,針對不同的音樂,有著豐富的 UGC、以及各式各樣有質量的用戶評論。

因此,我們可以運用這些針對歌單的評論與認知,采用雙向的 bi-Istm,來針對音樂生成一些描述性的語句。

那么,當有新的音樂被輸入時,我們便可以基于與之相關的較少的語言,來制定出一個新的解釋性描述。

如上圖所示,例如有一首《逆流之河》的歌曲,其下方有著許多相關的歌單標題和描述信息。

我們可以通過新增關鍵詞,來還原各種標記詞,進而產生對于該音樂人的相關特征描述。

在此基礎上,我們再根據人工過濾的詞匯表,自動生成諸如:“網絡的華語女聲”、“香港民謠歌曲”等短語。

因此,憑借著該 NLP(自然語言處理)系統,我們最終能夠實現歌曲短語的可視化。

籍此,對于社區里的用戶來說,他們甚至可以不用點開某個歌曲收聽,就能夠大致獲悉該歌曲所歸屬的類型。

其次,我們可以利用比較簡單的“視頻+圖像+卷積”技術,來理解音樂。

例如,對于一些比較熱門的歌曲,我們利用已生成的表達、以及現有的關聯性,進而獲取相關的音頻,識別歌曲的響度、節奏、風格、以及音樂之間的相似性,給音樂進行“畫像”。

②音樂中的重復消費價值

這里主要體現的是音樂推薦中的 CF。如上圖所示,我們通過跟蹤發現:某個用戶將 A 歌曲聽了 10 次,將 B 歌曲聽了 9 次,而 C 歌曲只聽了 1 次。

那么我們就可以對 A、B、C 的相似關聯性理解為:該用戶偏好 A 和 B 類歌曲更多一些,而且 A、B 之間的關聯性也更大一些。

因此,基于用戶的此類重復消費頻次,我們可以通過設置 X、Y、Z 坐標軸的關系,來表達它們之間的空間位置、以及空間方向的差異性。

顯然,有了此類相似度的計算,我們對于各種音樂的推薦效率會有大幅的提升。

③音樂的高消費成本、前后高關聯特性,更加要求有合適的模型去表達用戶的需求

如上圖所示,我們經歷了從一開始的線性模型、到樹模型、到大規模 FTRL、再到深度神經網絡、最后到深度時序網絡,這么一個音樂推薦方面的迭代過程。

首先,我們從 LR 模型入手。該 LR 模型的解釋性較強,便于我們進行選擇。不過,雖然它的解釋性較強、且迭代的速度較快,但是它的表達能力是非常有限的。

后來,我們轉到了樹模型。該模型中的 RF 和 LGB 等模型具有:能夠解決部分非線性可解釋的優點,當然其缺點在于擬合能力有待加強。

接著,我們上馬了適合表達的大規模 FTRL。其優點在于:可以通過記憶類特征,基于之前的學習和時序訓練,表達并刻畫出所有的特征與關聯性。

而缺點則是特征緯度比較大,即:對于來自不同公司的不同需求,需要的樣本量會比較多,計算量也會比較復雜。

為了增加后續的表達能力,我們采用了深度神經網絡,包括:DNN、DeepFM 以及 Wide&Deep 等模型。

它們的優點是理論性非常強,而缺點是:由于本身神經網絡的復雜性,因此它們的可解釋性比較差,也不能學習到各種隱含的時序關系。

最后,我們采用了深度時序網絡,其對應的模型包括:LSTM、GRU Transformer、DIN 以及 DEIN,它們的優點是能夠學習到不同的時序特征,進而具有刻畫+泛化的能力。

當然,它們同樣帶有上述提到的深度神經網絡的缺點,即:網絡比較復雜,而且可解釋性比較差。

我們下面來看看 LR 以及樹的模型。前面我們說過,線性與樹模型的特點是:統計類/泛化類特征很豐富,但是泛化能力比較差。

在歌曲應用場景中,我們可以直接把與歌曲相關的、由用戶行為所產生的豐富數據,提供給該模型。

通過算法,我們需要將各種音樂指標抽象成標簽。可是,雖然我們有足夠多的音樂資源和行為樣本,但是由于行為序列往往不是線性的,因此我們反而遇到了過擬合、以及特征時間穿梭(即特征記憶)方面的問題。

我們亟待通過線下與線上的特征一致性,來有效地利用數據,學習不同行為的前后關聯性,進而提升模型的擬合能力。

因此,為了提升擬合能力,我們首先嘗試的是 DNN 模型。DNN 在結構上是通過 ReLU 來保證對于低階特征組合和高階特征組合的全連接,但是這也導致了整體數量的膨脹。

于是,我們改進為 DeepFM,它能夠同時對低階特征組合和高階特征的組合進行建模,從而能夠學習到各階特征之間的組合關系。如上圖所示,我們在后期還引入了 DCN。

DCN 可以顯式地學習高階特征的交互。我們可以籍此來有效地捕獲高度非線性的交叉特征。

由于仍保持了 DeepFM 模型,我們可以有效地控制向量的擴張,從而讓參數的空間得以縮小。

在前文中,我們也提及了時序關聯表達的問題。對此,我們曾經采用過針對點擊率的 DIN(Deep Interest Network)。

在用戶的多樣化興趣點中,DIN 重點關注的是那些會影響到當前推薦的歷史行為。不過,DIN 無法捕獲用戶對于音樂興趣類型的動態變化。

例如,某個用戶以前喜歡電聲類音樂,后來改為喜歡民謠了。那么此類“演進”正是 DIN 所無法捕獲的。

在此基礎上,我們改用到了深度興趣演化網絡(DIEN)模型。該模型的主要特點是:通過關注用戶在系統中的興趣演化過程,設計了興趣抽取層與進化層。

它采用新的網絡結果和建模形式,來更精確地表達用戶興趣的動態變化,以及時序演進的過程。

為了更加細粒度地掌握用戶的興趣變化,我們還運用了 DSIN 模型。DSIN 主要由兩部分構成:一個是稀疏特性,另一個是處理用戶行為序列。

該模型能夠發現某個用戶在同一個 Session 中,所瀏覽商品的相似性;以及在不同 Session 中,所瀏覽商品的差異性,進而抽取用戶的時序興趣。

④在音樂消費中,鑒于用戶需求的復雜性,很難用單一目標去衡量音樂推薦系統的優劣

雖說推薦系統是一個典型的統計學應用,但是統計學只能解決 95% 的問題,剩下的 5% 是有關個人偏好方面的。

我們在實際應用中往往會遇到各種問題,其中包括:CTR(Click-Through-Rate,點擊率)與消費時長的關系并非同步提升,有時候甚至呈現出此消彼長的趨勢。那么我們該怎么解決多目標的問題呢?

針對多目標問題,我們有許多種解決方法可供選擇。如上圖所示,有:樣本加權、Weight Loss、以及部分網絡共享。因此,我們采用了多目標聯合訓練,這種簡單的實現方式。

在上圖中,我們首先在網絡層保證了各項輸出,并實現了淺層共享表示。因此,在訓練效果上,雖然目標之間也存在一定的差異性,但是隨著我們引入了差異網絡進行訓練,收藏率和消費時長都得到了明顯的提升。

可見,聯合訓練的優勢在于:

  • 通過多個目標任務在淺層共享表示,我們在任務之間加入了噪音數據。此舉既降低了網絡過擬合,又提升了泛化的效果。
  • 在多目標任務的學習中,我們通過讓不同任務的局部極小值處于不同的位置,并能夠相互作用,以協助逃離局部的極小值。
  • 通過多目標任務的聯合訓練,讓模型盡可能地去求解多任務的共同最優解。
  • 使用類似于“竊聽”的方式,跟蹤用戶對于音樂的收藏等操作,進而做出相應的判斷。

回顧我們在前文中所提到的音樂推薦與其他類型推薦的差異點,我們實現了如下點對點式的解決方案:

  • 差異:基于音樂本身的復雜性,我們該如何理解音樂資源呢?解決:利用 NLP、視頻、以及圖像技術去更好地理解音樂。
  • 差異:可重復消費與不可重復消費的不同之處。解決:利用音樂的消費特性,去智能地分析不同歌曲之間的關聯性。
  • 差異:各種音樂不但消費的成本較高,而且前后有著明顯的關聯性。另外,有效行為的含義往往會更加豐富。解決:利用復雜的 AI 模型,去探究用戶聽歌的序列關聯性。
  • 差異:很難采用單一的目標,去衡量音樂推薦系統的效果。解決:利用 MTL 技術,去解決用戶的多樣性需求。

音樂場景下的 AI 思考

那么,音樂場景為什么一定需要 AI 呢?顯然,如今已經不是過去那種靠買 CD、唱片聽歌的端到端時代了。

在我們的音樂推薦平臺上有著億萬個用戶。他們在不同的心情狀態下,面對由十萬多個音樂人產生的千萬多首音樂作品,需要通過美好的音樂來獲取良好的心情。

我們可以毫不夸張地說:“耳機是互聯網時代的輸氧管,而音樂則是氧氣。”

因此,我們需要在一個 4 維的空間內,解決復雜的匹配問題。而這正是人工智能的用武之地。

通過基于 AI 的推薦系統,我們能夠不斷提供強大的長尾發掘能力和精準的匹配能力,進而在不斷提升用戶體驗的同時,來促進他們自愿分享和發掘網易云音樂平臺上更多的歌曲資源。

為了達到上述目的,我們建立了一個如上圖所示的體系結構。具體包括如下方面:

  • 用戶心智模型體系。包括:行為、認知、態度等。
  • 用戶調研體系。包括:調研問卷等。
  • Case 分析體系。包括:分析用戶、及用戶群的使用行為。
  • 評估指標體系。包括:收藏率、切歌率、以及使用時長等。
  • 數據反饋體系。包括:收藏、切歌、離開等正負向反饋。

通過這些定性和定量的用戶體驗評估體系,我們采用知識圖譜、統計學習、以及強化學習相結合的方式,構建出了如下的三層模型體系:

  • 排序體系。包含:排序模型、ee 模型、以及流行趨勢模型。
  • 匹配體系。包含:行為推薦模型、以及新內容發現模型。
  • 數據體系。包含:行為數據、用戶畫像、以及內容畫像。

通過上述這些,我們不斷掌握與用戶相關的數據知識、乃至專家知識,從而更好地提升了平臺的針對性和用戶的接受程度。

【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】

 

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2016-09-29 12:25:19

AWS獵豹移動

2021-04-15 08:12:45

微軟AI人工智能

2023-11-14 07:16:51

冷啟動技術推薦系統

2024-09-11 19:36:24

2025-03-21 14:11:19

2010-03-04 14:44:18

2018-07-23 16:45:36

數據分析RFM方法

2014-12-10 10:36:23

IaaS云應用場景

2024-12-20 08:00:00

2023-04-03 07:38:36

智能搜索數據分析

2016-04-11 15:49:40

人工智能大數據應用IBM

2020-02-06 15:09:54

疫情物聯網IOT

2020-02-10 14:26:10

GitHub代碼倉庫

2009-07-07 18:45:00

PONFTTX組網

2022-07-20 10:09:15

AIAISummit智能搜索

2022-07-18 09:56:16

AI推薦搜索

2022-12-12 08:00:00

人工智能網易云音樂算法平臺研發

2021-01-05 19:32:37

微軟EdgeEdge

2011-04-19 15:24:26

jQueryJavaScript插件

2023-09-05 07:00:42

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品美女久久久 | 99九九视频 | 最新国产精品精品视频 | 成人精品国产 | 欧美精品中文字幕久久二区 | 亚洲永久精品国产 | 久久中文视频 | 日本免费一区二区三区四区 | 久久久久久久久综合 | 国产一区二区在线观看视频 | 欧美午夜一区 | 久久国产一区 | 亚洲色图第一页 | 国产欧美日韩一区 | 午夜精品一区二区三区在线视频 | 狠狠视频| 欧美天堂 | 国产精品一区二区久久久久 | 成人在线观看免费观看 | 国产精品91视频 | 黄色三级在线播放 | 伊人久久大香线 | 国产免费福利小视频 | 国产精品久久久久久久久久免费 | 国产精品一区二区三区久久久 | 日韩精品1区2区 | 久久成人一区 | 亚洲午夜av久久乱码 | 黄色在线免费观看 | 欧美精品一| 精品色 | 精品久久一区 | 在线免费视频一区 | 国产一区二区精华 | 精品视频一区二区三区 | 一道本不卡视频 | 国产羞羞视频在线观看 | 欧美一区二区三区在线观看 | 亚洲精品一区二区三区四区高清 | 草在线| 天堂一区二区三区 |