解碼智能推薦:多模態大模型在網易云音樂的創新應用
一、背景介紹
1. 背景
大語言模型作為人工智能領域的前沿技術,近年來取得了顯著進展,并且在眾多領域得到了廣泛應用。除了主打文本形態的大語言模型之外,能夠處理文本、圖像、音頻和視頻等多種模態數據的多模態大模型,正以其強大的內容理解與個性化生成等能力引領著行業變革,也為音樂領域的不斷優化創造了更多可能。
在音樂推薦場景中,包含了豐富的多模態數據,比如歌詞文本、專輯圖片、音頻,都是天然的應用大模型的陣地。目前云音樂推薦的核心場景包括:
- 每日推薦:是列表式推薦,主要的推薦形式是每日更新。
- 私人漫游:是流式推薦,是一種實時更新的推薦形式。
- UGC 歌單:屬于歌單推薦類型,UGC 歌單是基于用戶生產,歌單中的內容是千人一面的;MGC 歌單是機器生產,其內容千人千面,不同的用戶會看到不同的結果。
除了上述場景,還有私人定制、心動模式等其它一些場景。
云音樂推薦場景是云音樂的核心業務,是促進用戶增長、提升用戶粘性的核心手段。同時,場景眾多,可控占比高,因此對推薦系統提出了更高的要求,也帶來了一些挑戰。
首先是馬太效應的問題,1% 的歌曲占據用戶大部分的播放歌曲 PV 量,存在嚴重的數據傾斜。推薦系統是基于用戶行為去進行建模的,因此數據傾斜會導致對長尾歌曲分發的打壓,形成一個不好的推薦生態。
另外,新內容的冷啟動,以及新歌的分發效率也面臨挑戰。云音樂每天會生產大量的新歌,這些新歌都是沒有用戶播放行為的,對于個性化的分發系統來說,也同樣天然會去打壓這些新內容,因此如何去做好新內容的冷啟動,以及如何提升新歌的分發效率,也是需要解決的問題。
針對上述問題,大模型的興起與發展提供了比較好的解決方案。首先,音樂中包含了大量的多模態特征,比如專輯封面圖片、歌曲歌詞,還有歌曲的基礎屬性(如歌曲名、歌手語種、曲風、樂器和獎項),還有用戶的一些熱門評論,以及音頻信息,這些信息都可以通過多模態大模型進行多模態表征的抽取,并應用到推薦系統中去。
基于大模型的多模態音樂表征能為推薦系統帶來的最大幫助就是提效。
- 首先,可以全方位地生成音樂內容表征,來加深推薦系統對音樂的理解能力。
- 第二,可以緩解馬太效應,提升長尾歌曲的分發效率,讓更多優質的長尾歌曲能夠分發給用戶。
- 第三,緩解新歌的冷啟動,能夠讓新歌能夠及時被分發出來展示給用戶,以此來改善云音樂的推薦生態。
2. 難點
在推薦系統中基于大模型進行多模態表征的抽取,主要面臨以下難點:
- 基于 LLM 的多模態表征生產方面的難點主要集中在兩部分,一是 prompt 的設計以及構造;二是基于大模型的多模態表征穩定生產鏈路的搭建,實現天級別的多模態表征的抽取,以及天級別的覆蓋新歌的多模態表征。
- 大模型知識與推薦領域對齊方面,多模態表征和推薦系統的 ID-base 的表征是存在差異的,所以將多模態表征與 ID 表征對齊也是非常重要的一項工作。
3. 成果總結
基于多模態大模型的多模態表征抽取已應用于推薦系統中的核心推薦場景,包括每日推薦、私人漫游、歌單推薦、長音頻推薦等。目前在各項指標上取得了顯著效果,人均播放時長增長 3%,點擊率增長 3%,歌單分發數量增加 50%,新歌分發效率提升了 3%,長音頻曝光人均播放時長提升了 4%。
二、整體框架設計
1. 系統框架
系統框架的關鍵詞為:自底向上,協同統一。整體分為三層:數據層、特征層、應用層。
數據層又分為兩部分,首先是天級別定時調度更新歌曲的基礎屬性,比如用戶的評論、專輯封面、歌詞、音頻等一系列信息。然后基于基礎屬性設計 prompt 的構造,包括歌曲文本的 prompt 的構造,依賴于歌曲基礎屬性、用戶的評論以及歌詞信息。
特征層:通過模型倉庫中對大模型的選擇來實現多模態表征的特征抽取,并進一步去做數據降維,最后進行 faiss 離線的數據校驗,保證數據降維之后的 embedding 表征的正確性。
應用層:提取并降維后的 embedding 目前主要應用在召回側和統一精排模型中。召回主要側重于新歌以及長尾歌曲的分發;統一多場景的精排模型能夠及時地覆蓋到全場景,主要設計的就是多模態的對齊模塊,目前是已經覆蓋到包括音樂推薦、歌單推薦、長音頻推薦等一系列核心業務。
2. 基于大模型的多模態表征抽取
下圖中展示了多模態表征的生產鏈路,主要通過 Hugging Face 下載大模型,比如 LLaMA、Baichuan 等,然后依賴于底層的數據調度,并行處理多模態 embedding 表征的提取,接著進行離線數據降維,再進行數據驗證,最后提供給線上使用。
3. 模型架構
模型架構采用基于 LLM 的開放世界知識空間與推薦領域的端到端的對齊方式。在大模型的知識空間下的表征和私有推薦領域下的表征是存在空間差異的,所以對齊模塊是主要需要去做的工作。
以下結構圖是在歌單中的一個精排模型的多模態融合的架構。第一個是通過語言大模型對于歌單文本的簡單抽取 embedding 的表征;第二個是通過視覺大模型對于圖片的表征抽取,獲取到多模態表征 embedding 來表征用戶在歌單行為的興趣,然后同時建模到統一歌單精排模型中。
三、技術方案
接下來介紹一些技術方案的細節。
1. Prompt 構造
首先是基于大模型的多模態表征抽取。以一首歌曲為例,歌曲文本的 prompt 構造主要包括以下幾部分:
- instruction:歌曲的簡介,包括歌曲的基礎屬性,如曲風、語種等一系列信息。
- 用戶的樂評以及樂器,比如小提琴、鋼琴。
- 歌詞信息。
- 歌曲的圖片特征和音頻特征
這些都作為大模型的輸入。
2. 特征抽取
使用多 worker 的方式并行處理數據,加速推理速度。目前使用 Baichuan 大模型進行文本抽取,使用 Vit-base-patch 進行封面抽取,使用 MERT 進行音頻抽取,應用到排序模型以及召回中去做新歌和長尾歌曲的分發。
3. 離線驗證
接下來介紹一些離線驗證的 case。首先是基于文本的百川語言大模型提取的召回結果,通過對用傳統的基于行為的協同過濾的召回結果和傳統的 NLP 模型關聯出來的結果去做對比,發現傳統的 NLP 模型更多偏向于字符的匹配和文字的相似度,而大模型召回的結果則會更多地抓住文字中對情緒的感受。對于情感的理解,在推薦系統中,特別是音樂推薦系統中是非常重要的。
第二個 case 展示了大模型在世界知識上的能力,能夠更好地捕捉到與“節假日”的相似度,檢索的歌單的效果要好于經典的協同過濾算法以及傳統的 NLP 召回的結果。LLM 相比傳統的語言模型,能夠運用世界知識和推理,更好地產生廣泛的關聯性的構建,比如對情緒、詩意、民俗的理解,對于推薦系統的精排模型是非常有價值的。
另一個 case 是針對視覺大模型的召回結果,基于傳統的協同過濾召回的結果,直觀上來看和召回源是非常不相似的,更多是基于用戶行為的召回。而基于視覺模態特征關聯出來的結果,不管在曲風上,還是圖片的相似度上,都做到了更高相似度的召回。
4. 大模型與推薦域空間對齊
多模態融合精排對齊建模,主要工作如下:
- 融合精排建模:基于多模態表征的用戶行為序列的興趣建模,多模態表征是不參與到精排模型的梯度更新的。
- 多模態表征映射層:引入了多模態表征映射層來實現多模態表征與推薦系統的 ID 表征的空間對齊。
- 構建輔助網絡:通過構建輔助 loss 的方式來實現更好的對齊。
- 對比對齊方式:使用對比學習的方式來實現構建 user-user、item-item 的對齊方式。
- 二階段建模:解決在預訓練多模態對齊中模型訓練不充分以及多模態表征融合和篩選的問題。
四、LLM 助力音樂推薦業務
接下來介紹一下 LLM 助力云音樂推薦業務的進展。
1. 歌曲推薦
云音樂首頁中的封面推薦場景(主要是日推封面和私人漫游封面)對于模塊點擊是非常重要的,引入封面的多模態數據可以有效助力首頁模塊的點擊率提升。
歌曲基礎信息、樂評、樂器、獎項、歌詞、音頻信息可以助力歌曲的多樣性分發以及新歌分發,進而優化整個推薦生態。
在精排側基于多模態大模型的特征增強,可顯著提升個性化服務水平。
以下簡單介紹一下融合的方式:
- 構建多模態特征行為序列:基于歌曲的基礎屬性、歌詞、評論等數據融合成內容文本表征,基于歌曲封面抽取圖片表征,再加上音頻表征,綜合這些多模態表征,從多維度構建 user emb。
- 輔助網絡下的 user/item 的多模態與 ID 特征對齊:基于多模態表征的用戶興趣向量,結合輔助網絡來實現多模態表征與用戶行為序列的 ID 表征的特征對齊。包括參數共享,以及輔助網絡輸出的中間向量,輸入到推薦的主塔中,以此來進一步加深多模態信息和精排推薦模型的信息融合。
這些工作已全量更新到核心推薦業務中,對人均播放時長、首頁 UCTR 以及新歌分發效率均有顯著提升。
2. 歌單推薦
另外一塊核心業務是歌單推薦。可以非常直觀地看到,推薦歌單的封面和標題文本都是由用戶自主選擇和創作的,蘊含了豐富的個性化信息,是用戶情感和審美的體現。因此在歌單場景下使用多模態大模型對封面和文本進行提取,可以更好地獲取用戶的情感和審美的特征,從而提升個性化能力和新歌單分發能力。
歌單推薦系統融合多模態表征,與歌曲建模其實是異曲同工的,基于統一的歌單的推薦精排大模型,在構建好多模態輔助網絡后,也快速應用到了各類歌單推薦場景,顯著提升了歌單的分發數量。
3. 長音頻推薦
長音頻推薦包括寶藏播客、有聲書模塊、音樂播客模塊等,含有豐富的多模態信息,比如圖片、聲音、長音頻聲音的簡介等等。
通過上述由多模態大模型實現的多模態表征抽取應用到統一精排長音頻的推薦系統中,使人均播放時長、長音頻的分發效率和長音頻的分發數都得到了顯著的提升。多模態表征和推薦系統中的 ID 表征的對齊模塊,也是參考了歌曲推薦系統的對齊模塊,實現了復用。
五、未來展望
最后介紹一下未來將開展的主要工作。
- 空間對齊方式的進一步探索
引入對比學習的方式實現對比對齊,構建 user-user、item- item 的對齊方式,結合精排端到端的進一步探索。 - 二階段建模
預訓練多模態對齊模型解決訓練不充分等問題;多模態數據對線上負擔較大,因此需要提升多模態表征融合與篩選的能力。 - 更多多模態大模型的應用探索
比如利用 LLAVA,同時輸入多模態數據,直接實現表征的融合。
目前,多模態表征已深入融合到了我們的統一精排模型中,未來將進一步深入挖掘多模態表征,加強對多模態音樂內容的理解,并融合入推薦系統中,使推薦系統個性化分發能力得到更大的提升,建設更好的音樂推薦生態。