Meta最新研究:利用GenAI洞悉用戶意圖
Meta——Facebook、Instagram、WhatsApp、Threads等公司的母公司——運營著世界上最大的推薦系統之一。
在最近發布的兩篇論文中,Meta的研究人員揭示了如何利用生成模型來更好地理解和響應用戶意圖。
通過將推薦視為一個生成問題,可以采用新的方法來解決它,這些方法在內容上更豐富,效率也高于傳統方法。這種方法對于任何需要檢索文檔、產品或其他類型對象的應用程序來說,都具有重要的應用價值。
Dense檢索 vs 生成式檢索
創建推薦系統的標準方法是計算、存儲和檢索文檔的密集表示(Dense Retrieval)。例如,為了向用戶推薦項目,應用程序必須訓練一個模型,該模型能夠計算用戶請求和大量項目存儲庫的嵌入表示。
在推理時,推薦系統通過尋找一個或多個與用戶嵌入表示相似的項目嵌入表示,來嘗試理解用戶的意圖。隨著項目數量的增長,這種方法需要越來越多的存儲和計算能力,因為每個項目的嵌入表示都必須存儲起來,并且每次推薦操作都需要將用戶嵌入表示與整個項目存儲庫進行比較。
生成式檢索(Generative Retrieval)是一種更新的方法,它嘗試通過簡單地預測用戶交互序列中的下一個項目,而不是通過搜索數據庫來理解和推薦用戶意圖。
其工作原理如下:
使生成式檢索發揮作用的關鍵是計算“語義ID”(SIDs),其中包含每個項目的上下文信息。像TIGER這樣的生成式檢索系統分為兩個階段工作。首先,訓練一個編碼器模型,根據每個項目的描述和屬性為其創建一個唯一的嵌入值。這些嵌入值成為SIDs,并與項目一起存儲。
在第二階段,訓練一個變換器模型來預測輸入序列中的下一個SID。輸入SID列表表示用戶與過去項目的交互,模型的預測是要推薦的項目的SID。生成式檢索減少了存儲和跨單個項目嵌入表示進行搜索的需求。因此,隨著項目列表的增長,其推理和存儲成本保持不變。它還增強了捕獲數據中更深層語義關系的能力,并提供了生成模型的其他好處,如調整“溫度”以調整推薦的多樣性。
高級生成式檢索
盡管生成式檢索的存儲和推理成本較低,但它也存在一些局限性。例如,它傾向于過擬合訓練期間見過的項目,這意味著它在處理模型訓練后添加到目錄中的項目時會遇到困難。在推薦系統中,這通常被稱為“冷啟動問題”,即涉及新用戶和新項目,它們沒有交互歷史。
為了解決這些短板,Meta開發了一種名為LIGER的混合推薦系統,該系統結合了生成式檢索的計算和存儲效率,以及Dense檢索的穩健嵌入質量和排名能力。
在訓練期間,LIGER使用相似度得分和下一個標記目標來改進模型的推薦。在推理時,LIGER基于生成機制選擇幾個候選項目,并用一些冷啟動項目進行補充,然后根據生成候選項目的嵌入表示對這些項目進行排名。
研究人員指出,“Dense檢索和生成式檢索方法的融合對推進推薦系統具有巨大潛力”,并且隨著模型的發展,“它們將越來越適用于實際應用,實現更個性化和響應迅速的用戶體驗”。
在另一篇論文中,研究人員介紹了一種新穎的多模態生成式檢索方法,名為多模態偏好辨識器(Mender),這是一種能夠使生成模型從用戶與不同項目的交互中捕捉隱含偏好的技術。Mender基于基于SIDs的生成式檢索方法構建,并添加了一些組件,這些組件可以用用戶偏好豐富推薦。
Mender使用大型語言模型(LLM)將用戶交互轉化為特定偏好。例如,如果用戶在評論中贊揚或抱怨了某個特定項目,模型將將其總結為對該產品類別的偏好。
主要推薦模型在預測輸入序列中的下一個語義ID時,被訓練為同時以用戶交互序列和用戶偏好為條件。這使推薦模型具備泛化能力、能夠進行上下文學習,并適應用戶偏好,而無需對這些偏好進行顯式訓練。
“我們的貢獻為新一代生成式檢索模型鋪平了道路,這些模型能夠利用有機數據通過文本用戶偏好來引導推薦,”研究人員寫道。
對企業應用的影響
生成式檢索系統所提供的效率對企業應用具有重要影響。這些進步轉化為即時的實際效益,包括降低基礎設施成本和加快推理速度。該技術無論目錄大小如何都能保持恒定的存儲和推理成本,這對成長中的企業來說尤其有價值。
這些好處橫跨各行業,從電子商務到企業搜索。生成式檢索仍處于早期階段,我們可以期待隨著其成熟,將涌現出更多的應用和框架。