余弦相似度可能沒用？對于某些線性模型，相似度甚至不唯一

2025-01-14 13:51:44

人工智能

余弦相似度已廣泛應用于從推薦系統到自然語言處理的各種應用中。它的流行源于人們相信它捕獲了嵌入向量之間的方向對齊，提供了比簡單點積更有意義的相似性度量。

好不容易找了把尺子，結果尺子會隨機伸縮。

在機器學習和數據科學領域，余弦相似度長期以來一直是衡量高維對象之間語義相似度的首選指標。余弦相似度已廣泛應用于從推薦系統到自然語言處理的各種應用中。它的流行源于人們相信它捕獲了嵌入向量之間的方向對齊，提供了比簡單點積更有意義的相似性度量。

然而，Netflix 和康奈爾大學的一項研究挑戰了我們對這種流行方法的理解：余弦相似度可能導致任意且毫無意義的結果。

論文地址：https://arxiv.org/pdf/2403.05440v1

余弦相似度通過測量兩個向量的夾角的余弦值來度量它們之間的相似性，機器學習研究常常通過將余弦相似性應用于學得的低維特征嵌入來量化高維對象之間的語義相似性。但在實踐中，這可能比嵌入向量之間的非標準化點積效果更好，但有時也更糟糕。

圖源：https://www.shaped.ai/blog/cosine-similarity-not-the-silver-bullet-we-thought-it-was

為了深入了解這一經驗觀察，Netflix 和康奈爾大學的研究團隊研究了從正則化線性模型派生的嵌入，通過分析得出結論：對于某些線性模型來說，相似度甚至不是唯一的，而對于其他模型來說，它們是由正則化隱式控制的。

該研究討論了線性模型之外的情況：學習深度模型時采用不同正則化的組合，當對結果嵌入進行余弦相似度計算時，會產生隱式和意想不到的效果，使結果變得不透明并且可能是任意的。基于這些見解，研究團隊得出結論：不要盲目使用余弦相似度，并概述了替代方案。

最近，這篇論文在機器學習社區再度引起熱議，一篇題為《Cosine Similarity: Not the Silver Bullet We Thought It Was（余弦相似度：不是我們想象的靈丹妙藥）》的博客概述了研究內容。

博客地址：https://www.shaped.ai/blog/cosine-similarity-not-the-silver-bullet-we-thought-it-was

有網友表示：「問題沒那么嚴重，相似度指標需要根據嵌入空間進行量身定制，需要測試不同的指標來建立定性評估。」

網友認為余弦相似度應該是一個足夠好的方法。畢竟，「根據 OpenAI 關于嵌入的文檔，他們還在代碼片段中使用了余弦相似度。」

這個結論是怎么得出來的呢？讓我們一起看看這篇論文的主要內容，一探究竟。

研究簡介

研究團隊發現了一個重要問題：在特定場景下，余弦相似度會隨意產生結果，這使得該度量方法變得不可靠。

研究著重分析了線性矩陣模型。這類模型能夠得到封閉形式的解與理論分析，在推薦系統等應用中被廣泛用于學習離散實體的低維嵌入表示。

研究分析了 MF 模型的兩個常用訓練目標:

其中 X 是輸入數據矩陣，A 和 B 是學習到的嵌入矩陣，λ 是正則化參數。

問題根源：正則化與自由度

研究人員發現，第一個優化目標（等同于使用去噪或 dropout 的學習方式）在學習到的嵌入中引入了一個關鍵的自由度。這種自由度允許對嵌入維度進行任意縮放，卻不會影響模型的預測結果。

從數學角度來看，如果 ? 和 B? 是第一個目標的解，那么對于任意對角矩陣 D，?D 和 B?D^(-1) 也是解。這種縮放會影響學習到的嵌入的歸一化，從而影響它們之間的余弦相似度。

來自論文：《Is Cosine-Similarity of Embeddings Really About Similarity? 》

舉兩個隨意產生結果的例子：

在全秩 MF 模型中，通過適當選擇 D，item-item 余弦相似度可以等于單位矩陣。這個奇怪的結果表明每個 item 只與自己相似，而與所有其他 item 完全不相似。

通過選擇不同的 D，user-user 余弦相似度可以簡化為 ΩA?X?X^T?ΩA，其中 X 是原始數據矩陣。這意味著相似度僅基于原始數據，完全沒有利用到學習的嵌入。

線性模型之外

除了線性模型，類似的問題在更復雜的場景中也存在：

深度學習模型通常會同時使用多種不同的正則化技術，這可能會對最終嵌入的余弦相似度產生意想不到的影響。
在通過點積優化來學習嵌入時，如果直接使用余弦相似度，可能會得到難以解釋且沒有實際意義的結果。

研究人員提出了幾種解決這些問題的方法：

直接針對余弦相似度訓練模型，可能需要借助層歸一化等技術。
完全避免在嵌入空間中工作。相反，在應用余弦相似度之前，先將嵌入投影回原始空間。
在學習過程中或之前應用歸一化或減少流行度偏差，而不是像余弦相似度那樣僅在學習后進行歸一化。

語義分析中余弦相似度的替代方案

在論文的基礎上，博客作者 Amarpreet Kaur 歸納了一些可以替換余弦相似度的備選項：

歐幾里得距離：雖然由于對向量大小敏感而在文本數據中不太流行，但在嵌入經過適當歸一化時可以發揮作用。
點積：在某些應用中，嵌入向量之間的非歸一化點積被發現優于余弦相似度，特別是在密集段落檢索和問答任務中。
軟余弦相似度：這種方法除了考慮向量表示外，還考慮了單個詞之間的相似度，可能提供更細致的比較。

圖源：https://www.machinelearningplus.com/nlp/cosine-similarity/

語義文本相似度（STS）預測：專門為語義相似度任務訓練的微調模型 (如 STSScore) 有望提供更穩健和和更可解釋的相似度度量。
歸一化嵌入與余弦相似度：在使用余弦相似度之前，應用層歸一化等歸一化技術能有效提升相似度計算的準確性。

在選擇替代方案時，必須考慮任務的具體要求、數據的性質以及所使用的模型架構。通常需要在特定領域的數據集上進行實證評估，以確定最適合特定應用的相似度。

我們經常用「余弦相似度」來計算用戶或物品之間的相似程度。這就像是測量兩個向量之間的夾角，夾角越小，相似度越高。論文中的實驗結果也表明，余弦相似度給出的答案經常與實際情況不符。

在比較簡單的線性模型上都已經如此隨機，在更復雜的深度學習模型中，這個問題可能會更嚴重。因為深度學習模型通常使用更多復雜的數學技巧來優化結果，這些技巧會影響模型內部的數值大小，從而影響余弦相似度的計算。

這就像是把一個本來就不太準的測量工具放在一個更復雜的環境中使用，結果可能會更不可靠。因此，需要尋找更好的方法，比如使用其他相似度計算方式，或者研究正則化技術對語義的影響。這提醒大家：在開發 AI 系統時，要多思考、多測試，確保工具真的好用。

責任編輯：姜華來源：機器之心

人工智能推薦系統機器學習

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

余弦相似度可能沒用？對于某些線性模型，相似度甚至不唯一

研究簡介

問題根源：正則化與自由度

線性模型之外

語義分析中余弦相似度的替代方案