什么時候Mahalanobis距離比歐式距離更合適？原創(chuàng)

魚蟲子

發(fā)布于 2024-10-23 10:27

瀏覽

0收藏

我們常說機器學習三大件：模型、損失函數(shù)、優(yōu)化算法。

模型：線性回歸、邏輯回歸、SVM、CNN、RNN、LSTM、Transformer等等。

損失函數(shù)：均方誤差、交叉熵、對比損失。

優(yōu)化算法：梯度下降、Adam、RMSProp、牛頓法等等。

其中損失函數(shù)通過衡量模型預(yù)測值和真實值之間的距離來評估模型的好壞，并將結(jié)果反饋給優(yōu)化算法來調(diào)整模型參數(shù)，以此來最小化損失函數(shù)。

常見的距離衡量包括：歐氏距離、曼哈頓距離、余弦相似度、KL散度等。

均方誤差基于歐式距離、交叉熵基于KL散度、對比損失基于余弦相似度。

歐式距離在ML中是比較常用的，但它有個特點，就是假設(shè)所有特征之間是相互獨立的，也就是它不會考慮特征之間相關(guān)性信息。

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

因此，如果特征是相關(guān)的，歐幾里得距離將產(chǎn)生誤導性的結(jié)果。例如，考慮下面的這個虛擬數(shù)據(jù)集：

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

很明顯，特征之間是相關(guān)的，這里，考慮其中三個數(shù)據(jù)點P1，P2，P3。

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

根據(jù)數(shù)據(jù)分布，P2更接近P1，因為P1，P2都在分布內(nèi)，而P3在分布外。

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

然而，如果根據(jù)歐式距離計算公式可得P2，P3與P1之間的距離是相等的。

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

馬哈拉諾比斯距離（Mahalanobis distance）克服了這個缺點，它計算距離時考慮了數(shù)據(jù)分布信息。

前面的數(shù)據(jù)集，如果應(yīng)用Mahalanobis distance，P2比P3距離P1更近。

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

它是如何工作的？

概括一下就是：它的目標是構(gòu)建一個新的坐標系，新坐標系的各個軸之間是相互獨立的，也就是相互正交。

具體步驟如下：

● 步驟 1：將列轉(zhuǎn)換為不相關(guān)的變量。

● 步驟 2：對新變量進行縮放，使其方差等于 1。

● 步驟 3：在這個新的坐標系中找到歐幾里得距離。

其中步驟1是通過對數(shù)據(jù)的協(xié)方差矩陣進行變換，使得新的變量之間沒有線性相關(guān)性，類似于主成分分析（PCA）的思想，詳細過程見附錄。

雖然最終還是用到了歐式距離，但步驟1的變換已經(jīng)使數(shù)據(jù)滿足了歐式距離的假設(shè)。

Mahalanobis distance最重要的應(yīng)用就是異常檢測，例如，前面例子中的P3。

因為P1是分布的重心，如果歐式距離，P2，P3都不是異常值，用Mahalanobis distance結(jié)果就很明顯了。

這在高維空間，沒辦法數(shù)據(jù)可視化式尤為有用。

附錄：PCA主成分分析

假設(shè)我們有一個簡單的二維數(shù)據(jù)集，其中包含兩個特征X1 和X2，并且這兩個特征之間存在一定的線性相關(guān)性。

假設(shè)我們有以下樣本：

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

從這些數(shù)據(jù)中，我們可以看到X1和X2之間的數(shù)值是線性相關(guān)的，且大約滿足X2≈2×X1?1。

計算協(xié)方差矩陣并進行變換

1.計算均值

我們先計算每個特征的均值：

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

2.構(gòu)建協(xié)方差矩陣

協(xié)方差矩陣衡量的是每對特征之間的線性相關(guān)性。假設(shè)我們得到以下協(xié)方差矩陣：

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

其中，矩陣中的每個元素代表對應(yīng)的特征之間的協(xié)方差，非對角線元素表示X1和X2之間的相關(guān)性。

3.特征值分解

接下來我們對協(xié)方差矩陣進行特征值分解（Eigenvalue Decomposition），得到特征值和特征向量。假設(shè)我們得到以下特征向量和特征值：

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

4.轉(zhuǎn)換變量
使用特征向量，我們可以將原始數(shù)據(jù)X1,X2 轉(zhuǎn)換為新的變量Z1,Z2，這些新變量之間不再相關(guān)。轉(zhuǎn)換的方式是通過特征向量進行線性變換：

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

這里，V是特征向量矩陣。

在上面的例子中，X經(jīng)過特征向量矩陣變換后維度沒有變化，而在實際應(yīng)用中，通常選擇前k個特征值對應(yīng)的特征向量，然后X投影到新的基上，這樣新的特征不僅正交，而且還起到了降維的作用。

本文轉(zhuǎn)載自公眾號人工智能大講堂

原文鏈接：??https://mp.weixin.qq.com/s/1tH5Qws_mvwo49espx5zpw??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

機器學習

贊

回復(fù)

舉報

回復(fù)

相關(guān)推薦

什么是聲望？如何獲取聲望？

AI.x社區(qū)官方賬號 ? 3619瀏覽 ? 0回復(fù)
我們距離GPT-4V真的很近了嗎？

zhangyannni ? 3173瀏覽 ? 0回復(fù)
比Transformer更快更省，Mamba終于卷到網(wǎng)絡(luò)領(lǐng)域了

arnoldzhw ? 6890瀏覽 ? 0回復(fù)
大模型“分區(qū)”部署在云和邊緣更合適？

51CTO技術(shù)棧 ? 2604瀏覽 ? 0回復(fù)
RAG生成任務(wù)：Base LLM竟然比Instruct LLM高出20%

PaperAgent ? 3057瀏覽 ? 0回復(fù)
大模型應(yīng)用落地：如何選擇合適的 Embedding 模型？

玄姐聊AGI ? 5067瀏覽 ? 0回復(fù)
什么監(jiān)督學習，無監(jiān)督學習與深度學習？它們之間有什么區(qū)別和聯(lián)系？

AI探索時代 ? 1.1w瀏覽 ? 0回復(fù)
比OpenAI的Whisper快50%，最新開源語音模型

Aceryt ? 2905瀏覽 ? 0回復(fù)
大模型的泡沫什么時候破滅？

51CTO技術(shù)棧 ? 2172瀏覽 ? 0回復(fù)
什么時候需要訓練和微調(diào)屬于自己的大模型——小微企業(yè)必須要明白的問題

AI探索時代 ? 2345瀏覽 ? 0回復(fù)
ChunkRAG：比CRAG提升10個點準確率

大語言模型論文跟蹤 ? 2459瀏覽 ? 0回復(fù)
最大限度提高人工智能訓練效率：選擇合適的模型

51CTO內(nèi)容精選 ? 2718瀏覽 ? 0回復(fù)
是時候接受真實世界的檢驗啦！UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy

angel ? 2988瀏覽 ? 0回復(fù)
選擇合適的AI框架：生成式AI與智能代理AI的對比

Halo咯咯 ? 2937瀏覽 ? 0回復(fù)
NeurIPS 2024 ｜ REBASE，比MCTS更高效的Inference Scaling算法

arnoldzhw ? 2341瀏覽 ? 0回復(fù)
VLLM 與 Ollama：如何選擇合適的輕量級 LLM 框架？

AI論文解讀 ? 2.4w瀏覽 ? 0回復(fù)
HtmlRAG：RAG系統(tǒng)中，HTML比純文本效果更好

大模型自然語言處理 ? 1988瀏覽 ? 0回復(fù)
一文選出最合適Agent大模型

石映飛云 ? 2544瀏覽 ? 0回復(fù)
什么時候用GraphRAG？RAG VS GraphRAG綜合分析

大模型自然語言處理 ? 924瀏覽 ? 0回復(fù)

魚蟲子

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂