成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

什么時候Mahalanobis距離比歐式距離更合適? 原創(chuàng)

發(fā)布于 2024-10-23 10:27
瀏覽
0收藏

我們常說機器學習三大件:模型、損失函數(shù)、優(yōu)化算法。

模型:線性回歸、邏輯回歸、SVM、CNN、RNN、LSTM、Transformer等等。

損失函數(shù):均方誤差、交叉熵、對比損失。

優(yōu)化算法:梯度下降、Adam、RMSProp、牛頓法等等。

其中損失函數(shù)通過衡量模型預(yù)測值和真實值之間的距離來評估模型的好壞,并將結(jié)果反饋給優(yōu)化算法來調(diào)整模型參數(shù),以此來最小化損失函數(shù)。

常見的距離衡量包括:歐氏距離、曼哈頓距離、余弦相似度、KL散度等。

均方誤差基于歐式距離、交叉熵基于KL散度、對比損失基于余弦相似度。

歐式距離在ML中是比較常用的,但它有個特點,就是假設(shè)所有特征之間是相互獨立的,也就是它不會考慮特征之間相關(guān)性信息。

什么時候Mahalanobis距離比歐式距離更合適?-AI.x社區(qū)

因此,如果特征是相關(guān)的,歐幾里得距離將產(chǎn)生誤導性的結(jié)果。例如,考慮下面的這個虛擬數(shù)據(jù)集:

什么時候Mahalanobis距離比歐式距離更合適?-AI.x社區(qū)

很明顯,特征之間是相關(guān)的,這里,考慮其中三個數(shù)據(jù)點P1,P2,P3。

什么時候Mahalanobis距離比歐式距離更合適?-AI.x社區(qū)

根據(jù)數(shù)據(jù)分布,P2更接近P1,因為P1,P2都在分布內(nèi),而P3在分布外。

什么時候Mahalanobis距離比歐式距離更合適?-AI.x社區(qū)

然而,如果根據(jù)歐式距離計算公式可得P2,P3與P1之間的距離是相等的。

什么時候Mahalanobis距離比歐式距離更合適?-AI.x社區(qū)

馬哈拉諾比斯距離(Mahalanobis distance)克服了這個缺點,它計算距離時考慮了數(shù)據(jù)分布信息。

前面的數(shù)據(jù)集,如果應(yīng)用Mahalanobis distance,P2比P3距離P1更近。

什么時候Mahalanobis距離比歐式距離更合適?-AI.x社區(qū)

它是如何工作的?

概括一下就是:它的目標是構(gòu)建一個新的坐標系,新坐標系的各個軸之間是相互獨立的,也就是相互正交。

具體步驟如下:

● 步驟 1:將列轉(zhuǎn)換為不相關(guān)的變量。

● 步驟 2:對新變量進行縮放,使其方差等于 1。

● 步驟 3:在這個新的坐標系中找到歐幾里得距離。

其中步驟1是通過對數(shù)據(jù)的協(xié)方差矩陣進行變換,使得新的變量之間沒有線性相關(guān)性,類似于主成分分析(PCA)的思想,詳細過程見附錄

雖然最終還是用到了歐式距離,但步驟1的變換已經(jīng)使數(shù)據(jù)滿足了歐式距離的假設(shè)。

Mahalanobis distance最重要的應(yīng)用就是異常檢測,例如,前面例子中的P3。

因為P1是分布的重心,如果歐式距離,P2,P3都不是異常值,用Mahalanobis distance結(jié)果就很明顯了。

這在高維空間,沒辦法數(shù)據(jù)可視化式尤為有用。

附錄:PCA主成分分析

假設(shè)我們有一個簡單的二維數(shù)據(jù)集,其中包含兩個特征X1 和X2,并且這兩個特征之間存在一定的線性相關(guān)性。

假設(shè)我們有以下樣本:

什么時候Mahalanobis距離比歐式距離更合適?-AI.x社區(qū)

從這些數(shù)據(jù)中,我們可以看到X1和X2之間的數(shù)值是線性相關(guān)的,且大約滿足X2≈2×X1?1。

計算協(xié)方差矩陣并進行變換

1.計算均值

我們先計算每個特征的均值:

什么時候Mahalanobis距離比歐式距離更合適?-AI.x社區(qū)

2.構(gòu)建協(xié)方差矩陣

協(xié)方差矩陣衡量的是每對特征之間的線性相關(guān)性。假設(shè)我們得到以下協(xié)方差矩陣:

什么時候Mahalanobis距離比歐式距離更合適?-AI.x社區(qū)

其中,矩陣中的每個元素代表對應(yīng)的特征之間的協(xié)方差,非對角線元素表示X1和X2之間的相關(guān)性。

3.特征值分解

接下來我們對協(xié)方差矩陣進行特征值分解(Eigenvalue Decomposition),得到特征值和特征向量。假設(shè)我們得到以下特征向量和特征值:

什么時候Mahalanobis距離比歐式距離更合適?-AI.x社區(qū)

4.轉(zhuǎn)換變量
使用特征向量,我們可以將原始數(shù)據(jù)X1,X2 轉(zhuǎn)換為新的變量Z1,Z2,這些新變量之間不再相關(guān)。轉(zhuǎn)換的方式是通過特征向量進行線性變換:

什么時候Mahalanobis距離比歐式距離更合適?-AI.x社區(qū)

這里,V是特征向量矩陣。

在上面的例子中,X經(jīng)過特征向量矩陣變換后維度沒有變化,而在實際應(yīng)用中,通常選擇前k個特征值對應(yīng)的特征向量,然后X投影到新的基上,這樣新的特征不僅正交,而且還起到了降維的作用。


本文轉(zhuǎn)載自公眾號人工智能大講堂 

原文鏈接:??https://mp.weixin.qq.com/s/1tH5Qws_mvwo49espx5zpw??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 在线天堂免费中文字幕视频 | 日本精品视频一区二区 | 国产高清在线观看 | 欧美成人第一页 | 91在线免费视频 | 欧美日韩在线综合 | 成人在线不卡 | 亚洲天堂av网 | 欧美久久一区二区三区 | 不卡一区二区三区四区 | 免费在线看黄视频 | 呦呦在线视频 | 亚洲视频在线一区 | 亚洲三级av | 午夜二区| 亚洲精品中文字幕av | 欧美理论片在线 | 精品久久久久久久 | 国产人成在线观看 | 91久久综合 | 亚洲精品久久国产高清情趣图文 | www久久久 | 一级毛片免费 | 亚洲第1页 | 久久国产精品免费一区二区三区 | 国产高清免费 | 中文字幕一区二区在线观看 | 欧美精品 在线观看 | 日本午夜免费福利视频 | 午夜av成人 | 91精品国产91久久综合桃花 | 国产高清精品一区二区三区 | 日本手机看片 | 国产电影一区二区 | 久久精品国产99国产精品 | 久久不卡日韩美女 | www.成人.com| 99精品网| 色视频免费 | 国产一区二区三区在线看 | 在线播放日韩 |