十個常用的損失函數解釋以及Python代碼實現
什么是損失函數?
損失函數是一種衡量模型與數據吻合程度的算法。損失函數測量實際測量值和預測值之間差距的一種方式。損失函數的值越高預測就越錯誤,損失函數值越低則預測越接近真實值。對每個單獨的觀測(數據點)計算損失函數。將所有損失函數(loss function)的值取平均值的函數稱為代價函數(cost function),更簡單的理解就是損失函數是針對單個樣本的,而代價函數是針對所有樣本的。
損失函數與度量指標
一些損失函數也可以被用作評價指標。但是損失函數和度量指標(metrics)有不同的目的。雖然度量指標用于評估最終模型并比較不同模型的性能,但損失函數在模型構建階段用作正在創建的模型的優化器。損失函數指導模型如何最小化誤差。
也就是說損失函數是知道模型如何訓練的,而度量指標是說明模型的表現的。
為什么要用損失函數?
由于損失函數測量的是預測值和實際值之間的差距,因此在訓練模型時可以使用它們來指導模型的改進(通常的梯度下降法)。在構建模型的過程中,如果特征的權重發生了變化得到了更好或更差的預測,就需要利用損失函數來判斷模型中特征的權重是否需要改變,以及改變的方向。
我們可以在機器學習中使用各種各樣的損失函數,這取決于我們試圖解決的問題的類型、數據質量和分布以及我們使用的算法,下圖為我們整理的10個常見的損失函數:
回歸問題
1、均方誤差(MSE)
均方誤差是指所有預測值和真實值之間的平方差,并將其平均值。常用于回歸問題。
def MSE (y, y_predicted):sq_error = (y_predicted - y) ** 2sum_sq_error = np.sum(sq_error)mse = sum_sq_error/y.sizereturn mse
2、平均絕對誤差(MAE)
作為預測值和真實值之間的絕對差的平均值來計算的。當數據有異常值時,這是比均方誤差更好的測量方法。
def MAE (y, y_predicted):error = y_predicted - yabsolute_error = np.absolute(error)total_absolute_error = np.sum(absolute_error)mae = total_absolute_error/y.sizereturn mae
3、均方根誤差(RMSE)
這個損失函數是均方誤差的平方根。如果我們不想懲罰更大的錯誤,這是一個理想的方法。
def RMSE (y, y_predicted):sq_error = (y_predicted - y) ** 2total_sq_error = np.sum(sq_error)mse = total_sq_error/y.sizermse = math.sqrt(mse)return rmse
4、平均偏差誤差(MBE)
類似于平均絕對誤差但不求絕對值。這個損失函數的缺點是負誤差和正誤差可以相互抵消,所以當研究人員知道誤差只有一個方向時,應用它會更好。
def MBE (y, y_predicted):error = y_predicted - ytotal_error = np.sum(error)mbe = total_error/y.sizereturn mbe
5、Huber損失
Huber損失函數結合了平均絕對誤差(MAE)和均方誤差(MSE)的優點。這是因為Hubber損失是一個有兩個分支的函數。一個分支應用于符合期望值的MAE,另一個分支應用于異常值。Hubber Loss一般函數為:
這里的
def hubber_loss (y, y_predicted, delta)delta = 1.35 * MAEy_size = y.sizetotal_error = 0for i in range (y_size):erro = np.absolute(y_predicted[i] - y[i])if error < delta:hubber_error = (error * error) / 2else:hubber_error = (delta * error) / (0.5 * (delta * delta))total_error += hubber_errortotal_hubber_error = total_error/y.sizereturn total_hubber_error
二元分類
6、最大似然損失(Likelihood Loss/LHL)
該損失函數主要用于二值分類問題。將每一個預測值的概率相乘,得到一個損失值,相關的代價函數是所有觀測值的平均值。讓我們用以下二元分類的示例為例,其中類別為[0]或[1]。如果輸出概率等于或大于0.5,則預測類為[1],否則為[0]。輸出概率的示例如下:
[0.3 , 0.7 , 0.8 , 0.5 , 0.6 , 0.4]
對應的預測類為:
[0 , 1 , 1 , 1 , 1 , 0]
而實際的類為:
[0 , 1 , 1 , 0 , 1 , 0]
現在將使用真實的類和輸出概率來計算損失。如果真類是[1],我們使用輸出概率,如果真類是[0],我們使用1-概率:
((1–0.3)+0.7+0.8+(1–0.5)+0.6+(1–0.4)) / 6 = 0.65
Python代碼如下:
def LHL (y, y_predicted):likelihood_loss = (y * y_predicted) + ((1-y) * (y_predicted))total_likelihood_loss = np.sum(likelihood_loss)lhl = - total_likelihood_loss / y.sizereturn lhl
7、二元交叉熵(BCE)
這個函數是對數的似然損失的修正。對數列的疊加可以懲罰那些非常自信但是卻錯誤的預測。二元交叉熵損失函數的一般公式為:
— (y . log (p) + (1 — y) . log (1 — p))
讓我們繼續使用上面例子的值:
輸出概率= [0.3、0.7、0.8、0.5、0.6、0.4]
實際的類= [0,1,1,0,1,0]
— (0 . log (0.3) + (1–0) . log (1–0.3)) = 0.155
— (1 . log(0.7) + (1–1) . log (0.3)) = 0.155
— (1 . log(0.8) + (1–1) . log (0.2)) = 0.097
— (0 . log (0.5) + (1–0) . log (1–0.5)) = 0.301
— (1 . log(0.6) + (1–1) . log (0.4)) = 0.222
— (0 . log (0.4) + (1–0) . log (1–0.4)) = 0.222
那么代價函數的結果為:
(0.155 + 0.155 + 0.097 + 0.301 + 0.222 + 0.222) / 6 = 0.192
Python的代碼如下:
def BCE (y, y_predicted):ce_loss = y*(np.log(y_predicted))+(1-y)*(np.log(1-y_predicted))total_ce = np.sum(ce_loss)bce = - total_ce/y.sizereturn bce
8、Hinge Loss 和 Squared Hinge Loss (HL and SHL)
Hinge Loss被翻譯成鉸鏈損失或者合頁損失,這里還是以英文為準。
Hinge Loss主要用于支持向量機模型的評估。錯誤的預測和不太自信的正確預測都會受到懲罰。 所以一般損失函數是:
l(y) = max (0 , 1 — t . y)
這里的t是真實結果用[1]或[-1]表示。
使用Hinge Loss的類應該是[1]或[-1](不是[0])。為了在Hinge loss函數中不被懲罰,一個觀測不僅需要正確分類而且到超平面的距離應該大于margin(一個自信的正確預測)。如果我們想進一步懲罰更高的誤差,我們可以用與MSE類似的方法平方Hinge損失,也就是Squared Hinge Loss。
如果你對SVM比較熟悉,應該還記得在SVM中,超平面的邊緣(margin)越高,則某一預測就越有信心。如果這塊不熟悉,則看看這個可視化的例子:
如果一個預測的結果是1.5,并且真正的類是[1],損失將是0(零),因為模型是高度自信的。
loss= Max (0,1 - 1* 1.5) = Max (0, -0.5) = 0
如果一個觀測結果為0(0),則表示該觀測處于邊界(超平面),真實的類為[-1]。損失為1,模型既不正確也不錯誤,可信度很低。
loss = max (0 , 1–(-1) * 0) = max (0 , 1) = 1
如果一次觀測結果為2,但分類錯誤(乘以[-1]),則距離為-2。損失是3(非常高),因為我們的模型對錯誤的決策非常有信心(這個是絕不能容忍的)。
loss = max (0 , 1 — (-1) . 2) = max (0 , 1+2) = max (0 , 3) = 3
python代碼如下:
#Hinge Lossdef Hinge (y, y_predicted):hinge_loss = np.sum(max(0 , 1 - (y_predicted * y)))return hinge_loss#Squared Hinge Lossdef SqHinge (y, y_predicted):sq_hinge_loss = max (0 , 1 - (y_predicted * y)) ** 2total_sq_hinge_loss = np.sum(sq_hinge_loss)return total_sq_hinge_loss
多分類
9、交叉熵(CE)
在多分類中,我們使用與二元交叉熵類似的公式,但有一個額外的步驟。首先需要計算每一對[y, y_predicted]的損失,一般公式為:
如果我們有三個類,其中單個[y, y_predicted]對的輸出是:
這里實際的類3(也就是值=1的部分),我們的模型對真正的類是3的信任度是0.7。計算這損失如下:
Loss = 0 . log (0.1) + 0 . log (0.2) + 1 . log (0.7) = -0.155
為了得到代價函數的值,我們需要計算所有單個配對的損失,然后將它們相加最后乘以[-1/樣本數量]。代價函數由下式給出:
使用上面的例子,如果我們的第二對:
Loss = 0 . log (0.4) + 1. log (0.4) + 0. log (0.2) = -0.40
那么成本函數計算如下:
使用Python的代碼示例可以更容易理解:
def CCE (y, y_predicted):cce_class = y * (np.log(y_predicted))sum_totalpair_cce = np.sum(cce_class)cce = - sum_totalpair_cce / y.sizereturn cce
10、Kullback-Leibler 散度 (KLD)
又被簡化稱為KL散度,它類似于分類交叉熵,但考慮了觀測值發生的概率。 如果我們的類不平衡,它特別有用。
def KL (y, y_predicted):kl = y * (np.log(y / y_predicted))total_kl = np.sum(kl)return total_kl
以上就是常見的10個損失函數,希望對你有所幫助。