新手在機(jī)器學(xué)習(xí)中常見的五大問題
處理缺失值
在數(shù)據(jù)預(yù)處理中,關(guān)鍵步驟是處理缺失的數(shù)據(jù),因為機(jī)器學(xué)習(xí)模型不會接受NaN值作為它們的輸入。有很多種方法可以填充這些NaN值,但我們首先需要理解缺失值的重要性。
很簡單的一種方法是從機(jī)器學(xué)習(xí)數(shù)據(jù)集中刪除所有缺失值,但在這之前,請先檢查機(jī)器學(xué)習(xí)數(shù)據(jù)集中出現(xiàn)的NaN值的總體百分比。如果小于1%,我們可以刪除所有缺失值,否則我們需要通過選擇其他方法,如集中趨勢測量、KNN Imputer等來估算數(shù)據(jù)。
當(dāng)我們在特征中使用數(shù)字時,我們使用平均或中位數(shù)。均值是平均值我們可以通過將一行所有值匯總?cè)缓蟪运鼈兊牧縼碛嬎?。中位?shù)也表示一個平均值,中位數(shù)將數(shù)據(jù)按大小順序排列起來,形成一個數(shù)列,居于數(shù)列中間位置的那個數(shù)據(jù)。當(dāng)一組數(shù)據(jù)中的個別數(shù)據(jù)變動較大時,常用中位數(shù)來描述這組數(shù)據(jù)的集中趨勢。
如果機(jī)器學(xué)習(xí)數(shù)據(jù)集中存在偏態(tài)分布,往往使用中位數(shù)要比均值好。
異常值/離群值
異常值是與其他觀測值有顯著差異的數(shù)據(jù)點。有時,這些異常值也可能很敏感。在處理異常值之前,建議先檢查機(jī)器學(xué)習(xí)數(shù)據(jù)集。
例如:
- 基于觀測降雨量的深度值預(yù)測中離群值具有重要意義。
- 房價預(yù)測中的異常值則沒有任何意義。
數(shù)據(jù)泄露
什么是 機(jī)器學(xué)習(xí) 模型中的數(shù)據(jù)泄漏問題呢?
當(dāng)我們用于訓(xùn)練模機(jī)器學(xué)習(xí)型的數(shù)據(jù)包含機(jī)器學(xué)習(xí)模型試圖預(yù)測的信息時,就會發(fā)生數(shù)據(jù)泄漏。這會導(dǎo)致模型部署后的預(yù)測結(jié)果不可靠。
這個問題可能是由于數(shù)據(jù)標(biāo)準(zhǔn)化或歸一化方法造成的。因為我們大多數(shù)人在將數(shù)據(jù)分割成訓(xùn)練集和測試集之前會繼續(xù)使用這些方法。
選擇合適的機(jī)器學(xué)習(xí)模型
實時,我覺得不必要地轉(zhuǎn)向一些復(fù)雜的模型可能會對面向業(yè)務(wù)的人產(chǎn)生一些可解釋性問題。例如,線性回歸將比神經(jīng)網(wǎng)絡(luò)算法更容易解釋。
主要根據(jù)數(shù)據(jù)集的大小和復(fù)雜性來選擇對應(yīng)的機(jī)器學(xué)習(xí)模型,如果我們處理復(fù)雜的問題,我們可以使用一些高效的機(jī)器學(xué)習(xí)模型,如SVN、KNN、隨機(jī)森林等。
大多數(shù)時候,數(shù)據(jù)探索階段會有助于我們選擇對應(yīng)的機(jī)器學(xué)習(xí)模型。如果在可視化中數(shù)據(jù)是線性可分離的,那么我們可以使用線性回歸。如果我們對數(shù)據(jù)不了解,支持向量機(jī)和KNN將會很有用。
另外還存在一個模型可解釋問題,例如,線性回歸比神經(jīng)網(wǎng)絡(luò)算法更容易解釋。
驗證指標(biāo)
指標(biāo)是模型預(yù)測器和實際數(shù)據(jù)的定量度量。如果問題是回歸方面的,則關(guān)鍵指標(biāo)是準(zhǔn)確性(R2評分),MAE(平均絕對誤差)和RMSE(均方根誤差)。如果是分類方面的問題,關(guān)鍵指標(biāo)則是精確,召回,F(xiàn)1score和混淆矩陣。