成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

新手在機(jī)器學(xué)習(xí)中常見的五大問題

人工智能 機(jī)器學(xué)習(xí)
在數(shù)據(jù)預(yù)處理中,關(guān)鍵步驟是處理缺失的數(shù)據(jù),因為機(jī)器學(xué)習(xí)模型不會接受NaN值作為它們的輸入。有很多種方法可以填充這些NaN值,但我們首先需要理解缺失值的重要性。

處理缺失值

在數(shù)據(jù)預(yù)處理中,關(guān)鍵步驟是處理缺失的數(shù)據(jù),因為機(jī)器學(xué)習(xí)模型不會接受NaN值作為它們的輸入。有很多種方法可以填充這些NaN值,但我們首先需要理解缺失值的重要性。

很簡單的一種方法是從機(jī)器學(xué)習(xí)數(shù)據(jù)集中刪除所有缺失值,但在這之前,請先檢查機(jī)器學(xué)習(xí)數(shù)據(jù)集中出現(xiàn)的NaN值的總體百分比。如果小于1%,我們可以刪除所有缺失值,否則我們需要通過選擇其他方法,如集中趨勢測量、KNN Imputer等來估算數(shù)據(jù)。

當(dāng)我們在特征中使用數(shù)字時,我們使用平均或中位數(shù)。均值是平均值我們可以通過將一行所有值匯總?cè)缓蟪运鼈兊牧縼碛嬎?。中位?shù)也表示一個平均值,中位數(shù)將數(shù)據(jù)按大小順序排列起來,形成一個數(shù)列,居于數(shù)列中間位置的那個數(shù)據(jù)。當(dāng)一組數(shù)據(jù)中的個別數(shù)據(jù)變動較大時,常用中位數(shù)來描述這組數(shù)據(jù)的集中趨勢。

如果機(jī)器學(xué)習(xí)數(shù)據(jù)集中存在偏態(tài)分布,往往使用中位數(shù)要比均值好。

異常值/離群值

異常值是與其他觀測值有顯著差異的數(shù)據(jù)點。有時,這些異常值也可能很敏感。在處理異常值之前,建議先檢查機(jī)器學(xué)習(xí)數(shù)據(jù)集。

例如:

  • 基于觀測降雨量的深度值預(yù)測中離群值具有重要意義。
  • 房價預(yù)測中的異常值則沒有任何意義。

數(shù)據(jù)泄露

什么是 機(jī)器學(xué)習(xí) 模型中的數(shù)據(jù)泄漏問題呢?

當(dāng)我們用于訓(xùn)練模機(jī)器學(xué)習(xí)型的數(shù)據(jù)包含機(jī)器學(xué)習(xí)模型試圖預(yù)測的信息時,就會發(fā)生數(shù)據(jù)泄漏。這會導(dǎo)致模型部署后的預(yù)測結(jié)果不可靠。

這個問題可能是由于數(shù)據(jù)標(biāo)準(zhǔn)化或歸一化方法造成的。因為我們大多數(shù)人在將數(shù)據(jù)分割成訓(xùn)練集和測試集之前會繼續(xù)使用這些方法。

選擇合適的機(jī)器學(xué)習(xí)模型

實時,我覺得不必要地轉(zhuǎn)向一些復(fù)雜的模型可能會對面向業(yè)務(wù)的人產(chǎn)生一些可解釋性問題。例如,線性回歸將比神經(jīng)網(wǎng)絡(luò)算法更容易解釋。

主要根據(jù)數(shù)據(jù)集的大小和復(fù)雜性來選擇對應(yīng)的機(jī)器學(xué)習(xí)模型,如果我們處理復(fù)雜的問題,我們可以使用一些高效的機(jī)器學(xué)習(xí)模型,如SVN、KNN、隨機(jī)森林等。

大多數(shù)時候,數(shù)據(jù)探索階段會有助于我們選擇對應(yīng)的機(jī)器學(xué)習(xí)模型。如果在可視化中數(shù)據(jù)是線性可分離的,那么我們可以使用線性回歸。如果我們對數(shù)據(jù)不了解,支持向量機(jī)和KNN將會很有用。

另外還存在一個模型可解釋問題,例如,線性回歸比神經(jīng)網(wǎng)絡(luò)算法更容易解釋。

驗證指標(biāo)

指標(biāo)是模型預(yù)測器和實際數(shù)據(jù)的定量度量。如果問題是回歸方面的,則關(guān)鍵指標(biāo)是準(zhǔn)確性(R2評分),MAE(平均絕對誤差)和RMSE(均方根誤差)。如果是分類方面的問題,關(guān)鍵指標(biāo)則是精確,召回,F(xiàn)1score和混淆矩陣。


責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2011-02-22 09:34:33

2020-11-03 10:09:46

機(jī)器學(xué)習(xí)論文代碼

2010-09-07 13:24:18

CSS

2009-11-02 16:48:45

虛擬機(jī)管理

2016-06-08 11:44:37

2015-08-04 10:47:52

游戲策劃手機(jī)游戲

2015-06-02 17:05:53

軟件定義數(shù)據(jù)中心

2009-02-06 13:05:00

服務(wù)器存儲服務(wù)器應(yīng)用

2013-06-13 10:14:41

虛擬機(jī)虛擬機(jī)遷移

2015-09-30 10:09:35

2013-02-28 09:50:39

戴爾問題私有化

2013-06-13 09:54:21

虛擬機(jī)虛擬機(jī)遷移

2020-10-13 07:00:00

機(jī)器學(xué)習(xí)人工智能

2023-02-07 07:16:54

人工智能機(jī)器學(xué)習(xí)方法

2023-08-22 15:52:27

數(shù)字化轉(zhuǎn)型

2016-09-12 17:17:06

OpenStack云計算私有云

2012-07-04 10:27:56

虛擬化

2017-06-14 19:05:51

機(jī)器學(xué)習(xí)Quora應(yīng)用場景

2015-01-28 13:43:39

Android 5.0GoogleLollipop

2017-07-31 10:31:13

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩在线电影 | 亚洲成人av在线播放 | 午夜视频免费在线观看 | h视频免费在线观看 | 亚洲精选一区二区 | 日韩一区中文字幕 | 国产福利免费视频 | 欧美日韩在线一区二区三区 | 日韩福利片 | 精品国产一区二区三区久久狼黑人 | 国产精品乱码一二三区的特点 | 91精品国产综合久久久久 | 中文字幕1区2区 | 国产精品久久久99 | 精产国产伦理一二三区 | 日日夜夜精品视频 | 国产精品久久久久久久久久久久冷 | 欧美高清视频一区 | 91免费小视频 | 日韩欧美在线视频一区 | 日韩视频一区二区 | 99精品网| 亚洲精品一区二区在线观看 | 狠狠综合网 | 亚洲精品免费视频 | 99在线免费观看视频 | 成人精品一区二区三区中文字幕 | 久久综合久色欧美综合狠狠 | 欧美视频在线观看 | 国产美女精品 | 欧美手机在线 | 亚洲精久久久 | 欧美乱做爰xxxⅹ久久久 | 一区二区国产在线观看 | 韩日在线视频 | 国产精品日韩一区 | 超碰网址 | 操操日| 91成人免费看片 | 久久com | 亚洲在线一区 |