成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器學習開發指南(基礎篇)

原創
人工智能 機器學習
機器學習是人工智能領域的重要組成,簡單來說就是計算機程序學習數據,并產生相應的建議與決策的過程。

【51CTO.com原創稿件】

前言

機器學習是人工智能領域的重要組成,簡單來說就是計算機程序學習數據,并產生相應的建議與決策的過程。

一個經典的機器學習的定義是:

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

本文用圖文并茂的方式帶你深入了解機器學習的概念原理及開發流程。文章結構如下:

  • 前言

  • 一、機器學習概論

  • 二、機器學習開發流程 

一、機器學習概論

機器學習是關于計算機基于數據分布構建出概率統計模型,并運用模型對數據進行分析與預測的方法。按照學習數據分布的方式的不同,主要可以分為監督學習和非監督學習

1、監督學習:

是從有標注的數據(x為變量特征空間, y為標簽)中,通過選擇的模型及確定的學習策略,再用合適算法計算后學習到最優模型,并用模型預測的過程。

由模型預測結果Y的取值有限的或者無限的,可分為分類模型或者回歸模型。

2、非監督學習:

是從無標注的數據(x為變量特征空間),通過選擇的模型及確定的學習策略,再用合適算法計算后學習到最優模型,并用模型發現數據的統計規律或者內在結構。

按照應用場景,可以分為聚類,降維和關聯分析等模型。

二、機器學習開發流程

1、明確業務問題

明確業務問題是機器學習的先決條件,這里需要抽象出現實業務問題的解決方案:需要學習什么樣的數據--輸入,目標是得到什么樣的模型做決策--輸出。

(如:學習已有的新浪新聞及其類別標簽數據,得到一個分類模型,通過模型對每天新的新聞做類別預測,以歸類到每個新聞頻道。)

 

2、數據選擇:收集及輸入數據

數據決定了機器學習結果的上限,而算法只是盡可能逼近這個上限。 意味著數據的質量決定了模型的最終效果,在實際的工業應用中,算法通常占了很小的一部分,大部分工程師的工作都是在找數據、提煉數據、分析數據。數據選擇需要關注的是:

① 數據需具有代表性,否則會導致模型的過擬合,對訓練數據之外的新數據無識別能力;

② 如果監督學習的業務與時間有關,數據時間窗口需要明確,否則可能會導致數據泄漏,即存在和利用因果顛倒的feature的現象。(如預測明天會不會下雨,但是訓練數據引入明天或者本周的溫濕度情況)  

3、特征工程:數據預處理及特征提取

特征工程就是將原始數據轉化為模型有用的特征,技術手段如特征表示,缺失值/異常值處理,數據離散化,數據標準化,特征提取等。

  • 特征表示 數據需要轉換為計算機能夠處理的數值形式。 如果數據是圖片數據需要轉換為RGB三維矩陣的表示;而文本類的數據可以用多維數組來表示,有Onehot獨熱編碼表示、word2vetor分布式表示及bert動態編碼等。

  • 異常值處理

    收集的數據由于人為或者自然因素可能引入了異常值(噪音),這會對模型學習進行干擾。

    通常需要對人為引起的異常值進行處理,通過業務判斷和技術手段(python、正則式匹配、pandas數據處理及matplotlib可視化等數據分析處理技術)篩選異常的信息,并結合業務情況刪除或者替換數值。 

  • 缺失值處理

    數據缺失的部分,通過結合業務進行填充數值、不做處理或者刪除。 根據缺失率情況及處理方式分為以下情況:

    ① 缺失率較高,并結合業務可以直接刪除該特征變量。此外可以新增一個bool類型的變量特征記錄該字段的缺失情況,缺失記為1,非缺失記為0;

    ② 缺失率較低,結合業務可使用一些缺失值填充手段,如pandas的fillna方法、訓練隨機森林模型預測缺失值填充;

    ③ 不做處理:部分模型如隨機森林、xgboost、lightgbm能夠處理數據缺失的情況,不需要對缺失數據做任何的處理。

  • 數據離散化

    數據離散化能減小算法的時間和空間開銷(不同算法情況不一),并可以使特征更有業務解釋性。

    離散化是將連續的數據進行分段,使其變為一段段離散化的區間,分段的原則有基于等距離、等頻率等方法。

  • 數據標準化

    數據各個特征變量的量綱差異很大,可以使用數據標準化消除不同分量量綱差異的影響,加速模型收斂的效率。常用的方法有:

    ① min-max 標準化:

    將數值范圍縮放到(0,1),但沒有改變數據分布。max為樣本最大值,min為樣本最小值。

    ② z-score 標準化:

    將數值范圍縮放到0附近, 經過處理的數據符合標準正態分布。u是平均值,σ是標準差。

  • 特征提取

    特征提取環節,是結合業務及技術手段生成特征(特征衍生)并最終確認(特征選擇/特征降維)進入模型的特征變量,這對模型結果有著決定性的影響。 

    特征衍生:可能現有基礎特征對樣本信息的表述有限,通過生成新含義的特征進行補充。特征衍生是對現有基礎特征的含義進行某種處理(組合/轉換之類):

    ① 結合業務的理解做衍生,比如通過12個月工資可以加工出:平均月工資,薪資變化,是否發工資 等等;

    ② 使用特征衍生工具:feature tools等技術;

    特征選擇:篩選出顯著特征、摒棄非顯著特征。 特征選擇方法一般分為三類:

① 過濾法:按照特征的發散性或者相關性指標對各個特征進行評分后選擇,如方差驗證、相關系數、卡方檢驗及信息增益等方法。

② 包裝法,每次選擇部分特征,或者排除部分特征,根據模型預測效果評分選擇特征。

③ 嵌入法:使用某些模型進行訓練,得到各個特征的權值系數,根據權值系數從大到小來選擇特征,如XGBOOST特征重要性輸出。

特征降維:如果特征選擇后的特征數目仍太多,這種情形下經常會有數據樣本稀疏、距離計算困難的問題(稱為 “維數災難”),可以通過特征降維解決。 常用的降維方法有:主成分分析法(PCA), 線性判別分析法(LDA)等。

4、模型訓練

模型訓練是選擇模型學習數據分布的過程。這過程還需要依據訓練結果調整算法的(超)參數,使得結果變得更加優良。

  • 數據集劃分

    訓練模型前,一般會把數據集分為訓練集和測試集,并可再對訓練集再細分為訓練集和驗證集,從而對模型的泛化能力進行評估。

    ① 訓練集(training set):用于運行學習算法。

    ② 開發驗證集(development set)用于調整參數,選擇特征以及對算法其它優化。常用的驗證方式有交叉驗證Cross-validation,留一法等;

    ③ 測試集(test set)用于評估算法的性能,但不會據此改變學習算法或參數。

  • 模型選擇

    常見的機器學習算法如下:

     

模型選擇取決于數據情況和預測目標。可以訓練多個模型,根據實際的效果選擇表現較好的模型或者模型融合。

 

  • 模型訓練

    訓練過程可以通過調參進行優化,調參的過程是一種基于數據集、模型和訓練過程細節的實證過程。超參數優化需要基于對算法的原理的理解和經驗,此外還有自動調參技術:網格搜索、貝葉斯優化等。 

5、 模型評估

模型學習的目的:使學到的模型對新數據能有很好的預測能力(泛化能力)。

模型評估的標準:基于給定損失函數的模型訓練誤差(training error)和測試誤差(test error)評估模型,現實中通常由測試誤差評估模型的泛化能力。

  • 評估指標

    ① 評估分類模型: 常用的評估標準有查準率P、查全率R、兩者調和平均F1-score 等,并由混淆矩陣的統計相應的個數計算出數值:

    查準率是指分類器分類正確的正樣本(TP)的個數占該分類器所有預測為正樣本個數(TP+FP)的比例;

    查全率是指分類器分類正確的正樣本個數(TP)占所有的正樣本個數(TP+FN)的比例。

    F1-score是查準率P、查全率R的調和平均:

    ② 評估回歸模型: 常用的評估指標有RMSE均方根誤差 等。反饋的是預測數值與實際值的擬合情況。

    ③ 評估聚類模型:可分為兩類方式,一類將聚類結果與某個“參考模型”的結果進行比較,稱為“外部指標”(external index):如蘭德指數,FM指數 等; 另一類是直接考察聚類結果而不利用任何參考模型,稱為“內部指標”(internal index):如緊湊度、分離度等。

  • 評估模型

    根據訓練集及測試集的指標表現,分析原因并對模型進行優化,常用的方法有:

6、決策

決策是機器學習最終目的,對模型預測信息加以分析解釋,并應用于實際的工作領域。

需要注意的是工程上是結果導向,模型在線上運行的效果直接決定模型的成敗,不僅僅包括其準確程度、誤差等情況,還包括其運行的速度(時間復雜度)、資源消耗程度(空間復雜度)、穩定性的綜合考慮。

[[280630]] 

參考文獻

《面向程序員數據挖掘指南》

《機器學習》--周志華

《統計學習方法》--李航

Google machine-learning

作者:

大白,多年算法開發經驗,熟悉自然語言處理,銀行金融風控,知識圖譜等領域。

【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】

 

責任編輯:龐桂玉 來源: 51CTO
相關推薦

2011-07-25 16:21:22

Sencha touc

2022-08-02 08:01:09

開發插件Chrome前端技術

2011-06-09 18:24:36

QT Wince

2012-03-26 09:27:40

谷歌安卓開發谷歌安卓

2023-05-15 18:44:07

前端開發

2015-03-10 10:59:18

Node.js開發指南基礎介紹

2009-06-24 16:30:21

JSF組件模型

2015-11-12 16:14:52

Python開發實踐

2015-12-16 10:30:18

前端開發指南

2010-06-13 09:27:56

Widget開發

2021-08-09 09:47:34

Blazor 路由開發

2011-12-29 10:48:49

移動Web

2011-04-18 11:00:34

使用音頻BlackBerry

2012-05-18 10:08:56

TitaniumAndroid

2021-06-21 15:21:52

鴻蒙HarmonyOS應用開發

2011-08-02 17:58:09

iPhone開發 事件

2022-03-23 15:17:00

Harmony鴻蒙操作系統

2022-08-11 10:43:23

前端開發實踐

2011-11-29 16:38:58

Knockout

2014-06-12 09:35:25

設備定向API移動開發
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲成人毛片 | 91se在线 | 成人av一区二区三区 | 日韩免费一区二区 | 久久不卡 | 一级片免费在线观看 | 亚洲黄色视屏 | 国产精品色av | 天天躁日日躁狠狠躁白人 | 亚洲视频一区二区三区 | 亚洲视频一区在线观看 | 亚洲精品国产精品国自产在线 | 日韩国产精品一区二区三区 | 国产欧美精品 | 成年网站在线观看 | 欧美日韩欧美 | 日韩高清www | 国产露脸国语对白在线 | 国产精品美女www爽爽爽视频 | 7777在线视频| 久久久久久久久91 | 国产精品久久久久久238 | 色综合色综合色综合 | 天堂视频免费 | 精品亚洲一区二区三区四区五区 | 神马久久久久久久久久 | 国产精品一区视频 | 激情五月婷婷综合 | 国产日韩欧美一区二区在线播放 | 一区二区三区四区毛片 | 中文字幕成人在线 | 亚洲精品精品 | 男女羞羞视频在线看 | 草草视频在线观看 | 国产激情一区二区三区 | 色综合天天天天做夜夜夜夜做 | 韩国av影院 | 久久久久国产精品 | 羞羞视频免费观看入口 | 中文字幕韩在线第一页 | 一级片av |