成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數(shù)據(jù)科學(xué)必知必會(huì):10個(gè)重要概念+22張圖表含義

人工智能
本文中提到的重要概念都可以通過相關(guān)的圖表進(jìn)行表示。

01 偏差-方差權(quán)衡

這是一個(gè)總是在機(jī)器學(xué)習(xí)最重要理論中名列前茅的概念。機(jī)器學(xué)習(xí)中的幾乎所有算法(包括深度學(xué)習(xí))都努力在偏差和方差之間取得適當(dāng)?shù)钠胶猓@個(gè)圖清楚地解釋了二者的對立關(guān)系。

圖片圖片

02 基尼不純度與熵

Gini(缺乏同質(zhì)性的度量)和 Entropy(隨機(jī)性的度量)都是決策樹中節(jié)點(diǎn)不純度的度量。

圖片

圖片圖片

對于這兩個(gè)概念更重要的是要了解它們之間的關(guān)系,以便能夠在給定的場景中選擇正確的指標(biāo)。

基尼不純度(系數(shù))通常比熵更容易計(jì)算(因?yàn)殪厣婕皩?shù)計(jì)算)。

03 精度與召回曲線

精度-召回曲線顯示了不同閾值的精度和召回率之間的權(quán)衡。曲線下面積大代表高召回率和高精度,其中高精度與低誤報(bào)率相關(guān),高召回率與低誤報(bào)率相關(guān)。

它可以幫助我們根據(jù)需要選擇正確的閾值。例如,如果我們的目標(biāo)是減少類型 1 錯(cuò)誤,我們需要選擇高精度,而如果我們的目標(biāo)是最小化類型 2 錯(cuò)誤,那么我們應(yīng)該選擇一個(gè)閾值,使得召回率很高。圖片

  • 精度分母是一個(gè)變量:即假陽性(歸類為陽性的負(fù)樣本)每次都會(huì)變化。
  • 召回分母是一個(gè)常數(shù):它代表真值的總數(shù),因此將始終保持不變。

這就是為什么下圖 Precision 在結(jié)束時(shí)有一個(gè)波動(dòng),而召回始終保持平穩(wěn)的原因。

圖片

04 ROC曲線

ROC 曲線是顯示分類模型在所有分類閾值下的性能的圖表。

這條曲線繪制了兩個(gè)參數(shù):

真陽性率
誤報(bào)率

圖片

此曲線下的面積(稱為 AUC),也可用作性能指標(biāo)。AUC 越高,模型越好。

圖片

05 彎頭曲線

用于K-means算法中最優(yōu)簇?cái)?shù)的選擇。WCSS(簇內(nèi)平方和)是給定簇中每個(gè)點(diǎn)與質(zhì)心之間的平方距離之和。當(dāng)我們用 K(簇?cái)?shù))值繪制 WCSS 時(shí),該圖看起來像一個(gè)肘部(彎頭)。

隨著聚類數(shù)量的增加,WCSS 值將開始下降。K = 1時(shí)WCSS值最大

圖片

06三塊地塊

它幫助我們在對高維數(shù)據(jù)執(zhí)行主成分分析后,可視化每個(gè)主成分解釋的變異百分比。為了選擇正確數(shù)量的主成分來考慮我們的模型,我們通常會(huì)繪制此圖并選擇能夠?yàn)槲覀兲峁┳銐蚝玫目傮w方差百分比的值。

圖片圖片圖片

07線性和邏輯回歸曲線

圖片

對于線性可分?jǐn)?shù)據(jù),我們可以進(jìn)行線性回歸或邏輯回歸,二者都可以作為決策邊界曲線/線。但是,在邏輯回歸的情況下,由于通常只有 2 個(gè)類別,因此具有線性直線決策邊界可能不起作用,在一條直線上值從低到高非常均勻地上升,因?yàn)樗粔蚨盖驮谥低蝗簧仙髸?huì)得到很多臨界的高值或者低值,最終會(huì)錯(cuò)誤分類。因此,"邊界"區(qū)域,即概率從高到低轉(zhuǎn)變的區(qū)域并不真正存在。所以一般情況下會(huì)應(yīng)用 sigmoid 變換將其轉(zhuǎn)換為 sigmoid 曲線,該曲線在極端情況下是平滑的,在中間幾乎是線性的。

圖片

08支持向量機(jī)(幾何理解)

圖片

09標(biāo)準(zhǔn)正態(tài)分布規(guī)則(z-分布)

均值為0,標(biāo)準(zhǔn)差為1的特殊正態(tài)分布。圖片

經(jīng)驗(yàn)法則指出,按照正態(tài)分布觀察到的數(shù)據(jù)中有 99.7% 位于平均值的 3 個(gè)標(biāo)準(zhǔn)差以內(nèi)。根據(jù)該規(guī)則,68% 的數(shù)據(jù)在一個(gè)標(biāo)準(zhǔn)差內(nèi),95% 在兩個(gè)標(biāo)準(zhǔn)差內(nèi),99.7% 在三個(gè)標(biāo)準(zhǔn)差內(nèi)。10學(xué)生T分布T 分布(也稱為學(xué)生 T 分布)是一系列分布,看起來幾乎與正態(tài)分布曲線相同,只是更短和更寬/更胖。當(dāng)我們有較小的樣本時(shí),我們使用 T分布而不是正態(tài)分布。樣本量越大,t 分布越像正態(tài)分布。事實(shí)上,在 30 個(gè)樣本之后,T 分布幾乎與正態(tài)分布完全一樣。

圖片

總結(jié)

我們可能會(huì)遇到許多小而關(guān)鍵的概念,這些概念構(gòu)成了我們做出決定或選擇正確模型的基礎(chǔ)。本文中提到的重要概念都可以通過相關(guān)的圖表進(jìn)行表示,這些概念是非常重要的,需要我們在看到其第一眼時(shí)就知道他的含義,如果你已經(jīng)對上面的概念都掌握了,那么可以試試說明下圖代表了什么:

圖片

責(zé)任編輯:張燕妮 來源: 數(shù)倉寶貝庫
相關(guān)推薦

2021-03-03 10:39:11

容器微服務(wù)IT

2023-10-13 00:00:00

設(shè)計(jì)模式GO語言

2020-07-10 07:58:14

Linux

2024-08-09 09:09:14

深度學(xué)習(xí)神經(jīng)元網(wǎng)絡(luò)

2022-08-19 10:31:32

Kafka大數(shù)據(jù)

2018-10-26 14:10:21

2024-11-15 11:11:48

2023-04-20 14:31:20

Python開發(fā)教程

2023-05-08 15:25:19

Python編程語言編碼技巧

2024-01-03 07:56:50

2024-01-09 13:58:22

PandasPython數(shù)據(jù)分析

2022-05-18 09:01:19

JSONJavaScript

2020-08-23 18:18:27

Python列表數(shù)據(jù)結(jié)構(gòu)

2019-11-06 10:56:59

Python數(shù)據(jù)分析TGI

2011-07-08 16:37:20

2021-06-09 11:06:00

數(shù)據(jù)分析Excel

2021-04-15 10:01:18

Sqlite數(shù)據(jù)庫數(shù)據(jù)庫知識(shí)

2022-07-29 16:28:19

Kubernetes通信服務(wù)通信

2022-09-28 08:40:04

殺死一個(gè)終端進(jìn)程

2024-01-23 18:49:38

SQL聚合函數(shù)數(shù)據(jù)分析
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 一区二区三区亚洲视频 | 亚洲福利一区 | 久草视频在线播放 | 久久黄网 | 91亚洲欧美 | 久久激情网 | 日本视频免费观看 | 日韩中文字幕一区二区 | 中文字幕在线不卡播放 | 色www精品视频在线观看 | 久久中文视频 | av在线一区二区三区 | 国产综合精品一区二区三区 | www国产成人 | 成人亚洲 | 极品销魂美女一区二区 | 久久99精品国产99久久6男男 | 99久久婷婷国产亚洲终合精品 | 国产精品夜色一区二区三区 | 国产一区二区毛片 | 日韩欧美高清dvd碟片 | 欧美一级欧美一级在线播放 | 亚洲一区二区视频 | 99精品免费视频 | 美女天天干天天操 | 欧美日韩在线综合 | 亚洲丝袜天堂 | 欧美日韩精品 | 在线视频国产一区 | 特级特黄特色的免费大片 | 欧美激情一区 | 精品久久久久久久久久久久久久 | 国产精品久久久久久吹潮 | 成人毛片视频在线播放 | 九九久久国产精品 | av中文网| 免费久| 欧美日韩在线观看一区二区三区 | 精品视频一区二区三区在线观看 | 国产午夜精品一区二区三区嫩草 | 91免费观看 |