成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

免費Python機器學習課程八:精確度,召回率

人工智能 機器學習
在本文中,您學習了如何處理偏斜的數據集。如何使用F1分數在精確度和召回率之間進行選擇。希望對您有所幫助。

如何處理機器學習中偏斜的數據集

用偏斜的數據集開發有效的機器學習算法可能很棘手。例如,數據集涉及銀行中的欺詐活動或癌癥檢測。發生的情況是,您將在數據集中看到99%的時間沒有欺詐活動或沒有癌癥。您可以很容易地作弊,并且始終可以僅預測0(如果癌癥則預測1,如果沒有癌癥則預測0),從而獲得99%的準確性。如果這樣做,我們將擁有99%的準確機器學習算法,但我們將永遠不會檢測到癌癥。如果某人患有癌癥,他/他將永遠得不到治療。在銀行中,不會采取任何針對欺詐活動的措施。因此,僅靠準確性就無法確定偏斜的數據集,就像算法是否有效運行一樣。

[[360389]]

背景

有不同的評估矩陣可以幫助處理這些類型的數據集。這些評估指標稱為精確召回評估指標。

要了精確度和召回率,您需要了解下表及其所有術語。考慮二進制分類。它將返回0或1。對于給定的訓練數據,如果實際類別為1,而預測類別也為1,則稱為真實肯定。如果實際類別為0,而預測類別為1,則為假陽性。如果實際類別為1,但預測類別為0,則稱為假陰性。如果實際類別和預測類別均為0,則為真陰性。

免費Python機器學習課程八:精確度,召回率

使用所有這些,我們將計算精度和召回率。

精確

Precision會計算出我們預測為欺詐的交易(預測為1類)中有多少實際上是欺詐的。可以使用以下公式計算精度:

免費Python機器學習課程八:精確度,召回率

進一步分解,該公式可以寫成:

免費Python機器學習課程八:精確度,召回率

從公式中可以看出,更高的精度是好的。因為更高的精度意味著更多的真實肯定。這意味著當我們說此交易是欺詐性的時,這是事實。

召回

回憶告訴我們,最初欺詐的所有交易中有多少被檢測為欺詐。這意味著,如果我們告知銀行適當的權力采取行動,那么在某筆交易實際上是欺詐的情況下。當我第一次閱讀這些關于精確度和召回率的定義時,我花了一些時間才能真正理解它們之間的區別。我希望你能更快地得到它。如果沒有,那就不用擔心。你不是一個人。

召回率可以通過以下公式計算:

免費Python機器學習課程八:精確度,召回率

用上面2 x 2表中定義的術語表示:

免費Python機器學習課程八:精確度,召回率 

從精確度和召回率做出決策

精確度和召回率可以更好地了解算法的實際運行方式,尤其是在數據集高度偏斜的情況下。如果我們一直預測為0并獲得99.5%的準確度,則召回率和精確度都將為0。因為沒有真正的肯定。因此,您知道分類器不是一個好的分類器。當精度和查全率都很高時,表明該算法運行良好。

假設僅在高度自信的情況下,我們要預測y = 1。因為有時候這很重要。特別是當我們處理醫療數據時。假設我們正在檢測某人是否患有心臟病或癌癥。預測假陽性會給一個人的生活帶來很多痛苦。提醒一下,通常,邏輯假設如果假設大于或等于0.5,則預測1;如果假設小于0.5,則預測0。

  • 如果假設≥0.5,則預測1
  • 如果假設<0.5,則預測0

但是,當我們如上所述處理某些敏感情況時,我們想更確定自己的結果,如果假設≥0.7,我們將預測為1,如果假設<0.7,我們將預測為0。如果您想對結果更有信心,可以看到0.9之類的值。因此,您將90%地確定某人是否患有癌癥。

現在,看看精度和召回率公式。真實肯定和錯誤肯定都會更低。因此,精度會更高。但另一方面,由于我們現在將預測更多的負面因素,因此,假陰性的可能性會更高。在這種情況下,召回率會更高。但是太多的假陰性也不好。如果某人確實患有癌癥,或者某個賬戶有欺詐行為,但是我們告訴他們他們沒有癌癥,或者該賬戶沒有欺詐行為,則可能導致災難。

為了避免誤報并提高召回率,我們需要將閾值更改為以下內容:

  • 如果假設≥0.3,則預測1
  • 如果假設<0.3,則預測為0

與以前的情況相反,我們將具有更高的召回率和更低的精度。

那么如何確定閾值呢?這將取決于您的要求。根據數據集,您必須決定是否需要更高的精度或更高的查全率。這是精度調用曲線:

免費Python機器學習課程八:精確度,召回率

精確調用曲線可以是任何形狀。因此,我在這里顯示三種不同的形狀。如果您不能自己決定是否需要更高的精度或更高的查全率,則可以使用F1分數。

F1分數

F1分數是準確性和召回率的平均值。但是平均公式卻不同。常規平均公式在這里不起作用。看一下平均公式:

(精確+召回)/ 2

即使精度為0或召回率為零,平均值仍為0.5。請記住,從我們之前的討論中可以看出,精度為零是什么意思。我們總是可以預測y =1。因此,這應該是不可接受的。因為整個精確調用的想法是避免這種情況。公式F1得分是:

免費Python機器學習課程八:精確度,召回率

在這里,P是精度,R是召回率。如果精度為零或召回率為零,則F1分數將為零。因此,您將知道分類器沒有按照我們的期望工作。當精度和召回率都完美時,這意味著精度為1,召回率也為1,F1分數也將為1。因此,理想的F1分數是1。最好嘗試使用不同的閾值并計算精度,召回率和F1分數,以找到適合您的機器學習算法的最佳閾值。

結論

在本文中,您學習了如何處理偏斜的數據集。如何使用F1分數在精確度和召回率之間進行選擇。希望對您有所幫助。

 

責任編輯:趙寧寧 來源: 今日頭條
相關推薦

2020-12-19 10:54:25

機器學習線性回歸算法

2020-12-23 07:54:56

Python機器學習邏輯回歸算法

2020-12-20 20:31:56

Python機器學習多元線性回歸

2020-12-29 06:45:30

Python機器學習K均值聚類

2020-12-25 10:08:53

Python機器學習神經網絡算法

2020-04-24 09:35:46

機器學習技術模型

2009-08-17 22:52:41

IT運維管理Mocha ITOM工摩卡

2010-04-06 13:58:33

2020-12-22 07:09:01

Python機器學習多項式回歸

2020-12-27 21:14:06

Python機器學習算法

2021-01-01 14:59:51

Python機器學習算法

2020-12-24 06:54:45

Python機器學習多類分類邏輯回歸

2024-04-29 09:16:33

2020-03-20 11:22:09

人工智能機器學習技術

2023-04-27 09:55:09

分類器ROC曲線混淆矩陣

2019-05-29 07:59:54

機器學習深度學習自然語言

2022-08-05 14:23:08

機器學習計算復雜度算法

2024-09-30 05:43:44

2016-01-27 13:37:53

機器學習數據模型算法

2017-04-20 12:51:28

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91欧美| 天天人人精品 | 2019天天干夜夜操 | 欧美精产国品一二三区 | 成人三区四区 | 精品视频在线免费观看 | 在线观看中文字幕亚洲 | 午夜视频在线视频 | 日韩一区二区免费视频 | 欧美在线观看网站 | 亚洲精品1区 | 网站黄色在线免费观看 | 伊人最新网址 | 久久噜噜噜精品国产亚洲综合 | 国产成人精品一区二区三区在线 | 亚洲精品视频免费看 | 色综合久久天天综合网 | 中文字幕国产精品 | 一区精品在线观看 | 亚洲国产电影 | 成人精品国产 | 伊人久操 | 亚洲欧美少妇 | 断背山在线观看 | 国产精品精品久久久 | 国产精品欧美一区二区三区不卡 | 青青草一区二区三区 | 日本午夜在线视频 | 高清成人av | 久久精品亚洲精品国产欧美 | 99婷婷| 精品一区二区视频 | 日韩美女在线看免费观看 | 国产美女精品视频 | 99亚洲| 亚洲精品一区国语对白 | 91中文视频 | 欧美激情a∨在线视频播放 成人免费共享视频 | 日本精品免费 | 午夜精品一区二区三区在线观看 | 精品国偷自产在线 |