成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

分類模型性能度量:錯誤率與精度、查準率與查全率、P-R曲線與平衡點及F1度量的聯系與區別

發布于 2025-6-10 06:37
瀏覽
0收藏

對模型的泛化性能進行評估,不僅需要有效可行的試驗估計方法,還需要具有衡量模型泛化能力的評價標準,即性能度量。且在不同的任務中對比模型的性能時,使用不同的性能度量往往會導致不同的評判結果。在分類任務中,最常用的性能度量有錯誤率、精度、查準率、查全率、F1分數及AUC-ROC曲線。

01 | 錯誤率與精度

(1) 錯誤率(error rate)是分類錯誤的樣本數占樣本總數(m)的比例。計算公式可表示為:

分類模型性能度量:錯誤率與精度、查準率與查全率、P-R曲線與平衡點及F1度量的聯系與區別-AI.x社區

(2) 精度(accuracy)是分類正確的樣本數占樣本總數的比例。計算公式可表示為:

分類模型性能度量:錯誤率與精度、查準率與查全率、P-R曲線與平衡點及F1度量的聯系與區別-AI.x社區

02 | 查準率與查全率

(1) 二分類混淆矩陣:在二分類問題中,可將樣本根據其真實類別與模型預測類別的組合劃分為真正例、假正例、真反例與假反例四種情形。

分類模型性能度量:錯誤率與精度、查準率與查全率、P-R曲線與平衡點及F1度量的聯系與區別-AI.x社區

(2) 查準率(或準確率)定義為:在預測結果為正例的所有樣例中,預測正確(真實情況也為正例)的概率。

分類模型性能度量:錯誤率與精度、查準率與查全率、P-R曲線與平衡點及F1度量的聯系與區別-AI.x社區

(3) 查全率(或召回率)定義為:在真實情況為正例的所有樣例中,預測正確(預測結果也為正例)的概率。

(4) 查準率與查全率是一對矛盾的變量。一般來說,查準率高時,查全率往往偏低;反之亦然。

(a) 影響兩者大小變化的關鍵在于FP和FN。

分類模型性能度量:錯誤率與精度、查準率與查全率、P-R曲線與平衡點及F1度量的聯系與區別-AI.x社區

(b) 假設分類閾值降低,則模型預測結果為正例的樣例數量將會增加(同時,模型預測結果為反例的樣例數量將會減少),此操作保證盡量不遺漏正例,即TP將會增加。

(b) 同時,此操作將會使真實情況為正例,但預測結果為反例的情況減少,即FN減少。

(c) 同時,此操作將會使真實情況為反例,但預測結果為正例的情況增加,即FP增加。

(d) 綜上所述,在分類閾值降低的情況下將會出現,TP變大、FN變小和FP變大的情況。根據查全率和查準率的比值公式可知,二者的比值將會減小。這意味著,查準率P減小了,而查全率R增大了,即二者并非同時變大或變小,而是一者增大則另一者減小。此即證明查準率與查全率的矛盾所在。

(5) 高查準率要求更嚴格的篩選,希望模型在預測正例時盡量準確,需設置較高的分類閾值,如在病情診斷中,醫生傾向于更嚴格的判斷以避免誤診(高查準率),但也可能遺漏部分真實患者(低查全率)。

(6) 高查全率需要放寬篩選,希望盡可能捕獲所有正例,需降低分類閾值,以將更多樣例標記為正例,例如,在逃犯搜捕中,警方放寬篩選條件以“寧可錯查一千”的策略(高查全率),但會誤傷大量無辜者(低查準率)。

03 | P-R曲線與平衡點

(1) P-R曲線可視化了不同分類閾值下查準率與查全率的動態關系,為解決二者的矛盾,為模型調優、閾值選擇及場景適配提供了核心工具。

(2) 繪制P-R曲線

(a) 根據模型預測結果對樣例進行排序,排在前面的是模型認為“最可能”是正例的樣本,排在后面的是模型認為“最不可能”是正例的樣本。

(b) 按此順序逐個把樣本作為正例進行預測(即從大到小將每個樣本的預測結果作為分類閾值),則每次可以計算出當前的查全率和查準率。

(c) 最后以查準率為縱軸、查全率為橫軸作圖,即可得到查準率-查全率曲線,簡稱P-R曲線。

分類模型性能度量:錯誤率與精度、查準率與查全率、P-R曲線與平衡點及F1度量的聯系與區別-AI.x社區

(3) P-R曲線能直觀地顯示出模型在樣本總體上的查全率、查準率。

(a) 若一個模型的P-R曲線被另一個模型的P-R曲線完全包裹,則可斷言后者的性能優于前者。如上圖中的模型A的性能優于模型C。

(b) 若兩個模型的P-R曲線發生交叉,如上圖中的A和B,則無法直接斷定兩者孰優孰劣。一個比較合理的判斷依據則是比較P-R曲線下面積的大小,能在一定程度上表征模型在查準率和查全率上取得相對“雙高”的比例,但這個值不容易估算。

(4) 為能綜合考慮查準率、查全率的性能度量,設計了“平衡點”(Break-Event Point,BEP)這一度量。

(a) BEP是“查準率=查全率”時的取值。如上圖中模型C的BEP是0.64。

(b) 故基于BEP的比較,可以認為模型A的性能優于模型B。

(c) 但BEP過于簡化,在實際應用中具有局限性。

04 | F1度量

(1)為進一步解決查準率與查全率之間的矛盾,相對于簡潔的BEP度量,F1度量更為常用。F1是基于查準率和查全率的調和平均定義的。

(2) 調和平均數

分類模型性能度量:錯誤率與精度、查準率與查全率、P-R曲線與平衡點及F1度量的聯系與區別-AI.x社區

本文轉載自??南夏的算法驛站??,作者:趙南夏

已于2025-6-10 09:36:41修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲免费精品一区 | 日本久久精品视频 | 欧美精品v国产精品v日韩精品 | 国产日韩精品在线 | 国产在线视频一区二区董小宛性色 | 99re视频| 日韩在线一区二区 | 男女深夜网站 | 成人福利网 | 欧美精品久久久久 | 成人日韩 | 爱草视频| 久久久涩 | 久久久久久91 | 手机看片在线播放 | 免费一区二区三区在线视频 | 日韩中文字幕 | 国产一区二区免费在线 | 999久久久免费精品国产 | 国产成人精品一区二区三区视频 | 亚洲一二三区在线观看 | 欧美极品视频在线观看 | 欧美日韩中文字幕 | 亚洲精品一区二区在线观看 | 久久久久国产精品 | 欧美日韩精品在线免费观看 | 国产成人精品视频在线观看 | av在线一区二区三区 | 久久亚洲一区二区 | 久久精品国产免费一区二区三区 | 91色综合| 精品在线播放 | 狠狠久久| 免费观看国产视频在线 | 国产98色在线 | 欧美日韩三级 | 精品国产一区二区三区久久 | 欧美日韩一区精品 | 国产精品久久午夜夜伦鲁鲁 | 久久美女视频 | 欧美日韩视频在线第一区 |