可以采用哪些KPI來衡量人工智能項目的成功?
調研機構IDC公司在2020年6月發布的一項研究報告表明,大約28%的人工智能計劃遭遇失敗。報告給出的理由是缺乏專業知識、缺乏相關數據以及缺乏足夠集成的開發環境。為了建立一個持續改進機器學習的過程并避免陷入困境,確定關鍵績效指標(KPI)現在是當務之急。
而在行業上游,可以由數據科學家來定義模型的技術性能指標。它們將根據所使用的算法類型而有所不同。在旨在預測某人的身高作為其年齡函數的回歸的情況下,例如,可以求助于線性確定系數。
可以采用一個衡量預測質量的方程:如果相關系數的平方為零,回歸線確定0%的點分布。反之,如果該系數為100%,則該數字等于1。因此,這表明預測的質量非常好。
預測與現實的偏差
評估回歸的另一個指標是最小二乘法,它指的是損失函數。它包括通過計算實際值與預測線之間偏差的平方和來量化誤差,然后通過最小化平方誤差來擬合模型。在相同的邏輯中,可以利用平均絕對誤差方法,該方法包括計算偏差的基本值的平均值。
法國咨詢機構凱捷公司負責戰略、數據和人工智能服務的CharlottePierron-Perlès總結說:“無論如何,這相當于衡量與我們試圖預測的差距。”
例如,在用于垃圾郵件檢測的分類算法中,有必要查找誤報和漏報的垃圾郵件。PierronPerlès解釋說:“例如,我們為一家化妝品集團開發了一種機器學習解決方案,可以優化生產線的效率。目的是在生產線開始時識別可能導致生產中斷的有缺陷的化妝品。我們在與工廠經營者討論之后與他們一起尋求一個模型來完成檢測,即使這意味著檢測到誤報,也就是說,合格的化妝品可能被誤認為是有缺陷的。”
基于誤報和漏報的概念,其他三個指標允許評估分類模型:
(1)召回率(R)是指模型敏感度的測量值。它是正確識別的真實陽性(以新冠病毒檢測呈陽性為例)與所有應檢測的真實陽性(冠狀病毒檢測呈陽性+冠狀病毒檢測呈陰性實際是陽性)的比例:R=真陽性/真陽性+假陰性。
(2)精度(P)是指準確度的度量。它是正確的真陽性(新冠病毒檢測呈陽性)與所有確定為陽性的結果(新冠病毒檢測呈陽性+新冠病毒檢測呈陰性)的比例:P=真陽性/真陽性+假陽性。
(3)調和平均值(F-score)衡量模型給出正確預測和拒絕其他預測的能力:F=2×精度×召回率/精度+召回率
模型的推廣
法國ESNKeyrus公司首席高級數據科學家DavidTsangHinSun強調說:“一旦構建成模型,其泛化能力將成為關鍵指標。”
那么如何估計它?通過測量預測和預期結果之間的差異,然后了解這種差異隨時間的演變。他解釋說,“在一段時間之后,我們可能會遇到分歧。這可能是由于數據集在質量和數量方面的訓練不足而導致的學習不足(或過度擬合)。”
那么其解決方案是什么?例如,在圖像識別模型的情況下,可以使用對抗性生成網絡通過旋轉或扭曲來增加圖片學習的數量。另一種技術(適用于分類算法):合成少數過采樣,它包括通過過采樣增加數據集中低發生率示例的數量。
在過度學習的情況下也會出現分歧。在這種配置中,模型在訓練后將不會局限于預期的相關性,但是由于過于專業化,它會捕獲現場數據產生的噪聲并產生不一致的結果。DavidTsangHinSun指出,“然后有必要檢查訓練數據集的質量,并可能調整變量的權重。”
而經濟的關鍵績效指標(KPI)依然存在。法國咨詢機構AIBuilders公司首席執行官StéphaneRoder認為:“我們必須捫心自問,錯誤率是否與業務挑戰相符。例如,保險商Lemonade公司開發了一種機器學習模塊,可以在客戶提出索賠后3分鐘內根據所傳達的信息(包括照片)向客戶賠付保險金。考慮到節省的費用,一定的錯誤率會產生成本。在模型的整個生命周期中,特別是與總體擁有成本(TCO)相比,從開發到維護,檢查這一測量值是非常重要。”
采用水平
即使在同一家公司內,預期的關鍵績效指標(KPI)也可能有所不同。凱捷公司的CharlottePierronPerlès指出:“我們為一家具有國際地位的法國零售商開發了一個消費預測引擎。結果證明該模型的精確目標在百貨商店銷售的產品和新產品之間是不同的。后者的銷售動態取決于因素,尤其是與市場反應相關的因素,從定義上來說,這些因素不太可控。”
最后一個關鍵績效指標是采用水平。CharlottePierron-Perlès說:“即使一個模型質量很好,僅靠它自己是不夠的。這需要開發具有面向用戶體驗的人工智能產品,既可用于業務,又可實現機器的承諾學習。”
StéphaneRoder總結說:“這個用戶體驗還將允許用戶提供反饋,這將有助于在日常生產數據流之外提供人工智能知識。”?