面對到處兜售的“AI”和“機器學習”,7條原則幫你識破騙局
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)。
作為新晉風口“AI”和“機器學習”,無論是商業領導人、創業者、天使投資人、企業中層管理人員、黑客馬拉松的裁判還是“技術”相關人員,都有可能面對這種情況:有人試圖“推銷”他們的“AI產品”、“機器學習軟件”或者其他時髦詞匯的花哨組合。
如果陷入這樣的境地,有時你會感到專業知識不足,無法妥善決策。
堅守陣地,不要被嚇倒了!以下七條常識可以幫你從捕捉信號,看穿夸夸其談的說辭,識破騙局和謊言。
1. “我們用AI來…”
愛因斯坦說“不能簡明地解釋一件事,說明你對它懂得不夠多。”
如果有人說到“AI”這一包羅萬象的概念,請小心,這有可能是花哨的推銷。當然啦,也有可能是真的為了避免顧客煩心,因此省略了令人痛苦的復雜細節。
可以先假定他們無罪,但是要深挖細節,多了解一下具體使用了哪個機器學習模型,并讓他們通過類比解釋。
你可以問問他們這些問題:
- 為什么選擇這一方案,不選其他方案?
- 為什么對于這些數據,這個方案勝過其他方案?
- 是否有人解決過類似的問題?如果有,他們采用了什么方法?
- 有試過別的方法(模型/算法/技術)嗎?結果與現在的方案有什么不同?(如果可以的話,要求提供圖表作為證據)
盡管沒必要一開始就明白所有問題的答案,但是我們應該問問題,盡可能地弄清楚、搞明白。筆者還沒有遇到過哪個機器學習概念是無法用類比解釋的。因此,如果覺得談論太多技術細節太過困難,就要求進一步的解釋。這樣仔細的審查不僅能加深理解,也能展示該方案的思路。
2. 無用輸入,無用輸出
圖源:https://media.tenor.com
“除了上帝,我只相信(優質)數據。”——愛德華茲·戴明
只有優質的數據,才能得到優秀的模型。因此,你應確認用于訓練機器學習模型的數據質量。雖然“質量”難以定義,但有一個簡單的方法可以了解訓練數據的質量,問問他:與模型在“現實世界”處理的數據相比,訓練數據的相似度和代表性如何?
無論一個機器學習模型有多花哨、多前沿,如果用于訓練的數據質量堪憂,結果必然極其糟糕。
3. 適者生存
上世紀90年代到本世紀初,電子收件箱的垃圾郵件過濾器會尋找拼寫錯誤和其他明顯的跡象,自動將垃圾郵件放入垃圾郵件文件夾。
現在,垃圾郵件制造者變得更聰明了,垃圾郵件也越來越難檢測了。現在的電子郵件服務商必須適應這一趨勢,采用更精密的機器學習模型,準確識別垃圾郵件。
圖源:unsplash
有一點我們必須明白:隨著時代變化以及輸入數據迭代,機器學習模型是否能夠無障礙地用新數據重新訓練,或者用更出色的模型替代。這很重要,顧客應該知道他們購買的方案是否有“有效期”。
4. 用正確的標準衡量正確的東西
圖源:unsplash
衡量機器學習模型的分類性能標準當中,準確性是非常常見的標準。例如,對于分類貓和狗圖片的機器學習模型來說,96%的準確率可以說非常出色。這意味著在100張貓和狗的圖片中,模型能夠準確地猜出其中96張。
現在,假設某銀行將同樣的標準應用于對欺詐交易的識別。欺詐識別器可以輕松達到96%的準確率,因為欺詐交易十分罕見。然而識別欺詐交易并不是96%的正確識別就足夠了,而是要降低出錯率,錯誤識別4%的欺詐交易會帶來很大的危害。
對于銀行欺詐的例子來說,假負率比準確率更能反映模型的性能。根據不同問題的要求,可以用其他的標準替代準確率,比如精確率、召回率、特異性和F1值等。你必須留心他是否運用正確的指標,如果可能的話,可以使用多種指標。
5. 更多,更多,更多!
一般來說,在其他條件不變的情況下,用于訓練的數據越多,模型的表現就越好,深度學習模型尤其如此。它就好比備考SAT的高中生,如果做了大量的練習,練習了各種各樣的問題,就更有可能在SAT考試中取得好成績。
圖源:unsplash
獲得(足夠)數據之前就形成理論是一個重大的錯誤。重要的是,確保任何機器學習模型都有足夠的數據用于訓練。多少數據才算夠呢?多多益善!理想情況下,數據應該來源可靠,而且必須物盡其用。
6. 可解釋性
在機器學習中,往往需要在追求卓越模型性能和簡要解釋模型運行之間保持平衡,低性能模型尤其如此。一般來說,對于復雜的數據,模型越精密、越復雜就越好。然而,因為這些模型更加復雜,解釋輸入數據對輸出結果的影響也就更加困難。
舉個例子,假設要用非常復雜的機器學習模型預測某產品的銷量。輸入模型的數據是電視、報紙和廣播的廣告開支。這個復雜模型能夠給出非常準確的銷量預測,但是無法解釋這3種推廣渠道,即電視、廣播和報紙,哪個對銷量的影響最大、哪個更值得投入。
另一方面,更簡單的模型可能結果沒有那么準確,但是能夠解釋哪個渠道更值得投入。顧客必須有平衡模型性能和可解釋性的意識。這很重要,因為如何在可解釋性和性能之間取得平衡取決于目的,因此使用模型的人必須做出決定。
7. 那么…你有什么優點和缺點?
圖源:https://i2.wp.com
這是企業面試時常問的問題。在評估機器學習方案時,優缺點問題非常有用。如果有人推薦某個機器學習方案,一定要問問他們這個方案的局限性:
- 采用這一方案是否利大于弊?
- 該方案的局限性將來是否會影響其性能?
成功的關鍵在于了解自身弱點并成功地彌補弱點。缺乏這一能力的人總是失敗。站在采用高效、可持續的機器學習方案的角度來說,了解其局限性對于其成功至關重要。
不僅如此,要求推薦者說明方案的局限性也能反映透明度的問題。這反映出推薦這一方案的人考慮有多細致、是否值得信任。
如你所見,識破謊言的關鍵之處就是不要慌張,大膽提問吧!詢問、澄清、仔細審查所有不確定的東西。依靠這7條建議,你可以強化理解并全面評估機器學習方案。答不上來這些問題的推銷者們,還不快快現身!