面對到處兜售的“AI”和“機器學習”，7條原則幫你識破騙局

作者：讀芯術 2020-06-19 14:02:48

人工智能

有人試圖“推銷”他們的“AI產品”、“機器學習軟件”或者其他時髦詞匯的花哨組合。如果陷入這樣的境地，有時你會感到專業知識不足，無法妥善決策。以下七條常識可以幫你從捕捉信號，看穿夸夸其談的說辭，識破騙局和謊言。

本文轉載自公眾號“讀芯術”(ID：AI_Discovery)。

作為新晉風口“AI”和“機器學習”，無論是商業領導人、創業者、天使投資人、企業中層管理人員、黑客馬拉松的裁判還是“技術”相關人員，都有可能面對這種情況：有人試圖“推銷”他們的“AI產品”、“機器學習軟件”或者其他時髦詞匯的花哨組合。

如果陷入這樣的境地，有時你會感到專業知識不足，無法妥善決策。

堅守陣地，不要被嚇倒了!以下七條常識可以幫你從捕捉信號，看穿夸夸其談的說辭，識破騙局和謊言。

[[330730]]

1. “我們用AI來…”

愛因斯坦說“不能簡明地解釋一件事,說明你對它懂得不夠多。”

如果有人說到“AI”這一包羅萬象的概念，請小心，這有可能是花哨的推銷。當然啦，也有可能是真的為了避免顧客煩心，因此省略了令人痛苦的復雜細節。

可以先假定他們無罪，但是要深挖細節，多了解一下具體使用了哪個機器學習模型，并讓他們通過類比解釋。

你可以問問他們這些問題：

為什么選擇這一方案，不選其他方案?
為什么對于這些數據，這個方案勝過其他方案?
是否有人解決過類似的問題?如果有，他們采用了什么方法?
有試過別的方法(模型/算法/技術)嗎?結果與現在的方案有什么不同?(如果可以的話，要求提供圖表作為證據)

盡管沒必要一開始就明白所有問題的答案，但是我們應該問問題，盡可能地弄清楚、搞明白。筆者還沒有遇到過哪個機器學習概念是無法用類比解釋的。因此，如果覺得談論太多技術細節太過困難，就要求進一步的解釋。這樣仔細的審查不僅能加深理解，也能展示該方案的思路。

2. 無用輸入，無用輸出

[[330731]]

圖源：https://media.tenor.com

“除了上帝，我只相信(優質)數據。”——愛德華茲·戴明

只有優質的數據，才能得到優秀的模型。因此，你應確認用于訓練機器學習模型的數據質量。雖然“質量”難以定義，但有一個簡單的方法可以了解訓練數據的質量，問問他：與模型在“現實世界”處理的數據相比，訓練數據的相似度和代表性如何?

無論一個機器學習模型有多花哨、多前沿，如果用于訓練的數據質量堪憂，結果必然極其糟糕。

3. 適者生存

上世紀90年代到本世紀初，電子收件箱的垃圾郵件過濾器會尋找拼寫錯誤和其他明顯的跡象，自動將垃圾郵件放入垃圾郵件文件夾。

現在，垃圾郵件制造者變得更聰明了，垃圾郵件也越來越難檢測了。現在的電子郵件服務商必須適應這一趨勢，采用更精密的機器學習模型，準確識別垃圾郵件。

[[330732]]

圖源：unsplash

有一點我們必須明白：隨著時代變化以及輸入數據迭代，機器學習模型是否能夠無障礙地用新數據重新訓練，或者用更出色的模型替代。這很重要，顧客應該知道他們購買的方案是否有“有效期”。

4. 用正確的標準衡量正確的東西

[[330733]]

圖源：unsplash

衡量機器學習模型的分類性能標準當中，準確性是非常常見的標準。例如，對于分類貓和狗圖片的機器學習模型來說，96%的準確率可以說非常出色。這意味著在100張貓和狗的圖片中，模型能夠準確地猜出其中96張。

現在，假設某銀行將同樣的標準應用于對欺詐交易的識別。欺詐識別器可以輕松達到96%的準確率，因為欺詐交易十分罕見。然而識別欺詐交易并不是96%的正確識別就足夠了，而是要降低出錯率，錯誤識別4%的欺詐交易會帶來很大的危害。

對于銀行欺詐的例子來說，假負率比準確率更能反映模型的性能。根據不同問題的要求，可以用其他的標準替代準確率，比如精確率、召回率、特異性和F1值等。你必須留心他是否運用正確的指標，如果可能的話，可以使用多種指標。

5. 更多，更多，更多!

一般來說，在其他條件不變的情況下，用于訓練的數據越多，模型的表現就越好，深度學習模型尤其如此。它就好比備考SAT的高中生，如果做了大量的練習，練習了各種各樣的問題，就更有可能在SAT考試中取得好成績。

[[330734]]

圖源：unsplash

獲得(足夠)數據之前就形成理論是一個重大的錯誤。重要的是，確保任何機器學習模型都有足夠的數據用于訓練。多少數據才算夠呢?多多益善!理想情況下，數據應該來源可靠，而且必須物盡其用。

6. 可解釋性

在機器學習中，往往需要在追求卓越模型性能和簡要解釋模型運行之間保持平衡，低性能模型尤其如此。一般來說，對于復雜的數據，模型越精密、越復雜就越好。然而，因為這些模型更加復雜，解釋輸入數據對輸出結果的影響也就更加困難。

舉個例子，假設要用非常復雜的機器學習模型預測某產品的銷量。輸入模型的數據是電視、報紙和廣播的廣告開支。這個復雜模型能夠給出非常準確的銷量預測，但是無法解釋這3種推廣渠道，即電視、廣播和報紙，哪個對銷量的影響最大、哪個更值得投入。

另一方面，更簡單的模型可能結果沒有那么準確，但是能夠解釋哪個渠道更值得投入。顧客必須有平衡模型性能和可解釋性的意識。這很重要，因為如何在可解釋性和性能之間取得平衡取決于目的，因此使用模型的人必須做出決定。

7. 那么…你有什么優點和缺點?

面對到處兜售的“AI”和“機器學習”，7條原則幫你識破騙局

圖源：https://i2.wp.com

這是企業面試時常問的問題。在評估機器學習方案時，優缺點問題非常有用。如果有人推薦某個機器學習方案，一定要問問他們這個方案的局限性：

采用這一方案是否利大于弊?
該方案的局限性將來是否會影響其性能?

成功的關鍵在于了解自身弱點并成功地彌補弱點。缺乏這一能力的人總是失敗。站在采用高效、可持續的機器學習方案的角度來說，了解其局限性對于其成功至關重要。

不僅如此，要求推薦者說明方案的局限性也能反映透明度的問題。這反映出推薦這一方案的人考慮有多細致、是否值得信任。

如你所見，識破謊言的關鍵之處就是不要慌張，大膽提問吧!詢問、澄清、仔細審查所有不確定的東西。依靠這7條建議，你可以強化理解并全面評估機器學習方案。答不上來這些問題的推銷者們，還不快快現身!

責任編輯：趙寧寧來源：讀芯術

AI 機器學習人工智能

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

面對到處兜售的“AI”和“機器學習”，7條原則幫你識破騙局