成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器學習需要注意的13個陷阱!

譯文
新聞
將機器學習和人工智能運用于決策,可以幫助企業保持競爭力。但應用當中也會遇到許多問題。要是沒有適當的制約與平衡機制,機器學習項目很快就會失控,從而讓企業面臨諸多風險。本文介紹了需要注意的13個陷阱。

【51CTO.com快譯】想在如今快速發展的商業經濟形勢下取得成功,就需要企業迅速、大規模地利用數據。由于數據的數量、速度和種類不斷增加,使用機器學習和人工智能來篩查所有流入的信息,解讀數據并且準確地預測企業的未來方向變得必不可少。

然而,搞好機器學習并非易事。它需要合適的專長、合適的工具以及合適的數據,才能兌現機器學習的承諾。即便所有這些因素都考慮到位了,還是很容易出差錯。

數學家兼決策網站ClearerThinking.org的創始人斯賓塞·格林伯格(Spencer Greenberg)認為:“機器學習為我們提供了一系列非常有效的用于預測的方法,但是如果你不明白自己的機器學習算法在做什么,它也會帶來災難性后果。一旦算法經受訓練,就要研究算法,弄清楚算法在如何預測,它所做的從企業的角度來看是否有意義,這很重要。”

機器學習有時被視為是解決所有企業挑戰的萬靈藥。如果沒有考慮到實際的潛力和嚴重的局限性,誰都很容易誤解和誤用機器學習。

機器學習的陷阱

全球產品開發和技術咨詢公司Cambridge Consultants的機器學習主管蒙蒂·巴洛(Monty Barlow)在接受采訪時說表示:“由于一連串的媒體報道,各大公司在機器學習方面取得重大進展――棋類游戲擊敗人類對手,醫療篩查方面取得突破等等。這讓人覺得這個領域在不斷迅速取得進展,淡化了遇到的挫折和困境。實際上,可能很晚才收到機器學習方面的投資回報,或者根本收不到。”

許多企業組織在以戰術性和戰略性方式使用機器學習,比如進行產品推薦或為戰略決策提供依據。雖然進行離譜的產品推薦帶來的風險比較低,但是推薦一旦離譜會讓客戶流失。

由于運用不當的機器學習而做出缺乏事實依據的戰略決策會給企業釀成嚴重后果。

普華永道(PwC)竭力從美元和股東價值方面來量化數據驅動的重大戰略決策在經濟方面的影響。它還試圖了解不同的行業領域依賴機器智能的程度。該公司全球和美國數據及分析負責人丹·迪菲利波(Dan DiFilippo)在接受采訪時說:“2014年,我們讓大家量化他們所做的決策,在經濟方面的影響多達數億美元。這次,我們要求他們從股東價值方面來衡量,大多數人選擇對股東價值的影響在5%至50%。即便說少一點,一家大企業5%的股東價值也會是個大數目。”

總之,不管你在運用機器學習這條道路上處于哪個階段,都有必要知道誤用機器學習和人工智能可能會導致企業誤入歧途的陷阱。

1、不準確的預測。

機器學習常常用于做預測。例子包括改善搜索結果,預料電影和產品選擇,預料客戶購買行為,或者預測新的攻擊手法類型。

預測不準確的一個原因與“過擬合”有關:如果機器學習算法本身太過適應數據中的干擾,而不是發現底層的信號,就會出現這種情況。

ClearerThinking.org的斯賓塞·格林伯格認為:“如果你試圖讓一種極其復雜的模型擬合一小批數據,你總是可以迫使算法擬合,但它不會很好地推廣到將來的數據。實際上,你的復雜模型會拼命試圖準確地擊中每個數據點,包括應該忽視的隨機性波動,而不是為數據的核心部分建模。必須根據你擁有的數據量以及數據的干擾性有多大來選擇你在擬合的模型具有的復雜性。”

2、你對不知道的東西一無所知。

市面上缺少機器學習方面的人才。與此同時,機器學習在普及化,相應功能逐漸進入到更多的應用程序和易于使用的平臺,這些平臺可以掩蓋機器學習的底層復雜性。“黑盒子”機器學習的缺點在于無法深入了解決策過程。

斯賓塞·格林伯格指出:“并不總是有必要了解模型是如何進行預測的,但就高風險預測而言,明白算法在做什么變得越來越重要。如果企業依賴來自機器學習算法的預測以便進行決策,那么問清楚那些預測是如何做出的很重要。”

明白預測是如何做出的可能需要數據科學家或能研究算法,向管理層解釋算法行為的工程師的幫助。那樣一來,企業領導人才能確信預測正如他們預期的那樣準確,結果就是企業領導人所想的那種結果,預測并不依賴不需要的信息。

3、算法與現實不一致。

機器學習算法需要加以訓練;而想要高效地加以訓練,算法需要大量的數據。企業常常針對某個特定的數據集來訓練機器學習算法,然后運用算法對未來數據進行預測,范圍未必預料得到。

斯賓塞·格林伯格說:“如果數據的底層特點發生變化,針對某個數據集的準確模型可能面對另一個數據集時不再準確。如果你做預測的系統變化很慢,這也許沒什么,但如果系統迅速變化,機器學習算法會做出非常糟糕的預測,因為它在過去學到的一套可能不再適用。”

4、固有的偏差。

機器學習算法會學會企業不想要的偏差。比如,一家想要預測誰可能會面臨汽車事故這種風險的汽車保險公司可能根本不會提及性別,因為這種差別對待遭到法律的禁止。盡管性別不包括在數據集中,但機器算法可能會使用關聯來推斷性別,然后使用性別作為預測因子。

斯賓塞·格林伯格認為:“這個例子表明了兩個重要原則:首先,從企業角度來看,做出最準確的預測并不總是所需要的,這意味著你可能需要對算法實施另外的限制,準確性不是唯一的限制;其次,算法的智能化程度越高,它就越難控制。消除性別變量未必足以防止算法做出基于性別的預測,消除你知道與性別有關聯的所有變量也是如此,因為算法會發現一種方法來預測你自己甚至都不知道的性別。”

5、招的人不合適。

招聘網站Monster一直在運用機器學習來搞清楚表現最佳的銷售代表是什么樣子,但是結果還不盡如人意。

Monster的全球人才收購主管馬特·杜塞特(Matt Doucette)認為:“我們最初過于關注定額績效和經理評價作為衡量優秀員工的一個指標。在這些測試的第2個階段,我們會深入分析數字,比如連續5個季度的定額平均數字、折扣評分、核心與戰略產品百分比、新業務與保留,以及績效總體表現等度量指標。數據集會變得很龐大,結果會更加小眾化,因而可加以精準化或擴展。”

基于機器學習結果得出不準確的求職者畫像會導致企業招聘的求職者不適合某個崗位。與此同時,寶貴的時間浪費在了篩選實際上不合適的求職者身上。杜塞特表示,如果這是創造收入的崗位,招的人不合適給收入帶來的影響會相當大。

6、給收入帶來的危害。

一些機器學習系統是在沒有監管的情況下運行的,另一些則需要密切監管。無論怎樣,不監管機器學習算法及它們對企業帶來的影響是個錯誤。

預測分析和數據科學公司Lumidatum的創始人兼首席執行官帕特里克·賴斯(Patrick Rice)表示:“算法和機器學習技術的自動化方面取得了非常驚人的進展,以至于很容易抱有‘建好后不管’的心態。然而,這可能會給客戶和企業帶來非常嚴重的后果。”

“公司需要更加系統性地監管部署在生產環境的機器學習系統。不管在什么時候,每個人(不僅僅是工程師和數據科學家)都應該深入了解它在如何運行,它在如何響應新的客戶查詢,它在如何逐漸變化。當然萬一發現任何重大的異常現象,還要能夠關閉系統。”

微軟的Tay推特聊天機器人就是訓練出岔子的一個典例。在推特社區的推波助瀾之下,Tay的種族主義行為變得臭名昭著。微軟在推出16個小時后關閉了它,但是這個失敗案例仍被媒體大肆宣傳。

7、錯誤的假設。

在完全自動化的系統中運行的機器學習算法需要能夠處理缺失的數據點。最常見的方法就是使用平均值,以此代替缺失值。據機器學習實驗室主管兼芝加哥伊利諾伊理工學院計算機學副教授穆斯塔法·比爾吉奇(Mustafa Bilgic)聲稱,這種方法對數據做出強假設,包括數據“隨機缺失”。

比如,比爾吉奇說:“病人缺失膽固醇含量這個事實實際上是非常有用的信息。這可能表明,檢驗是有意不進行的,這實際上意味著它可能對這項任務來說無關,或者假設是正常的。有些方法并不假設特征是‘隨機缺失’,不過完全自動化的方法不可能知道哪些特征是隨機缺失、哪些不是。”

無論是不是用在完全自動化的系統,機器學習算法通常假設數據具有代表性、隨機性,盡管公司的數據并不通常是隨機的。如果數據是隱式偏差的,從數據得到的洞察力和預測也會有偏差。因此,公司應該關注數據收集過程中存在的隱式偏差和顯式偏差。

8、不相關的推薦。

推薦引擎已變得司空見慣。然而,其中一些推薦引擎顯然比另一些來得更準確。機器學習系統算法進一步證實了它們學到的東西。比如,如果零售顧客的偏好突然發生了變化,推薦可能變得完全不相關。

穆斯塔法·比爾吉奇認為:“這就是我們所說的‘利用vs探索’取舍。如果算法試圖利用它學到的東西,但是沒有給探索留下任何空間,它會不斷進一步證實已經知道的東西,不會學習新的東西,最終變得毫無用處。”

9、欺騙性的簡單性。

機器學習內置到各種各樣的應用程序中,還有試圖掩藏其復雜性的諸多平臺和解決方案。由于需要怎樣才能搞好機器學習或者機器學習會如何影響企業對企業用戶來說并不總是很明顯,所以很容易過于簡單化。

Cambridge Consultants的蒙蒂·巴洛指出:“一些企業組織沒有認識到機器學習開發牽涉廣泛的學科領域,以及如何管理它們――比如,把機器學習當成一種純粹涉及數學和算法的項目,或者只是另一種應用軟件,或者以為招聘一名數據分析員來增強現有的軟件團隊就夠了。團隊應竭力就如何在開發期間評估機器學習的表現達成共識,然后不斷衡量和跟蹤其表現。你需要認真規劃里程碑,并且留意表現突然之間得到‘好得難以置信’的提升。”

10、垃圾進垃圾出。

不是所有的數據都一樣寶貴或準確。如果沒有努力解讀數據,機器學習的結果可能與預期要求會有很大的偏差。

網絡解決方案廠商瞻博網絡公司的數據科學家羅曼·西納耶夫(Roman Sinayev)認為:“你可能在初始測試中有出色的結果,后來發現一旦發布到生產環境,你的產品遇到了災難性結果。數據科學家應確保他們拿一系列廣泛的意外變量來測試產品,比如狡猾的攻擊者,確保他們考慮到數據的每一種可能的結果。”

11、拼命尋求顛覆。

包括亞馬遜、Facebook、谷歌、網飛和eBay在內的公司完全顛覆了所在行業,它們的競爭武器之一就是機器學習。其他公司試圖亦步亦趨,不過評估機器學習如何給本企業帶來最大的好處來得很重要。

扎克·克勞斯(Zach Cross)是總部位于亞特蘭大的技術咨詢公司Revenue Analytics的總裁,他認為:“《財富》500強公司很聰明。它們認識到,運用機器學習類型的方法主要是為了確保可擴展性、可重復性和可預測性,而不是獲得洞察力,將自己帶到不同的方向。如果一家跨國企業將效率逐步提高2%或3%,企業就能增收數千萬美元至數億美元。”

12、不可預測的結果。

無論有沒有采用機器學習,復雜系統的行為本來就難以預測。由于會發生預料之外的結果,即便本意再好,投入了大量資金,能做的最好辦法就是盡量減小這些影響。

密歇根大學信息學院的W. K. Kellogg副教授肯塔羅·托亞馬(Kentaro Toyama)表示:“要盡量減小負面影響,最好的辦法之一就是從小處入手,逐步加大系統的范圍、接觸面和影響力。”托亞馬表示,用戶最好創建多個規模的沙盒(至少每個數量級創建一個沙盒),讓新系統或新變化可以在受到密切監視的情況下在較小規模下運行一段時間,然后將規模擴大一級。

13、盲目的信任。

說到機器學習,細節至關重要。如果用戶盲目信任和實施來自機器學習的洞察力,并不了解洞察力背后的原因,可能會將其雇主、客戶或者甚至整個公眾暴露在風險面前。

機器智能應用軟件廠商Nutonian的創始人兼首席技術官邁克爾·施密特(Michael Schmidt)說:“我們還沒有準備好根據獨立于任何人類理解能力的模型來做出所有的企業決策、醫療決策和重要的生活決策。由于用戶解釋不了模型,這可能會導致金融崩潰,人們因未知原因而被拒絕貸款,或者甚至病人在治療疾病時被誤診。”

簡言之,如果你無法解釋為何你的機器學習模型做出了決策,就不該將它用于重要事情。

原文標題:13 Ways Machine Learning Can Steer You Wrong,作者:Lisa Morgan

【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】

責任編輯:wangxuze 來源: 51cto.com
相關推薦

2021-10-15 10:04:37

云計算安全云服務

2009-06-24 17:42:42

Java高手

2023-10-04 00:03:00

SQL數據庫

2020-11-03 10:09:46

機器學習論文代碼

2021-10-15 16:37:45

云計算KubernetesApache

2016-03-23 09:46:40

移動前段開發

2010-12-31 09:14:36

MongoDB

2011-05-26 17:37:11

Ajax

2021-02-05 17:35:07

數據高管CIO技術

2016-12-26 18:51:34

AndroidJavascriptJSONObject

2020-10-26 14:01:22

Java泛型

2013-09-29 10:36:08

VMware虛擬化

2009-04-23 14:30:19

UML建模

2009-11-11 09:54:03

企業架構RESTNoSQL

2012-07-04 14:40:37

Ajax

2017-03-17 11:00:08

數字化陳勇Gartner

2016-01-31 10:59:19

設計app

2016-09-23 16:09:01

2024-05-16 15:15:14

2017-01-06 15:09:13

編程訣竅
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品视频网站 | 欧美日韩视频在线第一区 | 日本天堂视频在线观看 | 精品国产一区二区三区免费 | 中文字幕一区二区三区四区五区 | 国产内谢 | 国产电影一区二区三区爱妃记 | 91免费在线 | 国产精品亚洲一区二区三区在线 | 亚洲三区视频 | 国产成人综合一区二区三区 | 99视频精品 | 国产伦精品一区二区三毛 | 中文字幕精品一区二区三区精品 | 久久亚洲综合 | 中文字幕国产 | 91久久久久久久久久久久久 | 精品麻豆剧传媒av国产九九九 | 黄色大片网站 | 久久aⅴ乱码一区二区三区 91综合网 | 欧美日韩在线一区二区 | 久草成人 | 日韩h| 精品国产99 | 毛片日韩 | 久久com| 国产精品夜夜夜一区二区三区尤 | 亚洲精品一区二区在线观看 | 俺去俺来也www色官网cms | 国产欧美精品 | 成人午夜精品 | 日韩成人免费视频 | 欧美成人精品激情在线观看 | 免费三级网站 | xx视频在线 | 国产婷婷在线视频 | 中国一级特黄视频 | 欧美1区2区 | 日韩精品一区二区三区在线观看 | 欧美区日韩区 | 五月婷婷在线播放 |