機器學習嶄露頭角 九大認知誤區早知道
譯文【51CTO.com原創稿件】當下,圍繞機器學習技術出現的炒作之聲可謂沸沸揚揚,其中自然包含諸多認知誤區。在本文中,我們將撥亂反正、聊聊關于機器學習的那些真相。
實踐證明,機器學習技術確實具有強大的實用度,因此很多朋友會誤以為其能夠解決一切問題并適用于所有情況。但事實上,與其它工具一樣,機器學習也只是在特定領域非常強大——例如長期困擾著您,但您永遠無法雇用足夠的人手來解決的問題; 或者擁有著明確目標,但沒有明確實現方法的問題。
當然,各類組織機構都能夠通過各種方式運用機器學習的強大能力。根據埃森哲公司的調查,42%的企業高管表示他們預計人工智能將在2021年時被引入其全部創新項目。然而,要想真正發揮機器學習的全部潛能并借此實現以往所不可能實現的目標,下面這些誤區必須加以破除。
誤區一:機器學習就是人工智能
機器學習與人工智能常常被作為同義詞使用,但更具體地講,機器學習是一種成功由研究實驗室走入現實世界的技術,而人工智能則屬于一類廣泛的領域——其中涵蓋計算機視覺、機器人與自然語言處理等可能并不涉及機器學習的方向。事實上,大家可能將人工智能理解為給機器賦予智能的一切相關手段。另外需要強調,二者都不會帶來普通民眾所畏懼的“擁有自主意識的人工智能”或者會與人類競爭甚至發動攻擊的產物。
請注意具體用詞并盡可能準確表述。機器學習屬于同學習模式及大數據集預測相關的結果; 其結果看起來具備“智能”,但其核心則在于前所未有的處理速度與統計數據的大規模應用。
誤區二:所有數據都很有用
我們需要為機器學習方案提供數據,但并非所有數據皆可用于機器學習。為了進行系統訓練,大家需要的是有代表性的數據,用以涵蓋機器學習系統所應處理的各種模式及結果。我們需要的數據不應包含不相關的模式(例如照片中所有男性皆站立,所有女性皆坐下; 或者所有車輛都在車庫內,而所有自行車都在戶外等等),這是因為您所創建的機器學習模型將直接反映出那些過于具體的模式,并在所提供的數據中反復加以驗證。所有用于訓練的數據都需要添加標簽,同時與您打算讓機器學習系統回答的問題相匹配——這無疑需要大量處理工作。
總之,請不要假設您掌握的數據已經非常清晰、明確、有代表性或者易于標記,這實在是一項耗神耗力的龐大工程。
誤區三:您總是需要大量數據
最近一段時間,圖像識別、機器閱讀理解、語言翻譯以及其它重要領域已經出現了一系列關鍵性進展,這主要是由于我們擁有了更為強大的工具選項——包括能夠并行處理大量數據的GPU等計算硬件,外加ImageNet與斯坦福問答數據集等經過標記的龐大數據集合。然而,遷移學習技術也在快速興起。利用這種技術,我們無需大量數據即可在特定領域內獲得良好的結果。我們可以教授機器學習系統如何利用一套大型數據集完成學習,而后將其遷移至自己的小型訓練數據集內。這也正是Salesforce與微軟Azure提供的自定義視覺API的起效原理:只需要30到50張圖像,即可獲得良好的內容分類能力。
遷移學習能夠幫助大家利用相對較少的數據,根據需要解決的問題對預先訓練好的系統加以定制。
誤區四:任何人都能夠構建起機器學習系統
目前市面上存在大量機器學習類開源工具與框架,網絡上也擁有無數講解具體使用方法的課程。然而,機器學習仍然是一項專業性極強的技術; 我們需要了解如何準備數據并對其進行分類,從而用于訓練及測試; 我們需要了解如何選擇最佳算法以及使用哪種啟發式算法; 我們還需要思考如何將其轉化為可靠的生產系統。此外,大家還需要監控系統以確保結果能夠隨時間推移而持續有效。畢竟無論是市場變化還是客戶群體轉換,機器學習系統面臨的問題都在快速變化,因此我們需要持續追蹤相關模型以判斷其是否仍適用于當前問題。
讓機器學習擁有正確的處理能力需要豐富的經驗; 如果您剛剛開始進行嘗試,不妨先利用API接入預先訓練完成的模型,或者聘用數據科學家就機器學習專家為您構建定制化系統。
誤區五:數據中的所有模式都很有用
患有哮喘、胸痛或心臟病以及任何100歲以上的肺炎患者的存活率遠高于預期。實際上,一套簡單的機器學習系統往往會得出這樣的結論(這類基于規則的系統以神經網絡方式進行數據訓練)。遺憾的是,他們之所以擁有更高的生存率,是因為對這類人群而言,肺炎往往非常致命因此會得到高度重視與快速診治。
這套系統能夠從數據當中發現有效的模式; 然而,根據實際應用場景的不同,這些模式并不一定擁有現實意義。更可怕的是,除非意識到這些模式的具體判斷機制,否則我們很可能根本無法發現自己的數據集中存在著哪些無用的反模式。
另外,系統也可能會學習到一種雖然實際起效,但卻會因為無法作出明確解釋而不能實踐使用的模式——例如目前存在爭議的面部識別系統,其能夠準確預測自拍者的性取向,但卻無法給出具體理由。
這種“黑匣子”模型雖然非常高效,但無法表達其學習到了怎樣的模式。因此,更易于理解的通用附加模型等透明算法往往更適合自我表達,從而幫助使用者判斷其適合哪些部署場景。
誤區六:強化學習已經做好充分準備
當前使用的幾乎所有機器學習系統都在使用監督學習技術; 在大多數情況下,其需要接受由人類參與準備、且擁有明確標記的數據集進行訓練?;I備這些數據集需要投入大量時間與精力,因此目前業界對非監督式學習,特別是強化學習(簡稱RL)抱有極大興趣——在這類方案當中,模型將通過反復試驗性學習以及與環境的交互獲得正確行為獎勵。DeepMind的AlphaGo系統即利用強化學習配合監督學習一舉擊敗世界頂尖圍棋選手,而由卡內基梅隆大學構建的Libratus系統則利用強化學習及其它兩種人工智能技術輕松碾壓全球最強的德州撲克玩家(這種撲克游戲以復雜的投注策略而著稱)。研究人員正在嘗試利用強化學習實現從機器人到安全軟件測試的各類實踐工作。
但在研究領域之外,強化學習的應用還比較少見。谷歌DeepMind利用強化學習以降低數據中心功耗,從而節約基礎設施電力成本; 微軟則在其MSN.com當中使用強化學習的一套特殊版本——contextual bandits,用于為訪問者提供更具個性化的新聞推薦。不過問題在于,真實環境很難快速提供獎勵與即時反饋,這意味著強化學習真正步入實踐仍有很長的道路要走。
誤區七:機器學習不存在偏見
由于機器學習會從數據當中學習模式,因此其也會直接繼承數據集中的一切偏見。其可能會將CEO與白人男性聯系起來,因為出任CEO的群體中白人男性比例更高。更可怕的是,機器學習往往還會放大這種偏見性結論。
常被用于訓練圖像識別系統的COCO數據集中包含大量男性與女性照片;然而更多女性在照片中身處廚房之內,更多男性則身處包含電腦鍵盤、鼠標或者網球拍及滑雪板的場景下。如果利用COCO進行系統訓練,則其會認定男性更傾向于使用計算機硬件——這一點與原始照片中的統計數據并不相符。
另外,一套機器學習系統也可能給另一套機器學習系統帶來偏見。在訓練機器學習系統進行詞匯表達時,目前的各類主流框架會將詞匯作為向量進行關系表達。在這樣的學習中,結論中往往存在“計算機程序員更偏向男性,家務工作則更偏向女性; 醫生更偏向男性,護士更偏向女性; 老板更偏向男性,文員更偏向女性”等刻板印象。
了解機器學習中的偏見問題非常重要。如果無法徹底消除訓練數據集中的偏差,請大家使用規則化等技術處理詞匯中的性別關聯,從而減少偏差或者避免將不相關項目添加到建議當中。
誤區八:機器學習僅會帶來善意用途
機器學習為反病毒工具提供強大的能力,并可幫助其盡快發現全新攻擊行為。但與此同時,黑客們也在利用機器學習研究如何攻克反病毒工具的防御體系,并通過分析大量公開數據或分析以往成功的網絡釣魚嘗試,指導后續攻擊活動的設計思路。
誤區九:機器學習將取代人類
人們常常擔心人工智能會奪走我們的工作崗位。沒錯,其確實會改變我們的工作內容以及工作方式,同時提高效率并降低合規性成本。事實上,從長遠角度來看,其會在企業當中創造新的職能角色,并消除一部分現有職位。然而,機器學習的主要價值,仍然體現在完成一些此前因復雜性或規模水平限制而不可能以自動化或人工形式實現的任務——例如查看發布至社交媒體上的每張照片,并分析其中是否包含某些品牌特征。
在另一方面,機器學習會帶來更多新的商業機遇,例如通過預測性維護改善客戶體驗,并向業務決策者提供建議與支持。因此與前幾代自動化革命一樣,機器學習更多代表著為員工提供自由使用專業知識與創造力空間的可能。
原文鏈接:https://www.cio.com/article/3263776/artificial-intelligence/machine-learning-myths.html
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】