機器學習確實還沒商品化，也不必需博士學位

作者：機器之心編譯 2017-03-27 21:09:18

機器學習依然奇貨可居，但不是只有博士才能玩得轉。

上周，我收到了兩個前提截然相反的問題：其中一個是興奮地認為機器學習目前已經自動化了，而另一個則擔心學習機器學習會花掉多年的時間，以下是這兩個問題的原話：

問題 1：我聽說，谷歌云宣稱，企業家能輕易且快速的基于機器學習/自然語言處理的 API 開發自己的程序。如果這是真的：「那么，機器學習和數據未來已經到來，谷歌已經找到了解決自然語言處理和語音提升問題的辦法，用他們的 API 就可以輕松享受這一紅利。既然秘訣已經被商業化，你也可以利用這一秘訣。問題是，秘訣到來的時間是否會越來越短呢?

問題 2：為了在機器學習領域工作，你需要一個該領域的 PhD，這事真的嗎?還有就是在學習機器學習之前，是不是一定要先修微積分、線性代數、概率論/統計學這些乏味的全套大學數學課程，然后再學 C/C++和并行分布式編程(CUDA、MPI、OpenMP 等等)。Hacker News 一個評分最高的評論說，即便你把這些內容學了個遍，還是得從頭開始應用機器學習算法，先是 C，接下來是 MPI 或 CUDA，然后是 Numpy，然后你才能學會在 Theano 或者 TensorFlow 上應用它們。

回答：很多人在人工智能熱，以及諸如「人工智能是那些天才們的專屬工具」的警告中昏了頭，完全可以理解啊。對于記者來說，人工智能是個很難報道的領域，而且遺憾的是，被歪曲的事實隨處可見。比如，最近有一篇文章 Stop saying DeepCoder steals code from StackOverflow 就研究了 DeepCoder 是如何被媒體誤解的。

我對以上兩個問題的回答是：不，兩個問題似乎截然不同，但它們有一個共同的思路：很多在機器學習領域工作的人都對以下兩點之一感興趣：

1. 說服你購買他們的多用途機器學習 API。

2. 讓你相信他們做得事情非常復雜、困難以及門檻很高，一般人很難理解。(這個常見的話題，最近 reddit 上一篇戲謔它的文章被頂到了機器學習頁首。)

的確，機器學習的進步非常迅速，但就目前而言，你只需要能通過有效編程，使用到這項技術。

[[186761]]

為何「機器學習即服務」(Machine Learning As A Service，MLaaS)在實踐中令人失望?

擁有一款通用機器學習 API 看起來是一個好點子，但是，事實上我們的技術目前還達不到?，F有的 API 都太過局限而無法推廣，有些 API 試圖變得非常通用，但其實際效果非常差。Bradford Cross(他是 Flightcaster 與 Prismatic 的創始人，Data Collective VC 合伙人)寫了篇文章，分析了最近很多人工智能公司嘗試打造用戶需要且愿意付錢使用的產品，但都失敗的原因，他寫道：「有觀點認為，現在，那些從事或者圍繞人工智能工作的人要負責引導人類進步，因為他們在從事重要的工作。這種態度就是這些失敗的罪魁禍首。這種自大的觀點讓大家看不到這一事：他們正困在一間回音室里，屋子里所有人都在討論技術趨勢而不是客戶需要和經濟賬。」

Cross 繼續寫道「機器學習即服務(MLaaS)是一個我們關注了近 10 年的想法，但是一直以來，它并不被看好。它之所以沒有實現，根本原因在于，懂行的人只使用開源，而那些不懂行的根本無法做任何事情，有了 API 也不行。很多非常聰明的朋友都落入了這個陷阱。

大公司為了壯大自己的機器學習團隊，收購了很多公司，其中就有被 IBM 收購的 Alchemy API，被 Intel 收購的 Saffron 以及被 Salesforce 收購的 Metamind。API 功能背后的機器學習模式賺錢輕松又快，這一點繼續引誘著那些無助的人。亞馬遜、谷歌和微軟都嘗試出售 MLaaS 層，將此作為自己云戰略一部分。我還沒見過在自然場景下(in the wild)使用這些接口的創業公司或者大公司，倒是看到很多人在這一場景下使用人工智能技術，或許是因為我觀察不足吧。」

谷歌云會是解決問題的答案嗎?

谷歌并非定位幫助實現深度學習的民主化。不是因為公司意圖叵測，而是因為他們有太多服務器、太多錢和太多數據了，根本不用擔心世界上大多數人和公司面臨的問題——如何充分利用有限的 GPU 、有限的數據集和有限的預算。AWS 可是很貴的!谷歌大腦技術過于高級，不是普通程序員能染指的。

例如，TensorFlow 是一門低層面的語言，但是，在發布和推廣它的時候，谷歌似乎沒有注意到這一點。TensorFlow 的設計者本可以使用一種更加標準的面向對象的方法(如 PyTorch 就非常好)，但是，他們沒有，而是沿襲了谷歌的優良傳統：發明一種僅適合谷歌的新慣例。

所以，如果谷歌甚至不能設計一個熟練數據科學家容易上手的庫，怎么可能創造出普通人可用來解決真實問題的東西呢?

Hacker News 的計劃：「普通 C 實現算法，然后 CUDA，最后用普通的 Numpy/MATLAB。」

為什么 Hacker News 通常會給出這么糟糕的機器學習建議?盡管機器學習背后的理論需要大量高等數學知識，但是，這和實踐中使用機器學習所需的實用知識還是非常不同的。作為一個數學博士，我知道，較之打造一個實際有用的模型，那些數學知識沒預期中的那么有用。

其中暴露出的思路是有害的，原因如下：

完全錯誤。
好的教育會促進重要概念的研究。借用 Paul Lockhart 在 Mathematician's Lament 里的一個類比，如果先讓孩子學習幾年音樂理論，再讓孩子碰樂器或者唱首歌，孩子會放棄音樂。
好的教育不會過度復雜化材料。如果你真理解一樣東西，就可以用一種通俗易懂的方式來解釋它。數周的 Practical Deep Learning for Coders 課程學習，Jermy Howard 僅用 Excel 表格就清楚解釋了不同現代優化技術(這常常被視為一個復雜的話題)的運行原理。

就像我在幾個月前寫道的，挑一位你所在組織里的業內專家，讓他們學習深度學習技術要比空降一位深度學習專家要好得多。深度學習博士畢業生不太可能具備大量廣泛相關經驗(而這些又是那些最高效員工身上最珍貴的東西)，他們更有可能對解決有趣的工程問題而不是聚焦于那些商業上最重要的問題。

「以我們在很多產業和多年來將機器學習應用于一系列問題的經驗看，一直會有不被看好和有好技術卻不被投資的公司出現。在大數據時代，這意味著公司得把錢花在外面找咨詢顧問。在錯誤的『深度學習排他性』這種觀念傳播的日子里，這意味著搜索那些獨角獸深度學習專家意味著不景氣的深度學習創業公司要為此支付過高的成本?！?/p>

破除夸張宣傳(當你不是機器學習研究者時)

計算語言學家 Dan Simonson 受邀寫了一本答疑指南。其中評價了 NLP、機器學習和人工智能并且指明了鑒別虛假信息的辦法(http://blog.thedansimonson.com/?p=461)：

是否存在訓練數據?如果不是，我們怎么計劃來得到它們?
他們是否有一個內置于自身應用開發過程中的評價機制?
他們提出的應用是否依賴于在特定人工智能組分上的前所未有的好表現?
提出的解決方案是否是基于證實的、可靠的現象?
如果使用了預裝人工智能部件，他們是否有從使用這些部件到獲得有意義的應用輸出的明確計劃?

作為一個 NLP 研究者，Simonson 對現在人工智能的發展非常興奮，但是他指出當人們利用從業者和公眾之間的知識斷層時，整個領域就受到了傷害，

深度學習研究者 Stephen Merity(就職于 Salesforce/Metamind)寫了一篇題目貼切的文章《機器學習不是魔法：幫助降低人工智能炒作而應該被提出的問題》(https://smerity.com/articles/2016/ml_not_magic.html)，其中包括：

需要多少訓練數據?
這項工作是否是無監督式(即不給樣本進行標記)的?
系統能否根據詞匯類別進行預測。(例如：想象一下，如果我說「我的朋友 Rudinyard 曾經對我很刻薄」，很多人工智能系統根本不能回答「誰對你刻薄」這個問題，因為 Rudinyard 不是該系統收入的詞匯。)
當輸入的故事變得更長時，精確性降低了多少?
在整個時段中模型的表現有多穩定?

Merity 也提示道，模型經?；诒桓叨忍幚?、規劃了的或受限的數據集被評估，而這些數據集不能精確地反應你正在處理的真實數據。

原文：http://www.fast.ai/2017/03/17/not-commoditized-no-phd/

【本文是51CTO專欄機構機器之心的原創譯文，微信公眾號“機器之心( id: almosthuman2014)”】

戳這里，看該作者更多好文

責任編輯：趙寧寧來源： 51CTO專欄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器學習確實還沒商品化，也不必需博士學位