谷歌要把2.5萬工程師變成機器學習專家
卡森·霍爾蓋特(Carson Holgate)正在接受忍者培訓。
但這里的忍者指的并不是武術——她已經有不錯的武術功底。26歲的霍爾蓋特是空手道黑帶二段。現在的培訓重點是算法。霍爾蓋特幾周前加入這個項目,她希望借此掌握機器學習方面的技能,這是一種比身體對抗更加強大的技術。作為谷歌Android部門的一名工程師,霍爾蓋特是參加今年忍者學習項目的18名程序員之一。該項目從各個團隊招收有才華的程序員,向他們傳授人工智能技術,以便提升其產品的智能性——盡管這有可能讓他們開發的軟件更加難以理解。
▲正在接受機器學習“忍者訓練”的谷歌工程師卡森·霍爾蓋特。
“該項目的標語是:你想成為一名機器學習忍者嗎?”谷歌內部機器學習產品經理克里斯汀·羅伯森(Christine Robson)說,她負責管理這個項目,“所以我們從谷歌各個部門招收人員,用6個月的時間為他們提供機器學習培訓。讓他們跟著導師學習6個月機器學習,并進行一些項目。他們可以由此入手,從而掌握大量知識。”
霍爾蓋特4年前拿著計算機科學和數學學位來到谷歌,對她來說,這是一次掌握最熱門軟件技術的機會:使用學習算法和海量數據,教給軟件完成任務的方法。多年以來,機器學習都被視作一個高度專業的領域,僅有少數精英人群能夠掌握這種技術。但這個時代已經結束了,最近的結果表明:由模擬生物大腦工作方式的“神經網絡”驅動的機器學習技術是將計算機與人類能力融為一體的正確方式。
在某些情況下,甚至可以借此打造出超人。谷歌希望在內部擴大這類精英人群的范圍,甚至希望讓機器學習成為一種常規技術。對霍爾蓋特這樣的工程師而言,忍者項目是一次實現自我飛躍的絕佳機會,可以向精英中的精英學習知識。“這些人都在開發不可思議的模型,而且都有博士學位。”她言語間流露出無法掩飾的敬畏之情。由于該項目會將所有學員都稱作“忍者”,所以她開始有些難以接受,但最終還是克服了心理障礙。“我起初很難接受,但還是學著接受了。”她說。
考慮到谷歌員工人數眾多——其總部的6萬員工中約有半數是工程師——所以這個項目的規模其實很小。不過,這個項目卻標志著谷歌內部的認識開始發生變化。盡管谷歌從很早以前就開始使用機器學習技術,而且一直在這一領域積極聘請各類專家,但該公司直到2016年才開始真正癡迷于機器學習技術。谷歌CEO桑達爾·皮查伊(Sundar Pichai)在去年末的財報電話會議上闡述了該公司的想法:“機器學習是一項有顛覆性的核心技術,我們可以借此重新思考我們做一切事情的方式。我們還會盡力將它應用于所有的產品中,包括搜索、廣告、YouTube或Play。我們還處于發展初期,但你會看到我們以系統化的方式將機器學習應用到所有這些領域之中。”
很顯然,如果谷歌要在旗下的所有產品中融入機器學習技術,就需要精通這項技術的工程師。正如機器學習暢銷書《算法大師》(The Master Algorithm)的作者佩德羅·多明戈斯(Pedro Domingos)所說:“機器學習是陽光下的一項新生事物,這是一項可以自己發展的技術。”編寫這樣的系統需要找到合適的數據,選擇合適的算法,然后為成功營造合適的環境。之后就要給予系統足夠的信任(這對程序員來說是一件很難做到的事情),讓它們自己完成工作。
“通過這種方式思考解決方案的人越多,我們就會變得越好。”谷歌機器算法項目負責人杰夫·迪恩(Jeff Dean)說。他估計,谷歌目前約有2.5萬工程師,但只有幾千人精通機器學習,占比大約為10%。他希望最終的比例能接近100%。“如果能讓所有工程師都在一定程度上掌握機器學習技術,那就太好了。”他說。
他認為這個愿望能否實現呢?
“我們會盡力嘗試。”他說。
01.神奇技術
多年以來,約翰·迦南德里一直都是谷歌機器學習的重要推動者,而作為該公司的最新動向,他最近成為了搜索業務主管。但當他2010年加盟該公司時(他是在谷歌收購MetaWeb時隨之一同加入谷歌的,那家公司的龐大數據庫已經以知識圖譜的形式整合到谷歌搜索中),他在機器學習和神經網絡方面并沒有太多經驗。
▲谷歌最權威的計算機科學專家杰夫·迪恩正在制作機器學習方面的工具,領導團隊進行相關工作。
但在2011年左右,來自神經信息處理系統(以下簡稱“NIPS”)大會的一條消息令他感到震驚。似乎每年都會有團隊在NIPS上宣布機器學習的最新進展,涉及翻譯、語音識別和視覺系統等諸多領域。一些令人驚訝的事情正在悄然發生。“當我第一次關注時,NIPS的內容十分晦澀難懂。”他說,“但過去3年間,這一領域在學術界和產業界都得到了蓬勃發展,去年的參會人數大約有6000人。”
隨著神經網絡算法的進步,加上摩爾定律帶來的強大計算能力,以及谷歌和Facebook等科技公司挖掘出來的龐大用戶數據,機器學習的新時代就此拉開帷幕。迦南德里也加入其中,他認為這將成為谷歌的核心。與他志同道合的還包括迪恩,他是“谷歌大腦”(Google Brain)的聯合創始人,這個神經網絡項目來自谷歌旗下的研究部門Google X(現已更名為X)。
雖然迦南德里否認“機器會殺死我們”這樣的預言,但他的確認為,機器學習系統將成為一項革命性的技術,從醫療診斷到無人駕駛汽車,各行各業都將利用這種技術。雖然機器學習不會取代人類,但它卻會改變人類。
迦南德里以Google Photos為例進行了解釋。這款產品的標志性功能是能夠在圖片中識別出用戶指定的物品,這令人感覺頗為神秘,甚至有些不安。他給我展示一些邊境牧羊犬的圖片。“當有人第一次看到這個場景時,他們會以為發生了與眾不同的事情,因為電腦不僅為你計算出偏好,甚至還推薦你觀看一段視頻。”迦南德里說,“它可以理解畫面中的內容。” 他解釋道,通過專門的學習,電腦便可“知道”邊境牧羊犬的樣子,而且可以識別出不同年齡和毛長的邊境牧羊犬。
人類當然可以做到這一點。但沒有一個人能夠從數百萬張圖片中篩選出來這些照片,同時還能識別出不同的犬種。但機器學習系統就可以做到。如果它學會了一個犬種,便可使用相同的技術識別出另外9999個犬種。“這才是真正新穎的地方。”迦南德里說,“通過這樣一個狹小的領域,你可以看到某些人所謂的超人究竟能達到什么效果。”
02.逐步探索
需要強調的是,谷歌早已了解機器學習的概念,該公司的創始人始終堅信人工智能的前景。機器學習已經整合進谷歌的很多產品,盡管未必采用了最近大熱的神經網絡技術(早期的機器學習往往依賴更加直接的統計方法)。
事實上,谷歌10年前就開始通過內部培訓,向該公司的工程師傳授積極學習技術。2005年初,當時負責谷歌搜索業務的彼得·諾維格(Peter Norvig)向科學家大衛·帕布洛·科恩(David Pablo Cohn)提出建議,希望了解谷歌能否采用卡內基梅隆大學組織的相關課程。科恩表示,只有谷歌自己才能教授這種內部課程,因為谷歌的運營規模與其他公司都大不相同(可能只有美國國防部是個例外)。所以他在谷歌總部的43號樓(那里當時是搜索團隊的總部所在地)訂了一個大房間,每周三在那里開設兩小時的課程。就連杰夫·迪恩也參加過幾次課程。“那是全世界最好的課程。”科恩說,“作為工程師,他們都比我優秀得多!”
那個課程廣受歡迎,甚至變得一座難求。就連班加羅爾辦事處的員工都會特意等到午夜過后接入遠程教學系統。幾年后,一些谷歌員工把授課演講內容制作成了短片,結束了直播授課的歷史。科恩認為,當時的那個課程算得上是MOOC(大規模開放在線課程)的先驅。接下來幾年,谷歌還針對機器學習培訓展開了其他的嘗試,但組織上并不嚴密,內容上也并不連貫。科恩2013年離開谷歌后,機器學習才突然間成為了至關重要的領域。
在2012年之前,這種認識尚未形成氣候,直到迦南德里決定“吸收大量從事這項工作的人”,并將他們安排到同一棟辦公樓之后。脫胎于該公司的X部門的谷歌大腦也加入進來。“我們吸收了很多團隊,將他們安排到同一棟辦公樓內,還提供了全新的咖啡機。”他說,“有些人之前只是一直在從事他們所謂的感知計算——聲音和語音識別等技術——現在都可以與那些從事語言工作的人展開溝通。”
逐漸地,這些工程師們開發的機器學習技術開始出現在谷歌的熱門產品中。由于視覺和語音識別以及翻譯是機器學習的主要領域,也就難怪這項技術成為谷歌語音搜索、翻譯和Photos等服務的重要組成部分。迪恩表示,隨著他和他的團隊對機器學習的理解逐步深入,他們開始以更具野心的方式探索這項技術。“我們之前或許會在系統的組件中使用機器學習技術,”他說,“現在則會使用這項技術替代整套系統,而不是為每一個組件設計更好的機器學習模式。”迪恩表示,如果現在讓他重新編寫谷歌的基礎架構,其中的很多內容都不再是預先編好的代碼,而是后期學習而來的。迪恩更為人所知的身份是Bit Table和MapReduce等革命性系統的聯合創造者。
▲谷歌大腦聯合創始人格雷格·考拉多正在和多個團隊協作,將人工智能轉化成為自己的軟件。
機器學習還能夠實現一些原本無法想象的產品功能。2015年11月推出的Gmail自動回復便是其中之。這項功能源自谷歌大腦項目聯合創始人格雷格·考拉多(Greg Corrado)與Gmail工程師巴林特·米克洛斯(Bálint Miklós)之間的一次對話。考拉多之前曾經與Gmail團隊合作使用機器學習算法探測垃圾信息,歸類郵件內容,但米克洛斯提出了一些更激進的建議。能否利用機器學習技術自動生成回復郵件,省去移動用戶在狹小的鍵盤上輸入文字的繁瑣過程。“我大吃一驚,因為這個建議太瘋狂了。”考拉多說,“我后來想,借助我們一直以來都在研究的預測性神經網絡技術,或許的確可能實現這種功能。一旦我們意識到這是一個機會的時候,就必須去嘗試一下。”
為了提高成功概率,谷歌讓考拉多和他的團隊與Gmail部門展開了密切合作。這種派遣機器學習專家進駐產品部門的做法如今已經越來越普遍。“機器學習既是科學又是藝術。”考拉多說,“這就像烹飪——沒錯,烹飪過程發生了化學反應,但對于真正對烹飪感興趣的人來說,必須要學習如何搭配手中的食材。”
傳統的人工智能技術在理解語言時,需要將語音規則嵌入系統,但在這個項目中,系統可以利用現代化的機器學習技術,借助足夠的數據像兒童一樣自學。“我的語言能力并不是從語言學家那里學來的,而是通過聽別人說話學來的。”考拉多說。但真正令智能回復變得切實可行的,是它的成功很容易定義——他們的目的不是創造一個妖艷的虛擬斯嘉麗·約翰遜(Scarlett Johansson),而是希望它能回復真正的電子郵件。“這項服務的成功標志是,系統可以生成一個對用戶有用的備選回復,以便用戶能夠真正使用這些內容。”他說。因此,只需要知道用戶是否點擊了系統推薦的回復內容,便可對其進行訓練。
但當該團隊開始測試智能回復時,用戶卻注意到了一些怪異的事情:它經常會推薦一些不合時宜的曖昧語言。“其中一個比較失敗的情況是:只要系統感覺困惑,它就會說‘我愛你’。”考拉多說,“這并不是軟件漏洞,問題出在我們讓它做的事情上。” 這個程序已經了解了人類行為的一些微妙之處:“如果你感到擔憂,那么說一句‘我愛你’是一種很好的防御策略。” 考拉多幫助該團隊壓制了系統的熱情。
去年11月發布的智能回復取得了巨大成功——Gmail Inbox應用的用戶現在可以直接從系統提供的三條備選內容中選擇一條進行回復。由于系統提供的回復內容非常切題,用戶經常感到驚訝。在通過該應用發送的回復信息中,有十分之一都是由機器學習系統生成的。“這個項目能夠成功還是令我感到有些驚訝。”考拉多笑著說。
類似于智能推薦這樣的例子還有很多,它們都充分說明機器學習系統在谷歌業務中發揮的作用。或許最終的拐點是當機器學習成為搜索的一個必不可少的組成部分時——作為谷歌的旗艦產品,搜索幾乎為該公司貢獻了所有營收。多年以來,由于搜索引擎對谷歌過于重要,所以始終沒有融入機器學習算法。“由于搜索在公司內部占據的份額巨大,高級管理者深度參與其中,所以很多人都懷疑我們無法真正取得進展。”迦南德里說。
其中部分阻力源自文化因素——必須要讓那些有極強控制欲的程序員適應帶有禪宗韻味的機器學習模式。長期掌管谷歌搜索業務的阿密特·辛格(Amit Singhal)曾是傳奇計算機科學家杰拉德·薩爾頓(Gerald Salton)的助手。薩爾頓在文檔檢索方面的開創性工作啟迪辛格幫助謝爾蓋·布林(Sergey Brin)和拉里·佩奇(Larry Page)把研究生時期編寫的代碼,擴展成了可以適應當今網絡時代的程序。(這使得他成為了“檢索派”的一員。)
他從20世紀的方法中梳理出了令人驚訝的結果,但如果要將機器學習系統整合到關系谷歌命脈的復雜系統中,他卻持懷疑態度。“進入谷歌的前兩年,我負責搜索質量,試圖用機器學習來改進排名。”大衛·帕布洛·科恩說,“結果發現阿米特的團隊是全世界最優秀的,我們把阿里特腦海中的所有內容都變成了硬編碼,以此實現進步。已經找不到比他更好的方法了。”
到2014年初,谷歌的機器學習大師們認為需要改變現狀。“我們與排名團隊展開了一系列討論。”迪恩說,“我們認為至少應該嘗試一下,看看能不能有一些收獲。” 他的團隊所設想的那個實驗最終成為了搜索的核心:文件排名與搜索請求的匹配程度有多高(需要以用戶的點擊為衡量標準)。“我們跟他們說,可以用神經網絡計算額外的分數,看看到底有沒有用。”
答案是:確實有用。這套系統如今已經成為谷歌搜索的一部分,被稱作RankBrain。它于2015年4月上線。谷歌還是像以往一樣對如何改進搜索諱莫如深(究竟是與長尾理論有關?還是更好地解讀了模糊不清的搜索請求?),但迪恩表示,RankBrain“融入到每一個搜索請求中”,雖然未必會影響所有的排名,但的確對很多搜索請求的排名都產生了影響。另外,實際的影響幅度也很大。在谷歌計算排名時所使用的數百個信號中(這些信號可能包括用戶所在的地理位置,或者頁面標題是否與搜索請求匹配),RankBrain現在的用途排名第三。
“我們成功利用機器學習改進了搜索結果,這對公司來說意義重大。”迦南德里說,“這引發了很多人的關注。” 華盛頓大學教授佩德羅·多明戈斯則給出了另外一種說法:“檢索派與機器學習派始終都存在斗爭。機器學習最終贏得了勝利。”
03.內部培訓
谷歌面臨的新挑戰是如何讓所有工程師都熟悉機器學習。還有很多公司也都秉承著相同的目標,其中最引人關注的當屬Facebook,該公司與谷歌一樣著迷于機器學習和深度學習。這一領域的畢業生變得非常搶手,而谷歌正在努力保持對畢業生的吸引力:學術圈多年以來都流傳著一個玩笑:即使不需要頂尖學生,谷歌也會招聘他們,避免人才被競爭對手搶走。(這個玩笑的錯誤之處在于,谷歌的確需要這些人才。)“我的學生無一例外都得到了谷歌的錄用通知。”多明戈斯說。目前看來,競爭的激烈程度有增無減:就在上周,谷歌宣布將在蘇黎世開設一個新的機器學習實驗室,有很多工作崗位有待填補。
但由于學術項目尚未培養大量機器學習專家,為員工提供在職培訓面成為了必要措施。但這卻并非易事,尤其是對于谷歌這樣的公司而言。這里有很多世界頂尖工程師,他們一生都在研究傳統的編程方式。機器學習卻需要截然不同的思維模式,精通編碼的工程師之所以能有如今的成就,往往是因為他們希望完全控制一套編碼系統。機器學習還需要掌握一些數學和統計學知識,但是很多程序員卻對此不屑一顧的,即便是那些能夠寫出超長代碼的超級黑客也不例外。
▲克里斯汀·羅伯森的職責是在機器學習方面孵化谷歌內外的人員。
這還需要一定程度的耐心。“機器學習模型不是靜態代碼——你需要不斷為其提供數據。”羅伯森說,“我們一直在不停地更新模型,而且還要不斷學習,增加更多數據,調整預測方式。它就像是一個有生命的東西,這是一種截然不同的開發模式。”
“這是一個使用不同的算法進行實驗的學科,需要挑選那些真正適合使用場景的訓練數據。”迦南德里說。盡管他也是新的搜索業務主管,但卻仍然把在谷歌內部傳播機器學習理念作為自己工作的一部分。“計算機科學那一部分不會消失,但需要更加關注數學和統計學,而對數十萬行代碼的關注度則需要相應地降低。”
至于谷歌所擔心的障礙,完全可以通過明智的在職培訓來解決。“歸根結底,這些模型中使用的數學原理并不那么復雜。”迪恩說,“谷歌聘用的多數軟件工程師都可以掌握。”
為了進一步幫助不斷擴容的機器學習專家團隊,谷歌開發了一系列強大的工具,幫助他們選擇合適的算法訓練模型,加快培訓和提煉過程。其中最強大的是TensorFlow,它可以加速神經網絡的構建過程。TensorFlow源自谷歌大腦項目,由迪恩和他的同事拉加特·芒格(Rajat Monga)共同發明。它能把構建系統過程中涉及的晦澀難懂的細節變成標準化的內容——尤其是在谷歌2015年11月開始將其開放給公眾后,這種做法的效果更加得以顯現。
盡管谷歌煞費苦心地將這種行為描述為一種無私的舉動,但該公司也承認,如果新一代程序員都能熟悉該公司內部的機器學習工具,那對谷歌未來的招聘活動將會起到莫大的幫助。(質疑者甚至指出,谷歌的TensorFlow開源項目是為了追趕Facebook,后者已經在2015年6月公布了早期機器學習系統的深度學習模塊Torch。)不過,TensorFlow的功能以及谷歌的開源模式很快受到了程序員的歡迎。迦南德里表示,當谷歌首次提供TensorFlow課程時,共有7.5萬人報名參加。
但谷歌仍為自己的程序員保留了很多好東西。該公司在內部擁有一套更加優秀的機器學習工具——Tensor Processing Unit(以下簡稱“TPU”)。他們雖然使用這項創新已經多年時間,但直到最近才對外宣布。這是一種針對機器學習程序優化的芯片,就像GPU是專門針對圖形處理優化的芯片一樣。該公司的龐大數據中心里使用了數以千計的TPU(具體有多少恐怕只有上帝和佩奇才知道)。通過賦予神經網絡這種超級計算能力,TPU為谷歌帶來了巨大優勢。“如果沒有它,我們就無法實現RankBrain。”迪恩說。
但由于谷歌最需要的還是設計還提煉這些系統的人才,他們也在不斷嘗試各種方式來為工程師提供機器學習方面的培訓。這些培訓的規模各異,其中也包括為期兩天的速成班。谷歌希望這只是初步嘗試,工程師隨后還會尋找更多資源來深入學習。“已經有數千人報名參加下一次課程。”迪恩說。
該公司還在通過其他一些措施,為外部人才提供機器學習培訓。今年初春,谷歌啟動了Brain Residency項目,利用谷歌大腦項目為有潛力的外部人才提供了為期一年的集訓。“我們稱之為你的深度學習職業生涯的開端。”羅伯森說,他負責協助管理這個項目。盡管這27名來自不同學科的機器學習學員中,可能有一些會留在谷歌,但他表示,該公司的目的是讓他們自行發展,利用自己掌握的先進知識在世界各地傳播谷歌的機器學習技術。
04.前景廣闊
當今時代,機器學習正在逐步走上中心舞臺,而谷歌則希望以人工智能公司的身份繼續占據主導。所以,從某種意義上講,卡森·霍爾蓋特在忍者項目中學到的知識正是這一計劃的核心所在。
她的課程最初是一個為期4周的新兵訓練營,由谷歌最先進的人工智能項目產品負責人提供指導,教給他們如何將機器學習融入項目中。“我們把忍者帶進會議室,格雷格·考拉多站在白板前解釋LSTM(長短期記憶,一種可以打造強大神經網絡的技術)。他做著夸張的手勢,講述這種系統的工作方式、利用何種數學原理、如何應用于實際。”羅伯森說,“在最初的4個星期里,我們幾乎用到了我們的所有技術和所有工具,為的是給他們帶來切身體會。”
霍爾蓋特從新兵訓練營畢業了,她現在正在使用機器學習工具開發一款Android通訊功能,幫助谷歌員工彼此交流。她正在調整超參數,清理輸入數據,去掉停止詞。但她已經不可能回頭,因為她知道人工智能技術就是谷歌的現在和未來,甚至可能是所有技術和所有東西的未來。
“機器學習時代已經來臨,”她說,“前景無比廣闊。”