專訪 | Gigaom對話吳恩達:遷移學習是未來五年的重要研究方向
吳恩達,百度***科學家、百度大腦項目負責人,一位與 Geoffrey Hinton、Yoshua Bengio、Yann LeCun 齊名的人工智能專家。近日,吳恩達接受了技術(shù)研究和分析公司 Gigaom 的專訪,談及了未來五年人工智能重要研究領(lǐng)域、中國人工智能研究以及人工智能與經(jīng)濟、社會關(guān)系等問題。
問:談談你在百度的日常工作吧。你們的人工智能團隊在做什么?
答:我們從事基礎(chǔ)人工智能技術(shù)的開發(fā)工作。所有技術(shù),從語音識別到計算機視覺、自然語言處理、數(shù)據(jù)倉庫、用戶理解,我們用人工智能技術(shù)支持很多百度國際業(yè)務并孵化新業(yè)務方向。比如,在百度,所有主要業(yè)務線都已經(jīng)轉(zhuǎn)型使用了人工智能。從網(wǎng)頁搜索、廣告到機器翻譯、給用戶推薦飯館等。所以,人工智能在百度很普遍了。除此之外,我們也看到了人工智能所帶來的許多新機遇,比如改善基于對話的(基于聊天窗口)的醫(yī)療助理,或使用面部識別打造自動開門的十字轉(zhuǎn)門。我們所有團隊也在追求那些新的垂直領(lǐng)域里的機遇。
問:在基礎(chǔ)研究領(lǐng)域,你有沒有什么想做的事情?比如,那些或許有用但我們卻搞不清楚其所以然的事情?
答:我們在基礎(chǔ)研究領(lǐng)域做了很多工作,有趣的是,成功的基礎(chǔ)研究一開始會以基礎(chǔ)研究的面貌出現(xiàn),但是,一旦你看到了它的應用價值,過一段時間后就會變得不那么基礎(chǔ)了。我們做了很多這樣的研究??梢哉f,在百度,早期的面部識別是以基礎(chǔ)研究的面貌起步的,但是,這個服務如今融入產(chǎn)品中了,也服務著產(chǎn)品的百萬用戶。神經(jīng)機器翻譯最初也是一項基礎(chǔ)研究。實際上,這個故事有著不廣為人知的另一面:神經(jīng)機器翻譯是在中國開創(chuàng)、研發(fā)和使用的。美國公司的研發(fā)和使用是在百度之后。中國團隊在某個研究領(lǐng)域領(lǐng)先其他國家,這只是例子之一。我們在計算機視覺方面的基礎(chǔ)研究,比如,面部識別,也一直處于領(lǐng)先位置。今天,我們正在會學習的機器人和機器學習領(lǐng)域進行廣泛的基礎(chǔ)研究。我們的研究覆蓋了從非?;A(chǔ)的研究到非常應用的研究的所有階段。
問:百度團隊是什么樣子?通常你的團隊的都是小規(guī)模的嗎?團隊以開發(fā)人員為重?你找到了一個成功的分配有限資源的辦法了嗎?
答:這個問題比較復雜。很多項目開始時是小規(guī)模的。比如,一年前,自動駕駛團隊有 22 個人。但是在團隊展現(xiàn)了自己的實力、初步顯示出前景并制定一個深思熟慮過的商業(yè)計劃后,公司就有理由為其團隊建設(shè)注入龐大資源,如今團隊可能有幾百個成員。團隊從最初的一個基礎(chǔ)研究項目變成一個嶄新的業(yè)務分支。所以很多項目都是從相對小的團隊開始的,不過,在其邁入正軌而且價值也清晰了后,我們就能將其嵌入一個擁有很多成員(幾十人甚至幾百人)的團隊中。
問:如今人工智能領(lǐng)域,你認為五年內(nèi)可以解決的難題之一是什么? 也就是今天很難解決但是五年后就會普遍加以實現(xiàn)的事情?
答:從研究角度出發(fā),我認為遷移學習和多任務學習是我想試著解決的問題之一。今天,機器學習全部經(jīng)濟價值都是應用學習,從針對特定任務的標記數(shù)據(jù)中學習,比如通過大量標記數(shù)據(jù)人臉數(shù)據(jù)庫學習識別面部。對于很多任務來說,特定垂直領(lǐng)域的數(shù)據(jù)并不足以支持系統(tǒng)建構(gòu)。因此,遷移學習會是一個很有活力的領(lǐng)域,機器機器可以學會一個不同的任務。比如,學會大體上識別物體。學會大體上識別物體后,這個知識中有多少會對識別面部的特定目的有用。
從研究角度看,我認為這個非常非常有前途,現(xiàn)在也有廣泛使用著的用于這類遷移學習的技術(shù),不過有關(guān)如何實現(xiàn)的理論和***實踐仍然處于相當早期階段。我們之所以對遷移學習感到興奮,其原因在于現(xiàn)代深度學習的巨大價值是針對我們擁有海量數(shù)據(jù)的問題。但是,也有很多問題領(lǐng)域,我們沒有足夠數(shù)據(jù)。比如語音識別。在一些語言中,比如普通話,我們有很多數(shù)據(jù),但是那些只有少數(shù)人說的語言,我們的數(shù)據(jù)就不夠龐大。所以,為了針對數(shù)據(jù)量不那么多的中國少數(shù)人所說的方言進行語音識別,能將從學習普通話中得到的東西進行遷移嗎?我們的技術(shù)確實可以做到這一點,我們也正在做,但是,這一領(lǐng)域的進步能讓人工智能有能力解決廣泛得多的問題。
問:人工智能可以告訴我們?nèi)魏斡嘘P(guān)人類智能的有用信息嗎?或者,反過來,從人工智能那里獲取的線索能幫助 AI 更好地工作嗎?亦或是這種情形,人工智能和人類智能只是都用了「智能」這個詞而已,兩者沒有任何相似之處?
答:從神經(jīng)科學中獲取的知識對當前人工智能的發(fā)展只有一丁點用。現(xiàn)實一點說,盡管神經(jīng)科學研究了幾個世紀,今天我們對人類大腦的工作方式幾乎還是完全不了解,對大腦工作原理那點極為少量的知識僅能為人工智能提供一些并不可靠的靈感,不過,實際一點說,今天人工智能取得的成績更多的是受計算機科學原理驅(qū)動的,而不是神經(jīng)科學原理。我已經(jīng)說過,在自動化人類所能的事情上,人工智能已經(jīng)變得非常擅長了。比如,人非常善于語音識別,但是人工智能在語音識別上表現(xiàn)不好。人非常善于人臉識別,人工智能正在人臉識別上進展迅速。
事實證明,當我們試著將人類可以做的一件事情自動化而不是解決人類都無法完成的任務時,用于推進該人工智能技術(shù)的工具也會更好地發(fā)揮作用。原因很多,但是原因之一在于,當我們試著選擇一個人類也可以勝任的任務,讓人工智能參與進來時,我們就能深入找出人類怎么可以迅速完成這一任務原因。因此,在展望很多人工智能垂直領(lǐng)域時,我們當然可以做一些甚至人類自己都不很擅長的事情。我認為,現(xiàn)在亞馬遜向我推薦的書目甚至比我妻子推薦的還要好。我妻子當然非常了解我,但是亞馬遜能做到這個程度是因為它積累了大量有關(guān)我的瀏覽和閱讀書目數(shù)據(jù),這些數(shù)據(jù)遠遠多于被妻子看到的閱讀書目。我大致認為,有了幾個類似這樣的例外,當人工智能試著自動化至少人類也能做到的事情時,就會進展神速。
問:您總是在預測人工智能將實現(xiàn)這個問題持保守意見,我認為您這樣做的部分原因是因為擔心公眾狂熱的期望會對人工智能研究科學造成災難性后果,特別是關(guān)乎資金方面,我這樣說對嗎?
答:我很傾向?qū)嵱眯?,并努力成為一名實用主義者。但是在這一點上我想提出一個略有不同的觀點。如果我開始組建一個團隊來治療所有人的疾病,這是非常值得慶祝的事,因為這聽起來簡直就像是一個偉大的使命。但是坦率地說,在硅谷有時候目標太高就會不受歡迎并一定會有反對的觀點出現(xiàn)。我們比較喜歡討論怎么錨定月亮那樣的話題,因為即使我們失敗了還能錨定星星。但我認為實際上目標太高會存在一個成本,所以如果你的目標是解決瘧疾而不是組建團隊解決世界所有的疾病,那么它可能會更有成效,對世界產(chǎn)生更大更好的影響。所以我認為,將人工智能應用于世界會產(chǎn)生更有意義的影響。我認為我們不僅可以通過自動駕駛汽車、人工智能物流改變交通運輸,還可以通過人工智能完全地改變醫(yī)療。我們可以通過人工智能在世界上做出重大的改進。所以我所做的很多努力都是在為這些具體的、可行的事情做準備。因為我認為這對世界實際上更有成效,我們不會花時間去研究也幾百年都不會到來的科幻小說場景。我認為這種為科幻小說花時間的事在硅谷是不受歡迎的。
話雖如此,但作為一個社會,我們需要從事做各種各樣的事情。所以我認為有一些人努力解決瘧疾,并希望通過蓋茨基金會(Gates Foundations)和世界衛(wèi)生組織(World Health Organization)幫助工作,而另外一些人努力解決人類所有疾病會讓社會變得更好。我認為社會以不同的方式分配資源是一件好事。但我也認為這對我們領(lǐng)域的進步也是十分有幫助的。當我們思考「什么是我們有信心可以實現(xiàn)的任務?」對抗「什么是我們應該投資的進一步夢想?」,我們團隊有一部分人在做這個,不過那只是我們整體努力的一個小方向。
問:你相信人工通用智能(AGI)的可能性嗎?如果是的話,如果是的話,那你認為它是沿著我們已知技術(shù)的進化路徑實現(xiàn)么,背后的摩爾定律,或者 AGI 是不是需要一個整體的根本性突破,而這個突破甚至是不能預料到的東西?
答:我認為實現(xiàn) AGI 肯定需要多個突破,但這很可能會發(fā)生。因為有軟件算法的突破和硬件可能的突破。然而,我發(fā)現(xiàn)很難預測這一突破是在十年后還是千年后出現(xiàn)。
問:您認為人類的創(chuàng)造力,如編寫劇本或小說的能力是否需要另外一個 AGI,或者就是現(xiàn)在我們掌握的技術(shù)?
答:我認為很多創(chuàng)造力其實是我們不太了解我們創(chuàng)造它的過程。例如,Garry Kasparov 說他看到了深藍(Deep Blue)創(chuàng)造性的下棋。作為技術(shù)專家,我知道國際象棋程序是如何運行的,在任務中通過投入驚人的計算量,深藍能夠下一步妙棋,而這一步妙棋可能在象棋大師眼里就是一種創(chuàng)造性的舉措。我自己也研究過創(chuàng)造性過程,創(chuàng)造力是十分困難的工作,因為創(chuàng)造力是增加許多小模塊并拼合到一起,然后建立起一個好像是從無到有的巨大事物。但是,如果有人沒有看到所有的小模塊,或拼合這些小模塊成為創(chuàng)造性的物體有多難,那么我認為創(chuàng)造力的實質(zhì)比它外表上看起來更加神奇。
我的藝術(shù)家朋友一遍又一遍地練習單個畫筆,并一遍又一遍地畫出類似的畫,然后他就逐漸取得了進步。我的祖母是一個畫家,她在完成一幅驚人的作品前都是一點點進步的,當你只看到最終的成果,而沒有看到在完成最終成果之前做所的努力,那么你就會感到神奇。我認為你所做的所有工作都是通過一點點小增量達成的。
問:所以如果你回顧剛才所談的內(nèi)容,人類的創(chuàng)造力是可以計算化和可實現(xiàn)的,在合理的時間范圍內(nèi)。人類的創(chuàng)造力不是什么非常神秘的東西,或者說是超出我們能實現(xiàn)的范圍的。您同意嗎?
答:是的。要么通過偶然的***的棋子移動,尋求一個人類還未想到的句子的解釋,創(chuàng)造一個簡單的藝術(shù)作品,我認為我們正在見證機器行為具有某種程度的創(chuàng)造性。我們很可能會繼續(xù)看到這樣循序漸進的進展,機器在今后幾年內(nèi)逐漸變得更有「創(chuàng)造性」。
問:您的團隊在地理分布上是怎樣的?大部分團隊成員在哪里?
答:主要在北京。我們在美國有一個 100 人的團隊,在北京也有一個大的團隊,同時在上海和深圳也有一些小團隊。
問:在機器人技術(shù)領(lǐng)域,你能看到不同國家和地區(qū)的發(fā)展重點。例如在日本,能明顯看到將更多重心放在制造友好機器人上,去制造與人情感化連接的機器人,而不是與世界上其他部分所連接的機器人。那么在人工智能里面,是不是也有類似的情況?因為剛才您提到臉部識別來自中國。在人工智能領(lǐng)域,不同的公司、不同的地區(qū)或者是不同的國家是不是會對有些事情的看法也不同?
答:首先我認為在中國,語音識別是經(jīng)濟和商業(yè)模式帶動發(fā)展的一個很好的例子。從產(chǎn)品層面來講,我認為不同的商業(yè)壓力和產(chǎn)品優(yōu)先性會導致不同的國家在不同領(lǐng)域的投資更多或者是更少。在中國就有這樣一些例子。
在中國,用手機鍵盤打中文字要比打英文更加痛苦。所以這反過來也推動了更好的移動端手機語音識別的發(fā)展。因此我覺得百度領(lǐng)先在語音識別領(lǐng)域取得的突破也是由于要為用戶帶來語音識別體驗的強大產(chǎn)品壓力的驅(qū)使。
至于機器翻譯,你知道美國有很多關(guān)于神經(jīng)機器翻譯的 PR。很多人都不知道的一點是,神經(jīng)機器翻譯其實是在中國***開創(chuàng)并得到發(fā)展的,之后又成為了產(chǎn)品。美國的一些大型公司都在這之后,我認為導致這個現(xiàn)象的其中一個原因是因為在中國,對將一些公開的內(nèi)容翻譯成中文的需求很大,而在美國這樣一個說英語國家中,英語的內(nèi)容非常多。當然中文的內(nèi)容也很多,但是外國的內(nèi)容譯成中文會特別快,這是一種文化現(xiàn)象。然而世界上的英語內(nèi)容已經(jīng)非常多,所以說英語的人尋求對外語內(nèi)容的翻譯沒有那么緊需。
人臉識別作為一種商業(yè)在中國發(fā)展迅猛,因為作為移動優(yōu)先的社會,中國人習慣了在移動端進行大筆的金融交易。例如,你可以通過百度獲得教育貸款,我們會基于你的貸款批給你一大筆錢,而這個申請你在手機上就可以完成。在我們通過手機給某個人發(fā)一大筆錢的時候,我們對確認這個人的身份就會產(chǎn)生強烈的興趣。所以人臉識別就成為了要實現(xiàn)這一目標的關(guān)鍵技術(shù)。那些壓力也意味著中國的人臉識別是另外一個發(fā)展迅猛的領(lǐng)域,其發(fā)展勢頭比其他國家都要快。
不管是在美國還是中國,在人工智能方面都有很多的創(chuàng)新。我猜還有其他的一些領(lǐng)域。英國在人工智能玩視頻游戲方面進行了大量的投資。我個人不會在這一方面進行投資,但是我想不同的組織有不同的興趣和優(yōu)先性。
我認為如今人工智能的進步成為了一個全球化現(xiàn)象,而且中國有很多的創(chuàng)新正在發(fā)生,而英語世界國家還沒有意識到這一點。這并不是因為保密的問題,我認為這是因為缺乏語言的流暢性。
例如,幾周前我去參加 NIPS 大會,在不到一天的時間之內(nèi),所有會議上最重要的演講都被總結(jié)或者是轉(zhuǎn)寫為中文 ,并發(fā)布在中國的網(wǎng)絡(luò)上。所以說巴塞羅那一個英語會議轉(zhuǎn)變成中文的知識,中國做的非??觳⑶曳浅8咝АT诓坏揭惶斓臅r間之內(nèi),很多中國的研究者就可以閱讀我們在西班牙演講的中文版。我認為正是很多中國人熟練的英語口語和寫作能力才讓這成為可能。
不幸的是,逆向的知識轉(zhuǎn)換要慢得多。因為從全球范圍來看,當前中國之外很多的研究者不說中文。所以當人們發(fā)明了很多東西,甚至已經(jīng)在中國廣泛傳播,一些英語觀眾都渾然不知,有時候甚至是在一年之后,一個英語國家的公司發(fā)明了類似的東西之后這些技術(shù)才能傳播開來。所以我希望自己能做的其中一件事情就是幫助提高相反方向知識轉(zhuǎn)換的速度,因為如果我們能夠讓研究社區(qū)更加的全球化,那么全球的研究社區(qū)就會進步的越快。
我想有一些具體的例子。首先是在中國,普通話短句的語音識別在一年前超越了人類水平,但是這一成果在全球范圍的知名度并不廣,直到最近才被很多人熟知。我可以看到很多的例子,從語音識別領(lǐng)域取得的進步到神經(jīng)機器翻譯領(lǐng)域所取得的進步,再到中國率先建立了深度學習 GPU 處理器,但是我希望能夠在中國初次發(fā)明之后,在美國也能夠盡快看到這些成就。
問:您有沒有一些網(wǎng)站或者是期刊可以推薦給我們的讀者,以便讓他們能夠更加容易地查找信息?
答:在中國,傳播知識的方式和美國不太相同。在中國,人工智能在社交媒體上傳播特別快,而是傳播的方式特別強大,如果不是親身經(jīng)歷的話可能無法理解。另外,相關(guān)的網(wǎng)站非常多,但是很多都是中文網(wǎng)站。你們可以在 Twitter/微博上關(guān)注我,我會看看該怎么幫助大家。
問:在你看來人類意識是什么?或者更確切地說,你相信人類意識從根本上來說是可計算的嗎?
答:我不知道意識到底是什么。在哲學領(lǐng)域,對周圍的人是否真正具有意識,或者說他們像是僵尸一樣,以及機器人通過計算表現(xiàn)得好像它們具有意識一樣等這些問題一直存在著爭論。總而言之,我們?nèi)绾沃莱宋覀冎獾钠渌硕颊嬲哂幸庾R?還是說他們是機器人?
我并不認為意識是計算機從根本上來說無法實現(xiàn)的,確切地說,是我們應該如何去實現(xiàn),而實現(xiàn)這一點是需要幾十年還是幾百年,我們還不清楚。
【本文是51CTO專欄機構(gòu)機器之心的原創(chuàng)文章,微信公眾號“機器之心( id: almosthuman2014)”】