2016GBDC|地平線機器人科技創始人兼CEO余凱:大數據深度學習
2016年1月20日,2016全球大數據峰會GBDC2016在京舉行。本次大會由全球大數據聯盟(GBDC)、全球移動游戲聯盟(GMGC)、世界O2O組織(WOO)、光合資本主辦,中國互聯網協會(ISC)O2O工作組、中國汽車流通協會(CADA)支持。地平線機器人科技創始人兼CEO,前百度IDL常務副院長,前百度研究院副院長余凱做了主題為《大數據深度學習》的演講。以下是他的演講全文:
余凱:大家上午好。大家最近應該經常聽到一個詞,就是深度學習。我講一下深度學習的進展。為什么現在深度學習受到重視?實際上是跟這個時代背景有關系的,一方面是跟大會的主題有關,就是大數據;另一方面,另外一個基礎性的支撐,就是計算能力的提升,這兩個基礎的支撐性的因素,使得今天更加復雜的模型,能夠發揮它的價值。這是一個大概的背景。我們講人工智能爸爸硬件的系統或軟件的系統,但是它的本質上有感知,理解到決策的過程。比如我們看搜索引擎的話,它也是一個人工智能系統,雖然它是純軟件形態,它一方面通過搜索服務去感知用戶的需求,通過很多大數據人工智能的技術,比如自然語言學習,數據挖掘這些技術,去理解數據背后所蘊含的用戶的需求是什么,然后去實現它的商業價值,這里有很多很多的決策。
我記得1956年“人工智能”這個詞被提出,到今年正好是六十年時間。在六十年的時間基本可以劃分為兩個階段:***,基于規則的人工智能,這個一直到八十年代末,那個典型的叫專家系統。到八十年代末開始到現在,有更多的是基于數據驅動的人工智能。這樣的話計算,大數據這兩個關鍵的支撐在過去的二十多年的時間去推動這個領域去往前發展。
我們講人工智能可以做很多很多事情,但是是不是可以有一個相對簡單的框架使我們能夠研究它、刻畫它?這樣一個簡單的框架我們用一個映射來描述,就是從X到Y的映射。比如說X的話,是Image,Y是Object,這就是簡單的圖像識別。如果X是Speech,Y是Texts,這個就是簡單的語音識別。如果X是Language,Y是Parse Tree這就是自然語言的處理。如果是各種傳感器在汽車上面把路上的信息都搜集過來,實時的做決策,X就是傳感器受到的數據,Y就是控制的的決策,我們看不同人工智能的問題,基本可以用一個相對簡單的框架,從X到Y的框架來數。學習問題在這里面是怎么回事呢?就是你有一堆的訓練樣本,這堆訓練樣本告訴你,如果是這樣的輸入,它的輸入是什么?比如這樣的一個圖像,它的輸出是它的一個標注,是什么?這樣的話學習一個映射函數,這個映射函數告訴你,有了這個映射函數就會回答這樣的問題,比如給了下面這幅圖像,讓它的輸出是什么。這樣就是從學習到應用,就是從數據中學習模型,然后運用這個模型的過程。
最簡單的一個***的模型,也許是一個問題,就是說我們給你六個訓練樣本,六個例子,縱軸是輸出,橫軸是輸入。我們把背后蘊含的規律給找出來,這個規律可能是這樣的,這個規律好不好,有沒有更好?如果是這樣的規律,我們覺得怎么樣?可不可以做的更好?其實所有的規律都解釋了我們的樣本,但是哪個是真實的?所以這里反映到機器學習和人工智能很本質的問題,就是學習的空間的復雜度的問題。
我們講目前我們在自然界,在世界上所知道的***的學習機器,能夠學習,從X到Y的是人類的神經系統,人的大腦。人的大腦最本質的單元就是神經元。從神經元的話可以從一個簡單的數學模型來模擬他的行為,他的輸入和輸出行為。這樣的話就得到我們一個最基本的,用計算機程序,可以去構造的一個學習機器。我們把這樣的一個基本單元,在好幾個維度去給它擴張、擴展,讓它得到更加復雜的模型,這就得到了我們今天最成熟,最受到關注的深度學習模型。比如說我們縱向的維度是越來越深。在橫向的話,比如說時間的維度,空間的維組去擴展,我們得到的也是針對這個序列的,叫遞歸神經網絡。
深度學習在當前的話,在工業界廣為受到關注,包括互聯網的這些巨頭,本質的原因,為什么受到重視?我想主要有四方面的原因:***,它是我們目前所知道的說話的計算機系統里面最接近人腦的結構跟行為的這樣的計算模型。第二,從統計和計算角度來講,深度學習特別適合大數據。第三,從思維方法,方法論的角度來講,它是當前唯一的一個所謂強調叫端到端的學習系統。什么叫端到端的學習,待會兒我會解釋。第四,它實際上提供了一個非常靈活的框架,它的框架可以讓你去很容易描述各種不一樣的人工智能的問題。
我們講為什么深度學習特別適合大數據?看這樣一個簡單的適宜,傳統的人工智能算法通過學習效果不一定會增長,深度學習可以。像語音識別,在2012年之前,基本上幾百個小時的訓練,大家覺得已經了不起了。深度學習在2012年真正用于工業界,那個時候一下加到7千個小時,效果不斷提升。這里不光把語音學習的深水模型用深度學習,整個都用深度學習,包括后面用序列的神經網絡,這樣的話加到幾萬個小時效果還在不斷提升。另外就是所謂的端到端的學習,過去的話傳統的無論是說模式識別也好,還是數據挖掘也好,語音識別也好,圖像識別,還有很多其他的事情,其實都是有一個序列的步驟,這里面大部分的步驟都是用人工的方法來做的,并不是一種自動的方法。深度學習的話是說把所有的這些中間的步驟全都歸結成一個學習問題,然后去優化一個統一的目標,能不能***的最終的優化的結果,這就是所謂端到端的學習,今天受到重視的原因。
成功應用的話,比如包括圖像識別,圖像識別,這是在2012年的時候,我們經常用的一張圖,就是一個卷積的有很多層的神經網絡,用于做圖像的識別。過去的三年的發展,其實發展非常快。到2012年底的時候***的網絡到十層,到去年***的網絡到四十層,現在***的網絡已經到了152層,就是更深的網絡導致更好的效果。所以這還是在快速的進展過程中。比如我們看到一個典型的圖像評測,由于深度學習的發展,帶過去的五年時間里效果不斷的變好,錯誤率不斷降低,甚至超越了人類的能力。包括語音識別,傳統語音識別的是這樣的,就是先把聲音信號轉換成拼音,然后再從拼音轉化成文字,先把轉換成拼音的步驟變成深度學習的模型,然后帶來語音識別的一個突飛猛進的進展。最近的進展是把整個變成深度學習,然后進一步去提升。我看到百度***次做這個的時候錯誤率在15%左右,到現在是5%以內。可以想像,大概在兩到三年內錯誤率能夠降到1%以內。這個我有充分的信心。
傳統的語言方法,是把整個的問題分解成很多的不連貫的子問題,比如從詞法分析到語法分析,到語義分析,到今天是一氣呵成的學習系統。還有用更復雜的語義去搜索,包括在廣告的變現系統,背后的話是大規模的工程來支撐。因為這個計算量特別大,需要有上千臺的機器去做并行的計算。所以這是目前在互聯網領域最成功的應用,基本上全部改寫成深度學習,把語音,圖像,自然語言理解,搜索,變現這些。現在的話,除了在云端去做這些事情的話,我們發現我們希望把很多物理的東西變得聰明,需要在這個上面,前端去部署這些深度學習的系統。比如像自動駕駛里面,如果對前方的小孩撞過來,你這個識別要到云端處理,然后再來反應,這是不可想象的。如果你的網絡帶寬出了問題怎么辦?所以要在原端,原地,實時處理。還有很多處理要在本地來做。所以我們看到一個趨勢,深度學習的部署,從云端開始往前端來遷移。遷移的話需要我們對計算的處理器做一些重新的思考。
這里的話我想問一下大家,大家覺得人類大腦是專用處理器還是通用處理器?大部分都認為通用處理器啊?我來挑戰一下,誰能回答這個問題?大腦對有些問題,特別的容易,比如拿著麥克風在這里講話,走路。但是對很多的問題,其實它并不是很擅長。其實大腦的話,是專用處理器。它的專用處理器專用帶什么地方?它作為這些年作為一個物種去繁衍,它有一專門的技能化優化它,對不需要的沒有專門優化它,所以大腦是專用處理器。
這里有一個經典的硬件設計方面的,就是你越是通用的話,你就越犧牲效率;你要是專門處理問題的話,效率就特別高,但是會犧牲通用性。人的大腦實際上是專門通過處理過的,比如從信號的傳遞大概要200毫秒的時間。這樣的話基本不能開車,不能滑雪能干呢?是因為對這樣的結構進行了專門處理,使它并行,使它能夠非常的快。所以對未來來講,對機器人未來硬件還有很多話,是必須從專用的處理器來設計它,使它對人類感知的問題要進行專門的設計。