李飛飛四大視角看視覺智能:AI會改變世界,誰會改變AI
談及計算機視覺領域的青年領袖,應該沒有人比李飛飛更有代表性。作為斯坦福大學計算機系終身教授、Google Cloud首席科學家,李飛飛已然引領著學術界和產業界密切結合的探索新方向;而其作為一位女性的角色,又讓她在人工智能多樣性的探索中有著自己嶄新且不同的視角。
在1月15日,未來論壇2017年會暨首屆未來科學大獎頒獎典禮上,李飛飛作為人工智能領域的代表,發表了題為《視覺智能探索(The Quest for Visual Intelligent)》的主題演講。演講中,李飛飛從生物領域視覺的出現開始娓娓道來,進而闡述了計算機視覺探索過程中的四大視角:從孩子成長、大腦發展、技術從業者、教育者和母親的角度,如何看待計算機視覺和人工智能。
演講的最后一個部分,李飛飛提出了這樣的問題:人工智能AI會改變世界,但這里真正的問題是,誰會改變AI?由此,她鼓勵人工智能多樣化的發展,讓更多人更多元的文化參與到相關研究和產業中來,這樣我們會看到技術發現上的大爆炸,使我們的世界變得更好。
(李飛飛在1月15日未來論壇2017年會上發表演講 圖 | 魏子敏)
以下內容基于李飛飛演講(原演講為英文),在不改變原意的情況下部分有刪改:
今天我想跟大家分享一下計算機視覺方面最新的進展。
大概5億年前,一些非常簡單的生物生活在海洋中,捕獲獵物、或者成為別人的食物。動物世界在當時非常簡單,只有一些簡單的物種存在,后來可能是出于偶然或者“上帝之手”,某種生物衍化出了第一雙真正意義上的“眼睛”,這時的眼睛還很簡單,就像我們最初最簡單的照相機一樣。
視覺的出現讓生物世界大不一樣:生物物種變得更加有活力和積極,捕獵者可以自發進攻,被捕獵的生物也會尋找更隱蔽的地方躲藏起來,避免自己成為它人的食物。
在很短的時間內,生物物種數量以驚人的速度增加,這也是視覺發展的一個結果——寒武紀大爆發。寒武紀大爆發之后,視覺就在動物中發揮著非常重要的作用,幫助它們尋找食物、幫助它們躲避敵人等。作為人,我們也是一樣的,我們也用視覺支持我們的生活、我們的工作、我們的交流,讓我們更好地了解世界。
人類社會還處于“失明”狀態
事實上,在5億年的進化之后,視覺已經成了我們人最重要的感知系統,我們的大腦中有一半的功能都是和視覺系統聯系在一起的,動物們大概在5.3億年前就看到了世界的光明,而對于我們的機器和計算機來說,整個世界還是黑暗一片。
盡管,目前到處都是監控器,但是當一個孩子在泳池溺水時,機器并不能提醒人類;目前每一分鐘我們都有成百上千萬小時的視頻上傳到YouTube或者Facebook的服務器上,但是我們仍然無法根據內容進行視頻搜索;現在無人機可以在非常廣的范圍航行,但我們還無法根據無人機拍攝的圖景標記出地球環境。總而言之,人類社會還處于“失明”狀態,因為即便是最智能的機器,目前還沒有視覺能力。
一個小目標:讓計算機視覺為數字世界帶來光明
作為計算機視覺的科學家,我們希望使用能夠學習視覺世界的人工智能算法來識別圖像和視頻,我們有這樣一個小目標,讓計算機視覺為數字世界帶來光明。
為了實現這樣一個目標,首先我們要教計算機識別物品,也即世界最基本的組成部分。簡單來說,給計算機看某個物品的訓練圖片:比如說我們可以把一只貓放到電腦中去,讓它識別,然后我們會建立一些數學模型,人可以為貓寫出一組公式來,讓電腦識別它,這就是我們最初做的嘗試。
我們想要把一個物品的不同部分分離出來,然后用非常簡單的幾何模型,數字模型,模擬模型來做“cat model”,很直接的把它變成一些圓形、三角形等,讓電腦更好識別出放在它面前的是什么樣的東西。
但是不同的貓在不同的圖片中都有所不同,所以是否每次都要重新設計一個模型,讓電腦能夠識別出不同姿勢的貓?為了讓不同的貓都能被計算機識別出來,我們需要設計無數的模型。所以很多年來我們都想找到一個非常神奇的數字模型,它能夠滿足不同的貓的變形體。
孩子學習的啟發:從大量數據中學習
八年前,一個很簡單但重要的事情然我的思維得到了非常大的改變,那就是從孩子學習的過程中得到了靈感,因為我們并沒有告訴一個孩子你要怎樣認出一只貓,我們沒告訴他貓是這個樣子,哪里是三角形、圓形,他們只是靠經驗學習。如果我們把孩子的眼睛看作一對最簡單的生物照相機,他們每秒鐘可以拍照5次,到3歲的時候,孩子們已經看過了成百上千萬張世界各樣的照片。所以,在我們找到更好的算法之前,我們需要給計算機進行像孩子們大腦發育時期一樣的訓練,也即是給計算機比目前領域內所使用得多得多的訓練數據集。
我們花了很多時間來做這項研究。我和普林斯頓的同事一起在網絡上找到了很多圖片、很多數據,我們用了成百上千的圖片構建這套系統。在三年的辛勤研究后,2009年我們終于做出了這樣一個體系,其中包括1500萬張圖片和22000個不同的單詞門類,都是我們日常見到的,從數量和質量來說,這個系統在計算機視覺和機器學習方面都是前所未有的,我們也因此在解決計算機物體識別這個問題上,比以往任何時候都準備充分。
從孩子的角度,我們獲取了寶貴的第一課,從大量數據中學習。
來自大腦的靈感:卷積神經網絡
這一圖片庫提供的豐富資料也完美適配卷積神經網絡,這是最初由70、80年代代科學家們開拓的一個領域,其靈感來自大腦。
就像我們的大腦一樣,卷積神經網絡有成百上千個“類神經元”單位互相連接在一起。
這是一個非常經典的放在電腦上的神經系統,它大概有2400萬個節點,1.4億個參數和150億個接口。
擁有這么龐大的信息的圖片庫,卷積神經網絡算法以難以預料到的速度迅速發展了起來,也在物品識別上給我們帶來了一些非常振奮人心的結果。
電腦告訴我們這張照片里有一只貓,這個貓在那里;這邊是計算機告訴我們,小孩拿著他的泰迪熊。我們看到的物體都比較小,但電腦還是能夠識別出來。
截止到目前,我們都一直專注于教電腦怎樣識別物體,就像小孩學最簡單的單詞一樣,這只是第一步,小孩很快會進入下一階段的發展,那就是用句子交流。
所以要教電腦看懂圖片,并且用一句話來描述它,我們其實需要用到神經系統,并且把神經系統推向一個高度,我們需要把視覺信息和文本信息結合起來,并且讓它生成出一句具有意義的句子。
又經過一個階段的努力研究,大概是一年半以前,我們成為了第一批通過深度學習讓電腦在看到圖片后告訴我們一些信息的實驗室。
之后我們把圖片獲取的能力和視覺識別結合起來,我們發現針對一張圖片,計算機其實可以生成很多句不同的話,能夠提供給我們更多信息。這是我們最近的一項工作,大概是一年半之前出版發表的,電腦能夠在一幅畫中整理出非常多的句子。
我們也在近期提交了另外一篇論文,這篇論文中提到,計算機能夠用算法生成出完整的自然段。
得到大腦的啟發之后,我們發現深度學習的算法和公式能夠幫助我們做一些視覺方面的檢測,
這是從人腦這個視角得到的啟發。
從技術從業者的視角:讓真實世界從中獲益
在神經網絡和深度學習技術得到如此大的發展之后,我們也開始把焦點轉向其它一些視覺領域,比如視頻,我們在圖片識別中學習到的東西能否復制到視頻中去,能否讓真實世界從中獲益。
我的實驗室和谷歌的團隊合作,把1百萬YouTube上500種運動相關的視頻都抓取出來,它們分別屬于不同的運動類別,我們希望有一天這樣的技術能夠幫助我們去管理、索引和搜索大量的視頻和圖片,能夠在一個大數據的庫存中進行圖片和視頻的搜索。
最近我們和Facebook進行了合作,進一步擴展了我們工作的范圍,不僅僅能夠讓機器識別出視頻中運動的類型,而且可以看看單個隊員做了哪些事情。在NBA的籃球視頻中,機器可以追蹤每個隊員在重要事件中(的表現),譬如三分球,罰球,可以看到隊員在其中的表現。
我們拿了一些醫院的安檢視頻,通過深度傳感器的視頻來進行分析應用,通過這樣可以識別出人類的肢體活動,看看他們在環境下的行為是安全的還是危險的。
另外一項工作中,我們和歐洲一個火車站進行了合作,將成百上千個傳感器安裝在公共空間,利用這些計算機的傳感器來追蹤每個乘客的行動,有非常多的乘客每天、每周、每年在火車站穿梭,通過這樣一種監測可以幫助優化火車站的空間,調整火車發車時段。
最近我們利用了深度學習和卷積神經網絡、遞歸神經網絡讓機器學習如何預測人類行為的軌跡,這項工作的有趣之處在于能夠把我們前邊所討論的問題結合在一起,這樣,算法不僅有IQ——可以識別出人,而且它也有EQ,有情商——可以預測人的社會行為,譬如說機器人的行為:機器人不應該干擾人的行為,或者是機器人在空間行走時不能打破東西。
我們利用所有這些技術和現實中的情況進行合作,現在我們和斯坦福醫院合作,部署相關技術,可以提高他們工作流程的績效、洗手的習慣,在老人的家庭中也可以對他們進行類似的監測。
從技術從業者的視角看到計算機視覺算法的發展,真的讓我感到特別興奮,它能夠幫助我們解決現實世界的問題。
這是一個技術從業者的視角。
從教育者和母親的視角:AI需要多樣化
5億年前,動物和視覺面臨的挑戰是存活下來,而現在機器視覺和AI所面臨的挑戰就是讓人類能夠繁榮,永遠持續下去。作為技術從業者我們要問,AI是否會成為一種摧毀力?還是能給我們帶來更好的世界?
我一直在思考這個問題,已經思考很久了,最近我突然頓悟,AI的世界是位于那些創造、開發和使用AI的人的手中。
人工智能AI會改變世界,但這里真正的問題是,誰會改變AI。
大家都知道,世界各地都是缺乏多樣性的,包括美國的硅谷,中國、歐洲,還有很多其它區域都缺乏多樣性,在美國學術界只有25%的計算機專業人士是女性,不到15%的美國領先工程學校的教職員工是女性,對于少數族裔來說,女性的代表就更少了,產業界也面臨著同樣的情況。這里不僅涉及到工作場所文化的問題,實際上這個問題也是經濟和公共財產的問題。
幾個月前我受邀美國白宮討論了在AI中多樣性的必要性,我指出有三個理由使我們必須要提高AI的多樣性。
第一個就是涉及到經濟和勞動力的原因:AI人工智能是一個日益增長的技術,會影響到每個人,我們需要更多人能開發出更好的技術;
第二個原因是涉及到創造力和創新:很多研究都顯示出,當擁有多種多樣背景的人共同合作時,會產生更好的結果,會找到更具有創意的解決方案;
最后也是涉及到社會正義和道德價值的:當各種各樣背景的人聚集到一起時,他們有著各種各樣不同的價值觀,代表著人類的技術也會有更加多樣性的思考。
視覺和智能的發展造成了動物品種多樣性在5億年前大爆炸式的增長,現在如果我們能夠讓更多的人參與到AI教育和研究當中,我們可以鼓勵更多技術多樣化的發展,這樣我們會看到技術發現上的寒武紀大爆炸,會使我們的世界變得更好。
這是一位教育家和一位母親的視角。
謝謝各位!
【本文是51CTO專欄機構大數據文摘的原創文章,微信公眾號“大數據文摘( id: BigDataDigest)”】