重磅!劍橋年度 AI 全景報告出爐:美頂尖 AI 人才中 27% 具備中國教育背景
本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。
進入 2020 年,在疫情黑天鵝以及新基建以極快的速度成為共識的大背景下,AI 真正迎來了屬于自己的高光時刻。
今年全球人工智能領域人才的分布是什么樣子?AI 領域有哪些研究和突破?AI 產業有哪些新風向?未來又有哪些新趨勢?
劍橋大學這份年度 AI 全景報告或許能告訴你答案。
今年是該年度報告的第三期,由 Nathan Benaich 與 Ian Hogarth 代表劍橋大學總結了過去一年的 AI 趨勢。
和往年一樣,該報告援引的數據來自知名科技公司和研究小組。新版 AI 全景報告全方位總結過去一年來 AI 領域的研究成果與突破、人才形勢、產業動態等,并作出未來預測。
報告顯示,在美國工作的頂尖 AI 人才中,27% 有中國教育背景,但他們在畢業后有 54% 會去美國攻讀研究生博士,這其中又有 90% 選擇留美工作。
如果您想獲得本報告的全文 pdf,請在雷鋒網(公眾號:雷鋒網)微信公眾號回復關鍵詞“ 1010報告”提取。
文檔來源:劍橋大學
一、人工智能研究進展:只有 15% 的論文會公開代碼,PyTorch 超越了 TensorFlow
1、開放性不足
AI 研究的開放性并沒有我們想象的那么高,只有 15% 的論文會開源他們的代碼。
研究論文代碼的實現對于 AI 的可問責性、可再現性和推動進展至關重要。
自 2016 年中期以來,該領域在這一指標上幾乎沒有改善。傳統上,學術團體比行業團體更有可能發布他們的代碼。沒有公開所有代碼的著名組織有 OpenAI 和 DeepMind。
對于科技公司來說,它們的代碼通常與無法發布的專有伸縮基礎設施交織在一起。這表明人工智能人才和計算機的集中化是一個巨大的問題。
2、PyTorch 超越了 TensorFlow
在研究論文中,Facebook 的 Py Torch 快速超越了谷歌的 Tensor Flow。
20-35% 的會議論文提到了他們使用的框架,75% 引用了 PyTorch 而不是 TensorFlow。2018 年,有 161 位作者發表的 TensorFlow 論文多于 PyTorch 論文,其中 55% 的人改用了 PyTorch。15% 情況正好相反。
同時,作者觀察到 Tensor Flow、Caffe 和 Caffe2 仍然是生產 AI 的主力。
此外,在 GitHub 上, PyTorch 也比 TensorFlow 更受歡迎。
據統計現在約有 47% 的實現是基于 PyTorch 的,而 TensorFlow 的大約為 18%。PyTorch 提供更大的靈活性和動態計算圖,使實驗變得更加容易。JAX 是個對數學更友好的Google出品框架,通常在卷積模型和 transformer 之外的工作中受到青睞。
3、NLP 模型趨勢
另一方面,大尺寸模型正在推動著 NLP 領域的技術進步,OpenAI 的 GPT-3 等新研究已經把深度學習模型的參數數量推到了千億。
根據目前的云服務算力價格,訓練每 1000 參數的模型平均需要 1 美元,擁有 1750 億參數的 GPT-3 可能需要花費百萬美元級別的費用,有專家認為這一數字超過了 1000 萬美元。高昂的訓練費用,讓研究人員們在探索新方向時遭遇了挑戰。
在 AI 模型訓練需求越來越多算力的同時,傳統計算機架構卻在逐漸接近摩爾定律的終點。MIT 等大學的研究稱,科學家如果希望將 ImageNet 數據集圖像分類任務的錯誤率從 11.5% 降到 1%,可能需要數百億美元的投入。
不過,人們也在研究提高模型效率的方法,OpenAI 的統計表明:自 2012 年起,訓練深度學習神經網絡進行 ImageNet 圖像分類要想達到特定的水平,其所需的算力每 16 個月減半。
毋庸置疑的是,GPT-3、BERT 等模型已經讓 NLP 領域的研究進入了新的階段。現在甚至出現了自動翻譯編程語言的無監督機器翻譯工具。在 GitHub 上把 C++ 函數翻譯至 Java 準確率達到 90%。
4、 生物學的“ AI 時刻”:僅在 2020 年,就有超過 2.1 萬篇論文
生物研究正在經歷「AI時刻」:僅 2020 年,就有超過 21,000 篇相關論文發表。自 2017 年以來,涉及生物領域人工智能方法(如深度學習、NLP、計算機視覺、RL)的出版物同比增長了 50%。自 2019 年以來發表的論文占 2000 年以來所有論文的 25%。
不過,當前的大多數機器學習應用是通過統計來實現功能的,其忽略了人類學習知識的重要方法——因果推理。在為患者尋找診療方案等任務中,因果推理是更好的方式。Judea Pearl、Yoshua Bengio 等人工智能先驅者都認為,因果推理是使得機器學習系統更好地泛化,更強大穩健,并為決策作出更大貢獻的新方向。
5、聯邦學習
2018 年至 2019 年,提到聯邦學習的論文數量增長了近 5 倍。2020 年上半年發表的論文比 2019 年全年都多。
二、AI 人才:人才外流,27 % 有中國教育背景
人工智能領域研究者的分布情況近幾年呈現出幾種新的趨勢。
1、人才外流
在 2004 年至 2018 年間,谷歌、DeepMind、亞馬遜和微軟從美國大學聘請了 52 名終身教授和終身教授。卡內基梅隆大學、華盛頓大學和伯克利大學在同一時期失去了 38 位教授。值得注意的是,2004 年沒有一位人工智能教授離開,而僅 2018 年就有 41 位人工智能教授離開。
當然,老教授的離開可能會為年輕的學術人才騰出晉升的階梯。而與此同時,也有一些學者并不買賬。
人工智能教授的流失與全美 69 所大學的畢業生創業能力下降有關。
一般來說,人工智能終身教授離職 4-6年后,畢業生創辦人工智能公司的可能性降低了 4% ;但這種并不適用于教授在學生畢業前 1-3 年就離開的情況,這表明教授和學生之間的互動很重要;但人工智能教授的離職與同一所大學的畢業生成立非 AI 公司之間也沒有顯著的相關性。
2、中國學者的重要性凸顯
在 2019 年 Neur IPS 接受論文的作者中,有 29% 在中國獲得本科學位。但在離開中國的大學后,54%的畢業生前往美國在 NeurIPS 發表論文。
在人工智能領域里,美國仍然是國際研究的中心,有 90% 在美國畢業的留學博士都會留美繼續工作。
而非美國籍的 AI 博士畢業生畢業之后很有可能到大型科技公司就職,而美國籍的博士畢業生更有可能去初創公司就職或加入學術界的研究行列。
與此同時,許多 AI 領域的美國博士畢業生畢業之后會前往英國和中國就職。去英國的畢業生中,55%選擇在私營部門工作;去中國的人當中 40% 選擇去私營部門。
還有數據表明,盡管美國的 AI 技術領先,但大多數在美國工作的頂級人工智能研究人員都不是在美國接受本科教育的,中國(27%)、歐洲(11%)和印度(11%)是美國 AI 人才的最大幾個輸送國。
3、美國依賴人工智能人才
考慮到美國人工智能產業對移民的依賴程度,特朗普宣布暫停 H1-B 簽證引起了強烈反彈。 八起聯邦訴訟和數百所大學反對 。
4、美國繼續主導 NeurIPS 2019 年論文
以 NeurIPS 2019 為例,谷歌、斯坦福、卡內基梅隆大學、MIT 和微軟發表的論文數量位居前五。
5、AI 人才供不應求
AI 領域的人才需求不斷增長。許多一流大學也在擴大 AI 專業的招生規模。以斯坦福為例,最近幾年斯坦福 AI 領域的學生是 1999-2004 年的十倍之多,與 2012-2014 年相比 AI 領域學生數量也是翻了一倍。
盡管如此,來自 Indeed 的數據顯示,招聘職位的數量仍約為求職者數量的三倍。
但不可避免的是,2020 年人工智能領域的人才市場受到了新冠疫情的嚴重影響。根據領英發布的數據,2020 年機器學習領域職位原本強勁的增長趨勢在 2 月受到打擊,開始下滑。
三、AI 產業:醫療、自動駕駛正在全面利用 AI
1、醫療
疫情期間,很多科技公司將 AI 醫療影像識別技術投入使用。
比如,深度學習將超分辨率顯微鏡成像從采集到分析進行了改進,使用監督學習和計算機視覺將人體顯微鏡下的數小時時間縮短為幾分鐘。超分辨率顯微鏡通常需要主題專家來評估樣本,ONI 的系統自動化這些視覺檢查任務和解鎖超分辨率非專業用戶。
而且,美國醫療保險和醫療補助服務中心也提出了基于深度學習的醫療成像產品費用標準。未來,優先使用 AI 技術將在醫療領域越來越常見。例如,利用人工智能設計藥物已經在日本進行了臨床試驗,而一大批創業公司也得到了大量資金用于實現平臺戰略發展。
2、自動駕駛
自 2018 年以來,在加利福尼亞州擁有自動駕駛汽車測試許可的 66 家公司中,只有 3 家被允許在沒有安全駕駛員的情況下進行測試,其分別為 Waymo(谷歌)、Nuro 和 AutoX。
即使在政策最為開放的加州,迄今為止自動駕駛汽車的行駛里程相比人類也是微不足道——自動駕駛汽車公司在 2019 年的自動駕駛里程比 2018 年增加了 42%。但這僅相當于 2019 年有駕照加州駕駛員行駛里程的 0.000737%。
自動駕駛領域的公司,必須要有強大的資金支持。13 億美元被亞馬遜收購的 Zoox,其自 2015 年以來收獲的融資已超過了 9.55 億美元,Zoox 最新的估值約為 32 億美元。交易文件顯示,Zoox 在 2020 年初每個月要燒掉 3000 萬美元。
國內的出行公司滴滴最近也把自動駕駛業務剝離,并從軟銀遠景基金等機構籌集了 5 億美元。今年 7 月,滴滴在上海推出了自動駕駛汽車服務。
目前,自動駕駛系統中的大多數機器學習算法只專注于車輛周圍的事物,并基于工程量巨大的手寫規則。研究人員正在開發類似于 AlphaGo,學習大量人類駕駛經驗進行訓練的新算法。最近,Waymo、Uber 和 Lyft 都展示了模仿學習和逆強化學習的新技術。
自動駕駛等領域的發展也需求大量算力,Graphcore、英偉達等公司今年推出的新一代芯片成為了人們的希望。
另外,今年 AI 在保護人類免受電子郵件釣魚攻擊方面、計算機視覺檢測篡改身份文件、反洗錢和恐怖分子融資和經濟犯罪等方面也做出了不小的貢獻。
四、政策變化
1、倫理道德風險
NeurIPS 和 ICLR 都提出了新的倫理規范,但并未強制代碼和數據共享。以人工智能領域最頂級會議 NeurIPS 為例:
NeurIPS 將創建一個專門的子團隊,由機器學習和倫理學交叉領域的專家組成。
NeurIPS 現在要求論文作者提交關于「該工作可能產生的更廣泛的影響,包括道德方面以及未來的社會影響」。
鑒于 Facebook 和谷歌等公司在 NeurIPS 中的影響力日益增強,因此「作者必須提供明確披露資金來源以及競爭利益點」。
NeurIPS「強烈鼓勵」共享數據和模型,但沒有強制性規定。
在這方面,機器學習領域落后于生命科學領域,例如在 Nature 期刊上發表論文的條件之一是,作者必須「及時向讀者提供材料、數據、代碼和相關協議」。
華為在智能手機領域的主導性增強,并在機器學習技術上大量投資。
2、人臉識別面臨爭議
目前世界上 50% 的人允許使用面部識別。 只有 3 個國家(比利時、盧森堡, 摩洛哥)部分禁止只允許在特定情況下使用這種技術。
那些頭部科技公司,對于人臉識別技術的使用也更加謹慎:
微軟刪除了其 1000 萬張人臉的數據庫——這是目前可用的最大數據庫。數據庫中的人臉是從網絡上抓取的,并未取得當事人的許可。
亞馬遜宣布一年內暫停警方使用其面部識別工具 Rekognition,以便「國會有足夠時間制定適當的規定」。
IBM 宣布放棄其人臉識別產品及技術。
紐約大都會運輸署 (MTA) 要求蘋果允許乘客戴口罩時啟用 FaceID,以防止新冠病毒擴散。
3、軍用 AI 系統被重視
美國繼續在實施軍事人工智能系統方面進行重大投資。隨著機器學習技術的不斷工業化,軍方對其進行了越來越多的探索。
美國總務管理局和美國國防部聯合人工智能中心授予博思艾倫咨詢公司一份為期 5 年、總共 8 億多美元的訂單,內容簡介中包括「數據標簽、數據管理、人工智能產品開發」等關鍵詞。
在國防層面,還有更多與此相關的 AI 公司正在獲得豐厚的政府合同和風險投資。戴爾旗下 Pivotal 軟件公司獲得了美國國防部 1.21 億美元的合同,還有一些從事無人機、高分辨率衛星地圖、信息管理等業務的公司獲得了大量風險投資,例如 Anduril、Rebellion、Skydio。
從 AlphaGo、AlphaStar 到 AlphaDogfight,借助深度強化學習技術,人工智能正在更多的領域擊敗頂尖人類選手。這也充分說明,在游戲對戰環境中所訓練的取勝技術,可以迅速遷移到軍事環境中。
4、華為智能手機業務主導性增強
華為在智能手機領域的領導力越來越強,并且正大力投資機器學習技術。這是 9 年來第一次,除蘋果和三星之外,還有其他公司在引領市場。然而,根據美國的制裁,到 2020 年 9 月中旬,華為的芯片供應將告罄。
使用美國芯片制造設備的外國公司將被要求在向華為供應某些芯片之前獲得美國的許可證。華為消費者部門總裁宣稱:“沒有芯片,就沒有供應”。
5、 臺灣臺積電在研發支出和半導體制造方面仍占主導地位
臺積電的研發支出與中芯國際的收入相當。臺積電是唯一一家采用 5nm 制程(N5)的制造商,目前正致力于 3nm 制程(N3),其效率比 N7 高 2 倍,性能比 N7 高 33%。
6、中國正在努力減少對美國半導體的依賴
中國政府設立了一項 290 億美元的國家支持基金,以減少對美國半導體技術的依賴。并招聘了100多名臺積電工程師,以縮小與中國在半導體能力方面的差距。
新的國家基金得到了財政部、中國國家開發銀行、地方政府和國有企業的支持。在此之前,2014 年推出了首只由政府主導的半自動化投資基金。
7、 美國參議院提出 CHIPS 法案
雖然世界上一半以上的先進芯片是在美國設計的,但只有 12% 是在美國制造的。
美國 CHIPS 法案將指定 220 億美元補貼美國芯片制造業,這些項目包括100 億美元的聯邦匹配基金、國防部相關基金以及120 億美元的相關研發基金。
除此之外,美國要求其盟友也為其生產芯片。
8、人工智能民族主義:AI 預算將持續擴大
人工智能繼續被強調為科學和技術方面最重要的投資領域。
國防部聯合人工智能中心繼續擴大發射預算,從 2019 年的 9300 萬美元擴大到 2020 年的 2.38 億美元。
9、各國都在宣布自己的人工智能戰略
五、關于未來的預測
報告最后給出了未來十二個月的八大預測:
1、搭建更大語言模型的競賽仍將持續,我們將會見證第一個 10 萬億參數級模型的誕生。
2、基于注意力的神經網絡將從 NLP 領域遷移到 CV 領域,實現新的 SOTA。
3、隨著母公司戰略的調整,一家大型企業的 AI lab 即將關閉。
4、作為對美國國防部活動和美國軍事 AI 初創公司融資的回應,一部分中國和歐洲的國防 AI 企業將在未來的 12 個月內融資超過 1 億美元。
5、一家頭部 AI 藥物發現初創公司(比如 Recursion、Exscientia)要么進入 IPO,要么以超過 10 億美元的價格被收購。
6、DeepMind 將在結構生物學和藥物發現方面取得重大突破。
7、Facebook 將憑借 3D 計算機視覺技術在 AR 和 VR 上取得重大突破。
8、NVIDIA 最終不會完成對 Arm 的收購。
最后的最后,你怎么看待 2020 年 AI 的發展?