專訪吳恩達：AI未來十年，從硬件至上到數據為王

作者：新智元 2022-03-28 10:50:04

人工智能新聞

AI先驅吳恩達接受專訪，談了他對未來10年AI大趨勢的展望。他認為，未來的技術落地，重點會從硬件轉向數據，形成「數據為中心」的AI。

你是否曾經覺得你已經受夠了你目前的工作，想要換個方向？如果你有，你絕對不是一個人。然而，除了參加大辭典，還有一些不太激進的方法，比如吳恩達的方法。

吳恩達是當今人工智能領域最杰出的人物之一。

他是Landing·AI和DeepLearning.AI的創始人，Coursera的聯合主席和聯合創始人、斯坦福大學兼職教授。此前還曾擔任百度首席科學家和谷歌大腦項目的創始人之一。

不過據他自己講，他目前的重點已經轉移，從數字世界轉移到了現實世界，正所謂「從比特到事物」。

2017年，吳恩達創立了Landing AI，這是一家致力于促進人工智能在制造業中的應用的創業公司。

我們采訪了吳恩達，討論了他所說的人工智能的以數據為中心的方法"，以及它與他在Landing AI的工作和當今人工智能的大背景之間的關系。

從數字化到落地

吳恩達表示，他的動機是面向行業的。他認為制造業是「對每個人的生活有巨大影響的偉大行業之一，但對我們許多人來說是如此不可見。」

許多國家，包括美國在內，都對制造業的衰落感到悲哀。吳恩達希望「采用已經改變互聯網企業的AI技術，利用它來幫助在制造業工作的人。」

這是一個不斷增長的趨勢。根據2021年的一項調查，制造業中65%的領導者正在努力試點AI。預計在未來五年內將達到57.2%的復合年增長率。

雖然AI正在越來越多地應用于制造業，但這個過程比吳恩達想象的要難得多。他坦言，當Landing AI開始時，主要專注于咨詢工作。

但在參與了許多客戶項目后，吳恩達和Landing AI開發了一個新的工具包和游戲手冊，讓AI在制造業和工業自動化領域發揮作用。

Landing Lens致力于使制造業和工業自動化領域的客戶能夠快速、輕松地建立和部署視覺檢測系統。吳曉波不得不調整他在消費者軟件方面的工作，以針對制造業的人工智能。

例如，人工智能驅動的計算機視覺可以幫助制造商完成識別生產線上的缺陷等任務。但這不是一件容易的事，他解釋說。

「在消費者軟件中，你可以建立一個單一的AI系統，為一億或十億用戶提供服務，并以這種方式真正獲得大量的價值，但在制造業中，每個工廠制造的東西都不一樣。所以每個制造廠都需要一個定制的AI系統，根據他們自己的數據進行訓練。」

吳恩達說，AI領域的許多公司面臨的挑戰是，如何幫助1萬家制造廠建立1萬個客戶系統。

以數據為中心的方法認為，AI已經達到了數據比模型更重要的地步。如果將AI視為一個有移動部件的系統，那么就應該保持模型的相對固定，專注于高質量的數據來微調模型，而不是繼續推動模型的邊際改進。

有這種想法的人并不多。在斯坦福大學領導Hazy研究小組的Chris Ré是另一個以數據為中心的方法的倡導者。當然，如前所述，數據的重要性并不新鮮。有成熟的數學、算法和系統技術來處理數據，這些技術已經發展了幾十年。

然而，如何在現代AI模型和方法的基礎上建立并重新審視這些技術，才是新的要求。

就在幾年前，我們還沒有長壽的AI系統，也沒有目前這種規模的性能強大的深度模型。吳恩達指出，自從他在2021年3月開始談論以數據為中心的AI以來，他得到的反應讓他想起了大約15年前他和其他人開始討論深度學習的時候的場景。

吳恩達說「今天人們的反應是：“我一直都知道這個，沒有什么新東西”，到'這不可能成功'。"但也有一些人說'對，我一直覺得這個行業需要這個東西，這是一個偉大的方向'。」

「數據為中心」的AI與基礎模型

假如說，以數據為核心的人工智能是正確的方向，那么該如何在現實世界運作這一切呢？吳恩達指出，指望機構訓練各自的定制AI模型是不現實的。

唯一一個走出這種困境的辦法就是設計一種工具，讓客戶有能力設計自己的模型，收集數據，表達各自領域的知識。

吳恩達和Landing AI將通過Landing Lens實現這一點，賦予各領域專家通過數據標記的方式傳達知識的能力。吳恩達指出，在生產領域，一般沒有大量的數據來做參照。比方說，如果目標是識別出錯的產品，那么一條還算不錯的生產線就沒那么多廢品的圖片來參照。

在生產領域，有時候全世界只有50張圖片做參照。這對現有的AI來說根本不夠。這也就是為什么現在關注的重點應該轉向讓專家通過收集數據來記錄他們所擁有的知識。

吳恩達說，Landing AI的平臺正在做這件事。該平臺可以幫助用戶找到最有用的案例，來構建最一致的標簽，并且提高輸入到算法里的圖片和標簽的質量。

這里的關鍵是「一致性」。吳恩達和他之前的一些人發現，專業知識并不能被單一專家定義。對一位專家來說有缺陷的東西可能會被另一位專家重視。這種現象并不是才有，但只有在不得不生成注釋相同的數據集時才會浮出水面。

吳恩達表示，「這就是為什么我們需要好的工具和工作流程來讓專家能快速達成一致。沒有必要在已經打成共識的地方花時間。相反，我們的目標是關注專家們沒有達成一致意見的部分，這樣他們就可以通過討論來解決存在缺陷的部分。事實證明，想讓AI系統快速獲得良好性能，達成整個數據的一致性至關重要。」

這種方法不僅很有意義，而且也有一些相似之處。吳恩達所描述的過程顯然背離了當今 AI 經常采用的「投入更多數據」的方法，而是更多指向基于管理、元數據和語義協調的方法。

事實上，像Google前機器翻譯主管David Talbot這樣的人一直在傳達這么一個思想：除了從數據中學習之外，應用各個領域內的知識對機器翻譯也很有意義。在應用機器翻譯和自然語言處理 (NLP) 的情況下，所說的領域內的知識就指的是語言學。

我們現在已經達到了一個新階段，我們擁有所謂的NLP基礎模型：比方說像GPT3這樣的巨大模型。經過大量數據訓練，人們可以使用這些模型針對特定的應用程序或領域進行微調。然而，這類NLP基礎模型并沒有真正上利用各領域的知識。

計算機視覺的基礎模型能不能做到這一點呢？如果能的話，我們該如何實現，以及何時能實現？實現又將帶來什么？根據吳恩達的說法，基礎模型既是規模問題，也是傳統問題。他認為這是可以實現的，因為有很多研究組正在嘗試建立計算機視覺的基礎模型。

吳恩達說，「這不是說，頭一天它還不是基礎模型，到第二天就是了。在NLP的案例中，我們看到了模型是在發展的，從Google的BERT模型、transformer模型、GPT2到GPT3。

這是一系列規模越來越大的模型，在越來越多的數據上進行訓練，然后人們將其中一些新興的模型稱為基礎模型。

吳恩達說，「我相信我們會在計算機視覺中看到類似的東西。很多人多年來一直在ImageNet上進行預訓練，我認為趨勢逐漸會是對越來越大的數據集進行預訓練，越來越多地在未標記的數據集上進行預訓練，并且越來越多地將會在視頻上進行預訓練。」

AI的下一個10年

作為一名計算機視覺的內部人士，吳恩達非常清楚人工智能正在取得的穩步進展。他認為，在未來的某個時候，媒體和公眾將宣布，計算機視覺模型屬于基礎模型。然而，能否準確預測何時會應驗則是另一回事。

對于擁有大量數據的應用程序，例如NLP，輸入系統的領域知識量隨著時間的推移而不斷下降。吳恩達解釋說，在深度學習（包括計算機視覺和 NLP）的早期，人們通常會訓練一個小型的深度學習模型，然后將其與更傳統的各領域知識庫的方法結合起來，這是因為深度學習的效果不佳。

但隨著模型的規模越來越大，數據越來越多，注入的各領域的知識也越來越少。根據吳恩達的說法，人們傾向于認為大量數據有是一種學習算法。這就是為什么機器翻譯最終證明了學習方法的端到端的純度可以表現得不錯。但這僅僅適用于需要學習大量數據的問題。

當擁有的是相對較小的數據集時，領域知識確實變得很重要。吳恩達認為人工智能系統提供了兩種知識來源——數據和人類經驗。當我們擁有大量數據時，人工智能將更多地依賴數據，而不是人類知識。

然而，在數據匱乏的領域，比如在制造業，我們只能依賴人類知識。技術上的方法就是構建工具，讓專家得以表達他們的知識。

這似乎指向了諸如魯棒人工智能、混合人工智能或神經符號人工智能之類的方法，以及用于表達領域知識的知識圖譜等技術。然而，雖然吳恩達知道這些技術，并覺得它們很有趣，但 Landing AI并沒有與它們合作。

吳恩達還發現所謂的多模態AI或結合不同形式的輸入（例如文本和圖像）是有發展前景的。在過去十年里，關注的重點是建設和完善單一模態的算法。現在人工智能社區變得更龐大了，并且已經取得了進展，那么追求這個方向就是有意義的。

雖然吳恩達是最早使用GPU進行機器學習的人之一，但如今的他卻不太關注硬件方面了。雖然擁有一個蓬勃發展的人工智能芯片生態系統是一件好事，包括英偉達、AMD 和英特爾等老牌企業以及擁有新穎架構的新貴，但這并不是終點。

在過去的十年里，人工智能的大部分焦點都集中在大數據上——也就是說，讓我們利用巨大的數據集訓練規模更大的神經網絡。這是吳恩達本人幫助推廣的。

但是，雖然在大模型和大數據方面存在進展，但吳恩達表示，他認為如今AI的發展重點應該轉向小數據和以數據為中心的AI。

吳恩達說，「十年前，我低估了發展深度學習所需的工作量，我認為今天很多人都低估了發展以數據為核心的AI所需的工作量、創新、創造力和工具。但是，我們未來幾年在這方面將會取得進展，我認為它將支持更多的人工智能應用，我對此感到非常興奮。」

責任編輯：張燕妮來源：新智元

AI 趨勢數據

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

專訪吳恩達：AI未來十年，從硬件至上到數據為王

從數字化到落地

「數據為中心」的AI與基礎模型

AI的下一個10年