如何通向“廣義人工智能”?LSTM 提出者之一Sepp Hochreiter:將符號 AI 與神經 AI 相結合
本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。
人類包含意識、認知、決策等等在內的智慧能力,似乎從人類有記錄的那一刻起,就吸引著無數哲學家的思索。與之類似,從AI誕生的那一刻,科學家們則在憧憬:AI 如何能夠達到像人類一樣的智能?
近期,LSTM 提出者和奠基者,奧地利人工智能高級研究所(IARAI)創始人,曾獲得IEEE CIS 2021 年神經網絡先驅獎(Neural Networks Pioneer Award)的Sepp Hochreiter教授在《ACM通訊》上對目前AI達到的智能水平發表了看法。
Sepp Hochreiter 指出,目前 AI 的發展正以廣義 AI(Broad AI)為目標。他強調,將以往基于邏輯的符號AI和現有的基于數據的神經AI結合的雙向AI(bilateral AI)是最有希望實現廣義 AI 的方式。
1 現有神經網絡的不足
深度神經網絡是現在 AI 的主流實現方式。盡管它可以實現驚人的性能,但就和人的智能比較而言,它仍然存在很多的缺陷。Hochreiter 教授援引紐約大學認知科學家 Gary Marcus 曾經對于神經網絡的批判,認為:(1)神經網絡極度需要數據(data hungry);(2)有限的遷移能力、也無法有效地遷移到新的任務或者數據分布上去;(3)對于世界知識或者先驗知識無法充分地融合進去。
也因此,Hochreiter教授警示道,決策者對于這些模型在真實數據的應用領域的效果存疑,因為真實場景下的數據總是變化著的、帶噪聲的、甚至數據稀缺的。事實上,在需求很大但安全性和可解釋性占很大考量的醫療、航空、無人駕駛等領域,深度學習技術的應用仍舊有限。
2 “Broad AI”
盡管如此,Hochreiter教授也指出,當下的 AI 已經在試圖克服這些缺陷,并且以“廣義AI”(broad AI)作為當下AI的新目標。
什么樣的系統是廣義AI呢?
它區別于現有的、專門針對特定任務設計的狹義AI(narrow AI),而更加強調技能習得和問題解決的能力(skill acquisition and problem solving)。這一觀點來自任職于Google、Keras作者Fran?ois Chollet曾在一篇論文中提到對于智能的定義。Chollet認為處于智能第二階梯(下圖)的廣義AI應該具有以下重要的特征:知識遷移和互動、魯棒性、抽象和推理的能力、高效性。而廣義AI充分利用感知與料(sensory perception)、以往經驗和學習到的技能成功勝任不同的任務。
圖注:不同層次的AI對應的能力
Hochreiter教授認為現有的架構、網絡或者方法在一定程度上是達到了Broad AI的要求的。他列舉了使用對比學習進行自監督訓練的學習方式來表明遷移性;充分利用上下文和以往經驗的Modern Hopfield networks;以及融合了知識和推理的神經-符號計算模型。
3 遷移性
現有的可以有效提高網絡遷移性的模型學習方式莫過于小樣本學習。它僅僅使用少量的訓練數據就可以取得不錯的性能。而這要歸功于它已有的“先驗知識”或者“經驗”。這些先驗知識往往得益于預訓練任務——包含大規模的數據和基礎模型(foundation model)。而這樣數據往往是通過對比學習、自監督訓練的方式進行提取有用的表征。一旦預訓練模型學好之后,該任務上習得的后驗知識變成下游新的任務的先驗知識,使得模型很好地遷移到新的情境、顧客、產品、流程、數據等上面。
Hochreiter教授特別提到了在視覺-語言跨模態領域的對比學習預訓練方法——??CLIP??。CLIP是OpenAI去年發表在ICML上的一項工作,它使用一個簡單的預訓練任務,即圖文匹配,通過對比學習的方式來學習更為強大的圖像表征。該任務使用了4千萬從網上收集來的圖文對來進行訓練。
圖注:CLIP利用圖文匹配的方式進行訓練
意料之中的驚訝在于,它之后無需任何數據訓練就可以在30多個計算機視覺任務上實現和之前全監督的方式可比的性能,實現了卓越的“零樣本學習”。而正如 Hochreiter 教授所稱贊,這種高度的遷移性和魯棒性是部署在擁有真實數據的工業界十分青睞的特點。
事實上,自從CLIP發明之后,后續很多遷移學習的工作都是基于CLIP的。不夸張地說,它絕對是視覺語言統一的不可或缺的一環,有些類似于 Bert 之于 NLP 任務。而現今流行的 Prompt learning(提示學習)的方法很多也在借鑒 CLIP,或者在CLIP的框架下。
4 利用經驗
廣義 AI 還應充分利用上下文環境和以往的經驗,這和記憶息息相關。這一點或許Hochreiter教授有很好的發言權,他畢竟是長短時記憶網絡的發明者之一。而在認知科學中,有學者曾經提出過概念短時記憶,它描述的是當人類在接受到一個刺激時候,比如一幅圖、一個單詞,他會快速地將這些刺激轉化到一個抽象的概念范疇,并把它關聯到和長時記憶相關的信息?!按碳?概念化-關聯”這個過程幾乎是無意識地發生,但對于我們理解日常事物、語言交流有著非常重要的作用。
圖注:“刺激-概念化-關聯”的認知過程
關于這一點,Hochreiter列舉了Modern Hopfield networks(MHN)的工作,事實上這篇工作也在他本人的指導下完成的。Hopfield神經網絡早在1982年就被提出,它是一種結合存儲系統和二元系統的神經網絡,模擬了人類記憶的模型。MHN認為Transformer中的自注意力機制是帶有連續狀態的Hopfield網絡的一種更新規則,并且從Hopfield網絡的角度對自注意力做了新的解釋。其中和記憶相關的一部分解釋在于它挖掘了數據中的相關性結構(covariance structure),即如何使特征同時出現在數據中。MHN會放大這種共現。這種相關性可以被認為是觸發了記憶中的關聯部分,從而有效地利用了已有的知識。
Hochreiter指出,MHN可以發掘豐富的數據間的相關關系,這一優勢可以避免當代方法容易遭遇的“捷徑學習”(shot-cut learning)的風險?!敖輳綄W習”是指模型學習到的并非真正用于決策的“特征”,而只是找到了一些特殊的相關性,如飛機總是出現在圖片的上半部分等。(詳情參考AI科技評論過往介紹:深度學習敗于“捷徑”)
5 神經-符號系統結合
神經網絡與符號系統能夠更好地促進 AI 模型對世界知識與抽象推理等能力的融合。
基于理性主義的符號系統立足于邏輯和符號表征,直接將人類的推理方式編碼到機器中,它的優勢在于抽象能力強大、使用較少的數據就可以達到比較好的結果。不過受限于現實世界知識的復雜多樣以及非結構化,很難將這些完美無缺地編碼到機器可讀的規則中。
而基于經驗主義的神經網絡直接利用大量的數據,通過隱式(無監督)或者顯式(監督)地指導模型學習到數據有用的表征,無需設計復雜的規則,就可以達到驚異的性能。不過,神經網絡也面臨著解釋性弱、數據饑餓等難題。
將二者有機地結合也是AI領域學者經常思考的一個問題。有趣的是,這也可以聯想到人類歷史的觀念之爭中,理性主義和感性主義的此消彼長同樣是一個爭議性的話題。
Hochreiter教授則認為已經發展了一段時間的圖神經網絡(GNN)是這一方向的代表。這也是來自發表在IJCAI’20上的一篇調查的意見,它將GNN歸類為類型1的神經-符號系統。文章認為二者都有如下共同之處:都在尋求神經網絡輸入的豐富的向量化表示;都采用了一種樹和圖的結構去表征數據和它們之間的關系。Hochreiter教授認為它們在分子屬性、社交網絡建模、工程領域的預測等等強調動態交互和推理領域都有很好的表現。
圖注:GNN圖結構示意圖