用生物腦機制啟發持續學習,讓智能系統適者生存,清華朱軍等團隊研究登Nature子刊封面
在開放、高動態和演化環境中的學習能力是生物智能的核心要素之一,也是人類以及大多數動物在「適者生存」的自然選擇過程中形成的重要優勢。目前傳統機器學習范式是在靜態和封閉的數據集上學習到一個模型,并假設其應用環境和之前訓練數據的屬性相同,因而無法適應動態開放環境的挑戰。
針對該問題,持續學習模擬生物智能的學習過程和學習能力,發展新型的機器學習理論和方法,通過持續學習的過程,以期提升智能體對開放、高動態環境的適應能力。但是,目前主流的機器學習模型通過調整網絡參數進行學習,當學習任務的數據分布發生變化時,先前學到的網絡參數可能被覆蓋,從而導致對先前知識的災難性遺忘(catastrophic forgetting)。
作為人工智能尤其是深度學習發展的重要瓶頸,持續學習近年來在人工智能領域受到廣泛關注。大多數持續學習方法都專注于提高對所學知識的記憶穩定性以克服災難性遺忘,例如在學習新任務時固定執行舊任務的網絡參數。然而這些方法通常只能在特定場景中發揮作用,難以像生物智能那樣對現實世界的復雜環境和任務具有普遍的適應能力。
因此,能否借鑒生物腦的持續學習機理,發展新型的持續學習方法一直是人工智能領域普遍關注的問題。
針對該問題,近期清華大學計算機系朱軍教授 TSAIL 課題組聯合生命學院鐘毅教授課題組在自然機器智能(Nature Machine Intelligence)期刊上發表了題為「融入神經啟發適應性的人工智能方法」(Incorporating neuro-inspired adaptability for continual learning in artificial intelligence)的研究論文,并被選作12月的封面文章。
該研究利用貝葉斯方法深入分析并建模了生物學習記憶系統的適應性機制,顯著提升了深度神經網絡的持續學習能力,為智能系統在動態開放環境的自適應發展提供了跨學科的深刻見解。
論文鏈接:https://www.nature.com/articles/s42256-023-00747
引言
隨著大規模標注數據的出現和硬件設備計算能力的增強,以深度學習為核心的人工智能在計算機視覺、自然語言處理、自動駕駛、智能機器人等領域取得了一系列突破性進展。然而,深度學習高度依賴于靜態的數據分布,難以對動態變化的數據分布進行持續學習。
從理論層面來看,持續學習的優化目標可以被進一步細化為記憶穩定性、學習可塑性、泛化兼容性等核心要素。為了適應不斷變化的環境和任務,智能系統需要在記憶舊知識和學習新知識之間取得適當的平衡,并具備充分的泛化能力以容納數據分布之間的差異。
圖 1. 生物智能啟發的持續學習方法示意圖 (來源:NMI 原文)
作為天然的模板,人類以及大多數動物天生就是以一種持續不斷的方式進行學習的。即使是果蠅等簡單的生命體,也進化出了多種適應性機制,以實現有效的持續學習。在果蠅的學習記憶系統中,動態變化的感覺信息可以在多個并行的持續學習模塊中被有選擇地保護和遺忘,為人工智能提供了重要的啟示。
圖 2. 記憶的選擇性保護與遺忘機制 (來源:NMI 原文)
研究概覽
在方法層面,研究人員提出了一種生物啟發的記憶調控方法,對所學知識進行有選擇地保護和遺忘。在學習新任務時,該方法通過優化參數分布中的舊任務信息來促進記憶穩定性,并引入一定程度的遺忘率以促進學習可塑性。研究人員進一步推導出一種突觸擴張-再歸一化的優化算法,使神經網絡能夠在新舊任務的最優解之間做出明確的權衡,并依此分析了遺忘率在降低持續學習的泛化誤差方面的作用,從功能目標和實現機制兩個層面與生物智能相呼應。
圖 3. 動態調節的并行多模塊結構 (來源:NMI 原文)
同時,研究人員構建了一種類似果蠅學習記憶系統的并行多模塊結構,對應于多個持續學習專家。通過在每個模塊中實施所提出的記憶調控機制,對記憶進行有選擇地保護和遺忘,從而使各個模塊都能分化出適當的任務專長,充分適應不同任務的數據分布差異。研究人員還深入探討了神經網絡的隨機性因素與學習規則和遺忘率的相互作用,證明神經系統的適應性機制并非孤立運作,而是高度協同的。
圖 4. 多種持續學習基準的實驗結果 (來源:NMI 原文)
在多種持續學習基準中,包括視覺任務和強化任務等,所提出的適應性機制能夠顯著提高深度神經網絡的持續學習能力。此外,論文還從遺忘的生物學意義和實現機制等角度,深入探討了智能系統在持續學習方面的聯系,作為一種新的范式推動人工智能和生物智能的協同發展。
圖 5. 持續學習的全面綜述 (來源:團隊的 arxiv 論文 https://arxiv.org/abs/2302.00487)
作者及課題組介紹
清華大學的朱軍教授和鐘毅教授為本論文的共同通訊作者,水木學者博士后王立元和張幸幸助理研究員為本論文的共同第一作者。清華大學的李乾助理研究員、蘇航副研究員、以及倫敦大學學院的張鳴天博士是本論文的共同作者。
清華大學 TSAIL 課題組長期致力于貝葉斯機器學習的理論和算法研究。近年來,課題組結合機器學習與神經科學的前沿進展,在持續學習領域發表了一系列重要成果。在今年年初完成持續學習領域的綜述論文「A comprehensive survey of continual learning: theory, method and application」,系統地梳理了持續學習的基本設置、理論基礎、代表性方法和實際應用等方面的研究進展,并提出未來的發展方向,受到了國內外人工智能社區的廣泛關注。
另外,針對持續學習領域的普遍技術難點,提出了生成模型的半監督持續學習 (CVPR’21)、具備選擇性遺忘的權重正則化方法 (NeurIPS’21)、自適應數據壓縮的記憶回放方法 (ICLR’22)、動態并行模塊的持續學習架構 (ECCV’22) 等。
近期,關于預訓練模型的持續學習理論與方法的研究論文「Hierarchical decomposition of prompt-based continual learning: rethinking obscured sub-optimality」被 NeurIPS’23 評為 spotlight,該論文通過對預訓練背景下的持續學習優化目標進行層次化分解,提出了適用于各類微調技術(如 prompt、adapter、LoRA 等)的通用框架,顯著提升了預訓練模型在動態開放環境下的自適應性。