Bengio團隊Nature發文:四個維度講AI for Science,還討論了AI跨界核心挑戰
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
最近,Yoshua Bengio帶領團隊展示了一場人工智能十年跨界秀。
從數據收集到模型構建,從實驗設計到過程控制,AI跨界正在改變科學研究方式,成為科學發現引擎。
盡管科學實踐因科學研究階段而異,但AI的發展跨越了傳統上孤立的學科。
例如在粒子物理實驗中,每秒產生的海量數據難以處理和存儲,AI模型可以通過異常檢測算法在實時流中找出罕見事件,大大減少存儲壓力。
在生物信息學領域,AI可以給海量未標注的基因序列賦予功能注釋,幫助后續模型的訓練。
AI正賦能眾多科學領域的研究發現,融入科學發現的假設形成、實驗設計、數據收集和分析各個階段。
在“Scientific discovery in the age of artificial intelligence”這篇Yoshua Bengio領隊的論文中,研究人員詳解了自監督學習、幾何深度學習、生成式人工智能等技術在科學研究中的應用,并提出了目前AI跨界仍存在的核心問題,目前該論文已刊于Nature綜述文章。
來看大佬如何總結AI for Science。
十年科學發現中AI的身影
在這篇論文中,研究人員從AI輔助的科學研究數據收集和整理、學習有意義的科學數據表示、使用AI生成科學假說、AI驅動的實驗和模擬幾個方面講述了近年來AI在科學研究中的應用。
AI輔助的科學研究數據收集和整理
科學發現和理論的形成基于數據的收集、轉化和理解,過去十年AI在數據的選擇、標注、生成、精化等方面得到了廣泛應用。
在數據選擇(Data selection)方面,隨著科學實驗中收集的數據集規模和復雜性不斷增加,科學研究越來越依賴實時處理和高性能計算來選擇性地存儲和分析數據。
一個典型案例就是粒子碰撞實驗,每秒將生成超100TB的數據,這給數據傳輸和存儲帶來巨大挑戰。
在這類物理實驗中,超過99.99%的原始數據都屬于背景事件,需要實時檢測并丟棄。
為了識別用于科學研究的罕見事件,深度學習方法取代了預編程的硬件事件觸發器,而是使用算法搜索異常信號,并檢測出可能被忽略的罕見現象。
這種無監督方法不需要標注樣本,已被廣泛應用在物理、神經科學、地球科學等領域。
在數據標注(Data annotation)方面,訓練監督學習模型需要大量標注過的數據集來提供監督信息,但是科研數據的標注工作非常耗時耗力。
AI的加入提供了用半監督學習方法自動標注大規模無標注數據集的選擇:
(1) 偽標記(Pseudo-labelling):使用預訓練模型為無標注樣本生成偽標簽,然后用這些偽標簽來訓練后續預測模型。
(2) 標簽傳播(Label propagation):基于特征嵌入構建樣本相似圖,然后將已有標簽擴散到無標注樣本上。
(3) 主動學習(Active learning):識別人類標注的最有信息量的數據點,或者確定要執行的最有信息量的實驗。
在數據生成(Data generation)方面,提高訓練數據的質量、多樣性和規模可以改善深度學習的性能。
文中提到了兩種主要的合成數據增強方法:
(1) 自動數據增強:手動設計或用增強學習方法發現自動數據增強策略。
(2) 深度生成模型:可以學習底層數據分布,然后從優化的分布中采樣新的訓練點。
生成對抗網絡(GAN)已被證明對科研圖像合成有益,可以合成各領域的逼真圖像。
此外,概率編程,用計算機程序表達數據生成模型,是一種新興的可編程生成建模方法。
目前,生成數據已被廣泛應用于粒子物理、病理切片、X光、MRI、材料微結構、蛋白功能等領域。
在數據精化(Data refinements)方面,超高分辨率激光器等高精度儀器可以直接或間接測量真實世界對象,產生高度準確的數據。
使用AI技術可以顯著提高測量分辨率,減少噪聲、消除誤差。
例如,深度卷積網絡可以將質量較差的時空分辨率低的數據轉換為高質量、超分辨率和結構化的圖像。
去噪自編碼器可以將高維輸入數據投影到更緊湊的基本特征表示中,變分自編碼器(VAE)通過潛在自編碼學習隨機表示,保留了基本數據特征,同時忽略了非基本的變化因素。
在科學實驗中應用的例子包括可視化時空區域,如黑洞、捕捉物理粒子碰撞、提高活細胞圖像的分辨率等。
學習有意義的科學數據表示
深度學習能夠在不同抽象層次上提取科學數據的有意義表示,并通過端到端學習來優化這些表示用于指導研究。
優質的表示應簡潔并保留盡可能多的信息。科學上有意義的表示應具有緊湊性、可區分性、可解耦性以及對下游任務的泛化能力。
研究人員介紹了三種滿足這些要求的新興策略:幾何先驗、自監督學習和語言建模。
1、幾何先驗
幾何先驗的應用能夠有效地捕捉數據的幾何和結構特征,這在科學領域尤為重要。
對稱性是其中的一個關鍵概念,可以用不變性和等變性來描述,用于表示數學函數在一組變換下的行為規律。
比如一些重要的結構屬性,像分子系統的二級結構、溶劑可及性、殘基緊湊性和氫鍵模式等,在空間方向上是不變的。
在科學圖像分析中,對象在圖像中平移時不會改變,這意味著圖像分割掩碼是平移等變的,因為它們在平移輸入像素時等效地變化。
通過將對稱性等因素納入模型中,可以改善在少標注數據集下的AI應用。通過增加訓練樣本,可以改進對于與模型訓練過程中遇到的輸入顯著不同的外推預測。
圖神經網絡已成為在具有底層幾何和關系結構的數據集上進行深度學習的主要方法之一。
幾何深度學習顯式利用局部化的圖信息或變換群信息,通過神經消息傳遞算法學習關系模式。
2、自監督學習
在標注數據不足時,僅依賴監督學習是不夠的,利用無標注數據可以提高模型性能和學習能力。
自監督學習使用無標注數據來學習一般特征,主要策略包括:
- 預測圖像的遮擋區域
- 預測視頻的前后幀
- 對比學習使模型區分相似和不相似數據點
自監督學習可以預訓練模型抓取大規模無標注數據的特征,然后在小規模標注數據上微調。
3、語言建模
語言建模是一種流行的自監督學習方法,可以用于學習自然語言和生物序列的特征。
在訓練過程中,主要目標是預測序列中的下一個token,而在基于掩碼的訓練中,自監督任務是使用雙向序列上下文來恢復序列中的掩碼token。
原子或氨基酸的排列類似于字母組成單詞和句子,用于定義分子和生物功能的結構。蛋白質語言模型可以編碼氨基酸序列以捕捉其結構和功能特性,并評估變異的進化適應性。
這些表示方法可以在各種任務中傳遞應用,包括序列設計和結構預測。在處理生物化學序列時,化學語言模型能夠有效地探索廣闊的化學空間,用于預測性質、計劃合成過程以及探索化學反應的可能性。
說到這里,就不得不提Transformer架構,它能夠通過靈活地建模任意token對之間的交互,從而處理token序列,超越了使用循環神經網絡進行序列建模的早期嘗試。
在自然語言處理領域,Transformer已占據主導地位,并成功應用于地震信號檢測、DNA 和蛋白質序列建模、模擬序列變異對生物功能的影響、符號回歸等系列問題。
使用AI生成科學假說
可檢驗的假設是科學發現的核心,它們可以來源于數學中的符號表達式、化學中的分子、生物學中的基因變異……
但提出這樣一種有意義的假設可能需要漫長的時間,正如Johannes Kepler,花費了四年時間分析恒星和行星數據,才得出了一個能發現行星運動定律的假設。
AI可以用以下幾種方式幫助提出科學假說:
(1) 黑箱預測器:高通量快速篩選候選假說,選擇有價值的進行后續驗證。
(2) 導航組合假說空間:使用強化學習評估每次搜索的回報,聚焦在最有前景的假說要素上。
(3) 優化可微假說空間:將離散假說空間映射到連續可微空間進行優化。
這些AI方法為科學假說的生成、評價和選擇提供了強有力的新工具。
AI驅動的實驗和模擬
通過實驗評估科學假設對于科學發現至關重要,但實驗成本高昂。
AI技術可以優化實驗的參數設置、步驟設計等,減少不必要的試驗,提高資源利用效率。
強化學習可以根據實時反饋動態調整實驗方向,最大化實驗成功率和安全性。
計算模擬可以探索實際難以實現的情況,補充實驗。但是依賴于人為設置的簡化參數和啟發式方法,精度和效率存在局限。
然而,隨著深度學習的出現,通過識別和優化假設進行有效測試,以及使計算機模擬能夠將觀察結果與假設聯系起來,這些問題正被解決。
這些AI驅動的實驗優化和計算模擬方法,已經在量子物理、化學合成、聚變反應堆控制等領域展現出價值。
AI跨界面臨重大挑戰
值得一提的是,文中還討論了AI在科學發現中面臨的挑戰。
人工智能系統可以成為科學家發現新知識的重要助手,但也存在潛在的安全隱患。
例如,科學數據存在不完整、偏差等問題,需要規范化;還需要考慮數據的可訪問性、隱私等。模型和數據的標準化也很必要。
其次,分布偏移是一個核心問題,需要增強模型的泛化能力。處理多模態科學數據仍有挑戰,如何系統地整合科學知識和原理也需要進一步探索,增強模型的解釋性和可信度亦很重要。
此外,AI專業人才短缺和計算資源需求巨大,需要產學界進一步合作,科學家需要掌握AI的適用性,還需建立倫理審查流程。
研究人員認為:
AI工具的錯誤應用和對其結果的錯誤解讀可能會產生重大的負面影響。廣泛的應用范圍使這些風險變得更加復雜。
然而,人工智能的濫用不僅僅是一個技術問題,還取決于領導人工智能創新和投資人工智能實施的動機。建立道德審查流程和負責任的實施策略至關重要,包括對人工智能的范圍和適用性進行全面審查。
團隊介紹
除了Yoshua Bengio帶隊外,三位華人一作也格外引人注目,他們分別是:
Hanchen Wang
斯坦福大學CS和Genentech聯合博士后研究員,劍橋大學ML博士學位。
Tianfan Fu
伊利諾伊大學香檳分校計算機科學系博士后研究員,佐治亞理工學院計算科學與工程系博士學位。
Yuanqi Du
康奈爾大學計算機科學博士研究生,2021年獲喬治梅森大學計算機科學學士學位。
傳送門:https://www.nature.com/articles/s41586-023-06221-2(論文鏈接)