新的「AI科學家」結合理論和數據來發現科學方程
科學家們的目標是發現能夠準確描述實驗數據的有意義的公式。自然現象的數學模型可以根據領域知識手動創建,或者也可以使用機器學習算法從大型數據集自動創建。學界已經研究了表示相關先驗知識與相關函數模型合并的問題,認為尋找與一般邏輯公理先驗知識一致的模型,是一個懸而未決的問題。
IBM 研究團隊以及三星 AI 團隊的研究人員開發了一種方法「AI-Descartes」,通過將邏輯推理與符號回歸相結合,能夠從公理知識和實驗數據中對自然現象模型進行原則性推導。
該研究以「Combining data and theory for derivable scientific discovery with AI-Descartes」為題,于 2023 年 4 月 12 日發布在《Nature Communications》。
人工神經網絡 (NN) 和統計回歸通常用于自動發現數據中的模式和關系。NN 返回「黑盒」模型,其中底層函數通常僅用于預測。在標準回歸中,函數形式是預先確定的,因此模型發現相當于參數擬合。在符號回歸(SR)中,函數形式不是預先確定的,而是由給定列表中的運算符(例如,+、-、× 和 ÷)組成,并根據數據計算得出。
SR 模型通常比 NN 模型更「可解釋」,并且需要的數據更少。因此,為了從實驗數據中以符號形式發現自然法則,SR 可能比 NN 或固定形式回歸更有效;NN 與 SR 的集成一直是神經符號 AI 近期研究的主題。SR 的一個主要挑戰是從許多適合數據的模型中識別出具有科學意義的模型。科學家將有意義的函數定義為平衡準確性和復雜性的函數。然而,對于給定的數據集存在許多這樣的表達式,并且并非所有表達式都與已知的背景理論一致。
另一種方法是從已知的背景理論開始,但目前還沒有實用的推理工具可以從一組已知的公理中生成與實驗數據一致的定理。自動定理證明器(ATP)是使用最廣泛的推理工具,它可以為給定邏輯理論證明猜想。計算復雜性是 ATP 面臨的主要挑戰;對于某些類型的邏輯,證明猜想是不可判定的。
此外,當涉及算術和微積分運算符時,使用形式推理工具從邏輯理論推導模型尤其困難。機器學習技術已被用于提高 ATP 的性能,例如,通過使用強化學習來指導搜索過程。
可推導的模型不僅要在經驗上準確,而且它們應該是可預測的、有洞察力的。
IBM 研究團隊以及三星 AI 團隊的研究人員,試圖通過將一種新穎的基于數學優化的 SR 方法與推理系統相結合,來獲得此類模型。這產生了一個端到端的發現系統「AI-Descartes」,它通過 SR 從數據中提取公式,然后從一組公理中提供公式的可推導性的證明,或提供不一致的證明。當模型可證明不可推導時,研究人員提出了表明公式與可推導公式的接近程度的新度量,并且使用他們的推理系統計算這些度量的值。
圖示:系統概述。(來源:論文)
在早期將機器學習與推理相結合的工作中,科學家使用基于邏輯的描述來約束生成圖像的 GAN 神經架構的輸出。也有團隊結合機器學習工具和推理引擎,來搜索滿足預先指定約束的函數形式。這是用新點擴充初始數據集,從而提高學習方法的效率和最終模型的準確性。也有團隊還利用先驗知識來創建額外的數據點。然而,這些研究僅考慮對要學習的函數形式的約束,并沒有包含一般背景理論公理(描述現象中涉及的其他定律和未測量變量的邏輯約束)。
該論文的第一作者,三星 AI 的研究科學家 Cristina Cornelio 表示,AI-Descartes 提供了一些優于其他系統的優勢,但它最顯著的特點是它的邏輯推理能力。如果有多個候選方程可以很好地擬合數據,系統會識別哪些方程最適合背景科學理論。推理能力也使該系統有別于 ChatGPT 等「生成式 AI」程序,后者的大型語言模型邏輯能力有限,有時還會搞亂基礎數學。
「在我們的工作中,我們正在將第一性原理方法與機器學習時代更常見的數據驅動方法相結合,這種方法幾個世紀以來一直被科學家用來從現有背景理論中推導出新公式。」Cornelio 說, 「這種結合使我們能夠利用這兩種方法,并為廣泛的應用創建更準確和有意義的模型。」
AI-Descartes 這個名字是對 17 世紀數學家和哲學家 René Descartes 的致敬,他認為自然世界可以用一些基本的物理定律來描述,邏輯推論在科學發現中發揮了關鍵作用。
圖示:對系統實施的科學方法的解釋。(來源:論文)
該團隊的研究人員已經證明,將邏輯推理與符號回歸相結合,在獲得有意義的物理現象符號模型方面有重要價值;因為它們與背景理論一致,并且在明顯大于實驗數據的領域中具有很好的概括性。回歸和推理的綜合產生了比單獨通過 SR 或邏輯推理更好的模型。
單個系統組件的改進或替換以及新模塊的引入,例如溯因推理或實驗設計將擴展整個系統的功能。推理和回歸的更深入集成可以幫助合成數據驅動和基于第一性原理的模型,并導致科學發現過程的革命。發現與先驗知識一致的模型將加速科學發現,并超越現有的發現范式。
該團隊使用模型對開普勒行星運動第三定律、愛因斯坦相對論時間膨脹定律和朗繆爾吸附理論進行了推導;研究表明,當使用邏輯推理來區分在數據上具有相似誤差的候選公式時,模型可以從少量數據點中發現支配規律。
圖示:相關集合及其距離的可視化。(來源:論文)
「在這項工作中,我們需要人類專家以正式的、計算機可讀的方式寫下背景理論的公理是什么,如果人類遺漏了任何或弄錯了其中的任何一個,系統將無法工作。」UMBC 化學、生物化學和環境工程助理教授 Tyler Josephson 說,「在未來,我們也希望將這部分工作自動化,這樣我們就可以探索更多的科學和工程領域。」
最終,該團隊希望他們的 AI-Descartes 能夠像真人科學家一樣激發一種富有成效的新科學方法。「我們工作中最令人興奮的方面之一是更夠在科學研究方面獲得重大進展的潛力。」Cornelio 說。
論文鏈接:https://www.nature.com/articles/s41467-023-37236-y
相關報道:https://techxplore.com/news/2023-04-ai-scientist-combines-theory-scientific.html