ML如何做科學發現?牛津大學268頁博士論文詳述科學機器學習內涵
機器學習(ML)已經使我們實踐科學的方式發生了根本性的轉變,許多人現在把從數據中學習作為他們研究的重點。隨著我們想要研究的科學問題的復雜性的增加,以及當今科學實驗產生的數據量的增加,ML正在幫助自動化、加速和增強傳統的工作流程。站在這場革命前沿的是一個被稱為科學機器學習(SciML)的領域。SciML的中心目標是將現有的科學理解與ML更緊密地結合起來,生成強大的ML算法,這些算法由我們的先驗知識提供信息。
論文地址:https://ora.ox.ac.uk/objects/uuid:b790477c-771f-4926-99c6-d2f9d248cb23
目前存在大量將科學原理納入ML的方法,人們對SciML解決科學中一些最大挑戰的期望越來越高。然而,該領域正在蓬勃發展,許多問題仍在出現。一個主要的問題是SciML方法是否可以擴展到更復雜的現實問題。許多SciML研究正處于概念驗證階段,在這個階段,技術將在簡化的、簡單的問題上進行驗證。然而,了解它們在更復雜的問題上的可擴展性對于它們的廣泛應用至關重要。這個問題是本文的中心問題。
首先,針對月球科學和地球物理領域的三個復雜的、真實的、特定領域的案例研究設計了多種不同的物理知識機器學習方法,并評估了它們的性能和可擴展性。其次,評估和改進了物理信息神經網絡(一種流行的通用SciML方法)求解具有大區域和高頻解的微分方程的可擴展性。討論了這些研究的共同觀察結果,并確定了顯著的優勢和潛在的限制,突出了設計可擴展的SciML技術的重要性。
導論
機器學習(ML)在科學領域引起了一場革命。傳統上,科學研究圍繞著理論和實驗:一個人提出一個手工制作的和定義良好的理論,然后使用實驗數據不斷完善它,并分析它以做出新的預測。但今天,許多人都把從數據中學習作為他們研究的重點。在這里,世界的模型是通過ML算法從數據中學習的,現有的理論是不需要的。這種轉變的發生有多種原因。
首先,ML領域在過去十年中經歷了指數級增長,這一激增背后的主要驅動因素通常被歸因于深度學習的突破[Goodfellow et al.,2016]。一些重要的發現,如使用更深層次的網絡設計和更好的訓練算法,以及更強大的計算架構的可用性,已經導致深度學習技術在廣泛問題上的性能迅速提高[Dally et al.,2021年]?,F代ML算法現在能夠學習和解決難以置信的復雜任務,從自動駕駛汽車[Schwarting et al.,2018年]到擊敗世界級圍棋選手[Silver et al.,2018年]。
伴隨著這些進步,今天的科學實驗產生了越來越多的數據,研究越來越復雜的現象[Baker et al., 2019, Hey et al., 2020]。人類和我們的傳統工作流程對所有這些數據進行分析和理論化正在迅速變得不可能,不久之后,科學實驗很可能會受到他們從已有數據中提取見解的能力的限制,而不是他們可以收集什么數據[Baker et al., 2019]。鑒于ML可以提供強大的工具,許多研究人員正在轉向ML來幫助自動化、加速和增強傳統的工作流程。在過去十年中,新的ML算法和數據可用性的結合導致了一些重大的科學進步。例如,ML已經被用于比以往任何時候都更準確地預測蛋白質結構[Jumper et al., 2021],從神經活動合成語音[anummanchipalli et al., 2019],以及改進量子多體系統的模擬[Carleo和Troyer, 2017]。事實上,現代的ML算法現在已經被應用到科學的幾乎每一個方面,這個時代的一個決定性研究問題已經變成:「解決問題X,并將ML應用到它上面」,隨之而來的是有趣且常常令人興奮的結果。
然而,盡管有這些進步,但ML,特別是深度學習算法的各種缺點在ML領域已經具體化。例如,盡管它們能夠學習高度復雜的現象,但深度神經網絡通常被視為「黑箱」,人們缺乏對它們如何表示和推理世界的理解。這種不可解釋性是一個關鍵問題,特別是對于需要對網絡預測進行論證的安全關鍵應用[Gilpin et al.,2019,Castelvecchi, 2016]。此外,關于如何設計適合特定任務的深度學習算法,幾乎沒有理論指導。深度神經網絡架構的選擇主要是根據經驗進行的,盡管元學習和神經架構搜索領域開始提供更多自動化的方法[Elsken et al.,2019年,Hospedales et al.,2021年]。最后,盡管深度神經網絡表達能力很強,但它們受到訓練數據的限制,在訓練分布之外通常表現不佳。學習在新任務中表現良好的世界可泛化模型是更通用人工智能(AI)系統的一個關鍵特征,也是ML領域的一個關鍵突出挑戰[Bengio et al.,2021]。
當在科學問題中使用ML時,研究人員開始遇到這些限制[Ourmazd, 2020, Forde和Paganini, 2019]。鑒于深度神經網絡的泛化能力較差,一個關鍵問題是它們是否真正「學習」了科學原理。一個好的科學理論被期望能在實驗數據之外做出新穎而準確的預測,然而深度神經網絡在訓練數據之外很難做出準確的預測。即使一個網絡可以做出可靠的預測,考慮到它們的不可解釋性,從它們中提取任何有意義的科學見解可能是具有挑戰性的。
另一個主要問題是,許多當前的機器學習工作流完全用學習的模型取代了傳統的科學模型。雖然這可能很有用,但這些純數據驅動的方法「拋棄」了我們大量的先驗科學知識。
重要的一點是,對于許多問題,有一個現有的理論可以建立,而不是從頭開始。在一個傳統上基于明確的理論和實驗之間緊密相互作用的領域,一些人認為上述限制使當前的ML方法不可接受。這些擔憂促使形成了一個快速發展的新領域,稱為科學機器學習(SciML) [Baker et al., 2019, Karniadakis et al., 2021, Willard et al., 2020, Cuomo et al., 2022, Arridge et al., 2019, Karpatne et al., 2017a]。SciML的目標是將現有的科學知識和ML融合在一起,生成更細微的ML算法,這些算法由我們的先驗知識提供信息,如圖1.1所示。這一領域的關鍵論點是,通過這樣做,我們將最終獲得更強大的科學研究方法。傳統方法和ML方法各有優缺點,兩者的結合可能比其中一種更有效。例如,在進行數據同化時(例如在氣候模型中),可以使用傳統物理模型提供先驗知識,而ML可用于解釋數據依賴性和其他未知物理。
圖1.1:科學機器學習(SciML)概述。SciML旨在將ML與科學知識緊密結合,以便為科學研究生成更強大、魯棒和可解釋的ML方法。
人們對這一領域的期望正在迅速增長,目前正在提出和研究大量的方法和許多創新策略,以將科學知識融入ML。這些方法的范圍從預期的科學任務(例如模擬、反演和控制方程發現),到不同的方法來合并科學原理(例如通過深度神經網絡的架構、其損失函數和混合模型的使用),以及科學原理被強加的程度(例如通過硬約束或軟約束)。我們將在第2章中詳細回顧這些方法。許多方法使用來自物理學的思想來通知其在SciML的子領域稱為物理信息機器學習(PIML)的ML算法[Karniadakis等人,2021]。
到目前為止,SciML 取得了一些初步的成功。它幫助我們進行了強大的模擬[Raissi al.,2019],發現了復雜物理系統的控制方程[Kutz和Brunton, 2022],在反演問題中精確地反演基礎參數[Arridge等人,2019],并在廣泛的領域中無縫地將傳統工作流與學習過的組件[Rackauckas等人,2020,Thuerey等人,2021]。盡管有早期的希望,但SciML領域仍處于起步階段,出現了許多重要的問題,例如;我們應該如何實施科學原則?我們應該如何平衡數據驅動模型的可解釋性的缺乏和現有理論的清晰性?是否存在可以跨科學學科應用的總括的SciML技術?SciML能否為ML領域提供新的視角和思路?對于復雜的現實世界問題,SciML技術的擴展性有多好?本文主要研究最后一個問題,具體討論如下。
在本文中,我們主要采用兩種方法來研究上述子問題。首先,針對前3個子問題,使用復雜的、真實的、特定領域的案例研究來考察多種不同的PIML方法的性能和可擴展性。對于每個子問題,我們提出了一個案例研究,提出了一種PIML技術(或各種PIML技術)來解決它,并評估該技術如何擴展到這種設置。其次,針對最后一個子問題,我們專注于單一的通用PIML技術,并評估和改進其可擴展性。前三個子問題分別在本論文的單獨一章(分別為第3 ~ 5章)中進行研究,其案例研究均來自月球科學和地球物理學領域。最后一個子問題將在第6章進行研究。最后,我們在第七章中討論和總結了每一章對我們主要研究問題的影響。
SciML方法譜系。這張圖顯示了本章中介紹的不同類型的SciML方法對科學知識的「強」程度。注意,科學約束的強度是一個相當模糊的概念;在這個圖中,我們將其定義為SciML方法與傳統工作流的接近程度。中間的方法同樣將ML與傳統工作流的某些方面結合起來,例如在循環方法中,將傳統迭代求解器與ML模型交織在一起。此外,我們的作業有些主觀,所以這個數字只是為了表達總體趨勢。