230頁長文,涵蓋5大科學領域,微軟團隊使用GPT-4探索LLM對科學發現的影響
前不久,微軟 DeepSpeed 團隊啟動了一個名為 DeepSpeed4Science 的新計劃,旨在通過 AI 系統優化技術實現科學發現。
11 月 13 日,微軟團隊在 arXiv 預印平臺發表題為《大型語言模型對科學發現的影響:使用 GPT-4 的初步研究》(「The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4」)的文章。
文章篇幅長達 230 頁。
論文鏈接:https://arxiv.org/abs/2311.07361
近年來,自然語言處理領域的突破性進展在強大的大型語言模型(LLM)的出現中達到了頂峰,這些模型在眾多領域展示了非凡的能力,包括自然語言的理解、生成和翻譯,甚至擴展到語言處理之外的任務。
在本報告中,微軟研究人員深入研究了 LLM 在科學發現/研究背景下的表現,重點關注最先進的語言模型 GPT-4。研究涵蓋多個科學領域,包括藥物發現、生物學、計算化學(DFT 和 MD)、材料設計和偏微分方程 (PDE)。
評估 GPT-4 的科學任務對于發掘其在各個研究領域的潛力、驗證其特定領域的專業知識、加速科學進步、優化資源配置、指導未來模型開發和促進跨學科研究至關重要。探索方法主要包括專家驅動的案例評估,它為模型對復雜科學概念和關系的理解提供定性見解,并且偶爾進行基準測試,它定量評估模型解決明確定義的特定領域問題的能力。
初步探索表明,GPT-4 在各種科學應用中展現出廣闊的潛力,展示了其處理復雜問題解決和知識整合任務的能力。研究人員對 GPT-4 在上述領域(例如藥物發現、生物學、計算化學、材料設計等)的性能進行了分析,強調了其優點和局限性。從廣義上評價 GPT-4 的知識基礎、科學理解能力、科學數值計算能力和各種科學預測能力。
在生物學和材料設計方面,GPT-4 擁有廣泛的領域知識,可以幫助滿足特定要求。在藥物發現等其他領域,GPT-4 顯示出強大的特性預測能力。然而,在計算化學和偏微分方程等研究領域,雖然 GPT-4 有望幫助研究人員進行預測和計算,但仍需要進一步努力來提高其準確性。盡管其功能令人印象深刻,但 GPT-4 還可以針對定量計算任務進行改進,例如需要進行微調以實現更好的準確性。
研究人員希望這份報告能夠為那些尋求利用 LLM 的力量進行科學研究和應用的研究人員和從業者,以及那些對推進特定領域科學任務的自然語言處理感興趣的人提供寶貴的資源。需要強調的是,LLM 和大規模機器學習領域正在迅速發展,該技術的未來幾代可能擁有本報告中強調的功能之外的其他功能。值得注意的是,LLM 與專業科學工具和模型的整合,以及基礎科學模型的開發,代表了兩條有希望的探索途徑。
藥物發現
藥物發現是制藥行業的重要組成部分,在推進醫學科學方面發揮著至關重要的作用。藥物發現涉及復雜的多學科過程,包括靶點識別、先導化合物優化和臨床前測試,最終導致安全有效藥物的開發。
評估 GPT-4 在藥物發現方面的能力具有巨大的潛力,例如加速發現過程、降低搜索和設計成本、增強創造力等。在本章中,研究人員首先通過定性測試研究 GPT-4 關于藥物發現的知識,然后通過對多個關鍵任務的定量測試來研究其預測能力,包括藥物-靶標相互作用/結合親和力預測、分子性質預測和逆合成預測。
第一個示例是生成給定藥物名稱的化學式、IUPAC 名稱和 SMILES,這是名稱和藥物其他表示形式之間的翻譯。以 Afatinib 作為輸入藥物。GPT-4 正確輸出化學式為 C24H25ClFN5O3,IUPAC 名稱也正確,這意味著 GPT-4 知道藥物 Afatinib。然而,SMILES 并不正確。因此,研究人員給予指導,讓 GPT-4 再次生成 SMILES。不幸的是,雖然明確要求 GPT-4 「注意每種原子類型的原子數量」并基于正確的 IUPAC 和化學式生成,但在幾次試驗中生成的 SMILES 序列仍然不正確。
圖 1:藥物名稱和藥物其他表示形式之間的翻譯。(來源:論文)
生物
在本章中,研究人員深入探討了 GPT-4 在生物學研究領域的能力,主要關注其理解生物語言、利用內置生物知識進行推理的熟練程度,以及設計生物分子和生物實驗。觀察表明,GPT-4 通過展示其處理復雜生物語言、執行生物信息任務、甚至作為生物設計的科學助手的能力,展現出為生物學領域做出貢獻的巨大潛力。GPT-4 對生物學概念的廣泛掌握及其作為設計任務中的科學助手的巨大潛力凸顯了其在推進生物學領域的重要作用。
首先評估了 GPT-4 處理生物序列序列符號和文本符號的能力。
研究人員要求 GPT-4 在生物序列及其文本符號之間進行轉換:1)輸出給定蛋白質序列的蛋白質名稱。2) 輸出給定名稱的蛋白質序列。在執行每個任務之前,都會重新啟動會話以防止信息泄露。結果表明,GPT-4 知道序列到文本符號轉換的過程,但它不能自己直接查找(也稱為 BLAST 序列)。同時,GPT-4 更喜歡生物序列的文本標記(包括蛋白質和 DNA,后者未顯示)。當給出文本符號時,它提供了更豐富的信息,這可能是由于其設計理念。需要指出的是,還注意到,生成序列可能會導致 GPT-4 的災難性行為。如下圖所示,雖然 GPT-4 返回了正確的 UniProt ID,但在生成序列時遇到了困難。序列生成因嘗試的幾種不同提示而崩潰。
圖 2:序列符號和文本符號之間的轉換。(來源:論文)
計算化學
計算化學是一個跨學科領域,利用計算方法和技術來解決化學中的復雜問題。長期以來,它一直是分子系統研究中不可或缺的工具,提供了對原子級相互作用的見解并指導實驗工作。計算化學在微觀和宏觀層面上理解分子結構、化學反應和物理現象方面發揮著至關重要的作用。
在本章中,研究了 GPT-4 在計算化學各個領域的功能,包括電子結構方法和分子動力學模擬,并展示了 GPT-4 從不同角度服務的兩個實際示例。總之,GPT-4 能夠以多種方式幫助計算化學研究人員。
研究從評估 GPT-4 解釋量子化學和物理概念的能力開始。評估涵蓋了該領域常用的方法,如密度泛函理論(DFT)和波函數理論(WFT)。
圖 3:密度泛函理論的概念檢驗。(來源:論文)
在以上例子中,GPT-4 很好地理解了密度泛函理論、KohnSham 密度泛函理論和無軌道密度泛函理論的概念。
材料設計
在本章中,研究了 GPT-4 在材料設計領域的功能。研究人員設計了一套全面的任務,涵蓋材料設計過程中的各個方面,從最初的概念化到隨后的驗證和合成。目標是評估 GPT-4 的專業知識及其在實際應用中生成有意義的見解和解決方案的能力。設計的任務涵蓋各個方面,包括背景知識、設計原則、候選識別、候選結構生成、屬性預測和合成條件預測。通過解決整個設計過程,目標是對 GPT-4 在材料設計方面的熟練程度進行整體評估,特別是對于結晶無機材料、有機聚合物以及金屬有機框架 (MOF) 等更復雜的材料。
值得注意的是,評估主要側重于對 GPT-4 在這一專業領域的能力進行定性評估,而只有在可行的情況下才能獲得統計分數。
研究人員首先詢問目前固體電解質的分類,其分類標準有不同的要求,例如一般化學和陰離子類型。還要求提供基于分類標準的示例。如圖 4 所示,這里的所有答案都是事實,而且大部分都是正確的。由于這些分類標準在文獻中沒有得到很好的體現,GPT-4 應該對化學的含義有一個相對清晰的理解。
圖 4:無機固體電解質的分類。(來源:論文)
偏微分方程
偏微分方程 (PDE) 是數學領域中一個重要且高度活躍的研究領域,在物理、工程、生物學和金融等各個學科中具有深遠的應用。偏微分方程在建模和理解各種現象(從流體動力學和傳熱到電磁場和群體動力學)方面發揮著至關重要的作用。
在本章中,研究了 GPT-4 在偏微分方程的幾個方面的技能:理解偏微分方程的基礎知識、求解偏微分方程以及協助 AI 進行偏微分方程研究。研究人員在不同形式的 PDE 上評估模型,例如線性方程、非線性方程和隨機 PDE。研究表明 GPT-4 能夠以多種方式幫助研究人員。
第一個問題是關于偏微分方程的定義和形式,GPT-4 對偏微分方程提供了很好的解釋,如圖 5 所示。在用戶的提示下,GPT-4 給出了偏微分方程的清晰概念以及線性或非線性、橢圓形、拋物線形或雙曲形的類別。該領域的新手將從這些概念和分類中受益。
圖 5:PDE 的基本概念介紹。(來源:論文)
未來展望
在該研究中,研究人員探索了 LLM 在各個自然科學領域的能力和局限性,涵蓋了各種任務。研究的主要目標是對最先進的 LLM GPT-4 及其對科學發現做出貢獻的潛力提供初步評估,為多個領域的研究人員提供寶貴的資源和工具。
通過廣泛的分析,研究強調了 GPT-4 在眾多科學任務中的熟練程度,從文獻綜合到屬性預測和代碼生成。盡管其功能令人印象深刻,但必須認識到 GPT-4(以及類似的 LLM)的局限性,例如處理特定數據格式的挑戰、響應的不一致以及偶爾的幻覺。
研究人員相信,該探索是理解和認識 GPT-4 在自然科學領域潛力的關鍵第一步。通過詳細概述其優點和缺點,旨在幫助研究人員在將 GPT-4(或其他 LLM)納入日常工作時做出明智的決定,確保最佳應用,同時注意其局限性。
此外,鼓勵 GPT-4 和其他 LLM 的進一步探索和發展,旨在提高其科學發現能力。這可能涉及完善培訓過程、合并特定領域的數據和架構,以及集成針對不同科學學科量身定制的專業技術。
隨著人工智能領域的不斷發展,像 GPT-4 這樣的復雜模型的集成將在加速科學研究和創新方面發揮越來越重要的作用。
最后,研究總結了 LLM 在科學研究方面需要改進的方面,并討論加強 LLM 或在此基礎上推動科學突破的潛在方向。