微軟230頁報告,像素級評估GPT-4前沿科研能力:潛力無限速速上車!
LLM作為研究工具,能否幫助科學研究帶來新的突破?
今天微軟AI4Science Research拋出一篇230頁的重磅論文,告訴所有的科研人員:
LLM(GPT-4)太強了,趕快想辦法用起來!
論文地址:https://arxiv.org/abs/2311.07361
報告中,作者將以GPT-4為重點,深入研究LLM在科學發現和科學研究方面的表現。
研究領域包括:藥物發現、生物學、計算化學(密度泛函理論 (DFT) 和分子動力學 (MD))、材料設計和偏微分方程 (PDE)。
研究主要分為兩個部分,首先是讓專家對GPT-4在相關領域的知識儲備做出評估,了解模型對復雜科學概念和關系的理解。
然后,研究人員還讓GPT-4參與特定領域的基準測試,考察模型解決定義明確的特定領域問題的能力。
報告認為,GPT-4在各種科學應用中展現出了巨大的潛力,證明了它在處理復雜的問題解決和知識整合任務方面的能力。
具體來說,在生物學和材料設計領域,GPT-4 擁有廣泛的領域知識,能滿足科學研究中的特定要求。
GPT-4在理解和處理復雜的生物語言、執行生物信息學任務以及作為生物設計的科學助手方面表現出巨大的潛力。
它對生物學概念的廣泛掌握以及執行各種任務的能力,例如處理專門文件、預測信號肽以及從觀察中推理出合理的機制,使其成為推進生物學研究的有效工具。
GPT-4 通過檢索信息、提出設計原則、生成新穎且可行的化學成分、推薦分析和數值方法以及生成不同編程語言的代碼,在幫助材料設計任務方面展現出前景。
然而,它在表示和提出更復雜的結構(例如有機聚合物和 MOF)、生成準確的原子坐標以及提供精確的定量預測方面的能力還有待提高。
在藥物發現領域,GPT-4顯示出強大的屬性預測能力。比如,GPT-4可用于藥物-靶點結合親和力和相互作用的預測,這可顯著加速藥物發現流程。
LLM在預測分子的物理化學和生物學屬性方面表現出潛力,能夠準確預測出分子的溶解度、毒性、生物活性等特性。
在材料設計中,GPT-4 通過檢索信息、提出設計原則、生成新穎且可行的化學成分、推薦分析和數值方法以及生成不同編程語言的代碼,在幫助材料設計任務方面展現出前景。
然而,它在表示和提出更復雜的結構(例如有機聚合物和 MOF)、生成準確的原子坐標以及提供精確的定量預測方面遇到了挑戰。
在偏微方程研究領域,GPT-4展示了理解基本概念、辨別概念之間關系并提供準確證明方法的能力。
它能夠推薦適當的分析和數值方法來解決各種類型的偏微分方程,并用不同的編程語言生成代碼來數值求解偏微分方程。
GPT-4 展示了其理解基本概念、辨別概念之間關系并提供準確證明方法的能力。它能夠推薦適當的分析和數值方法來解決各種類型的偏微分方程,并用不同的編程語言生成代碼來數值求解偏微分方程。
在研究人員總結了LLM如此強大的科研能力之后,呼吁各個領域的科學家,將LLM與專業科學工具和模型相結合,或者在現有開源LLM的基礎之上,開發基礎科學模型,將會解鎖更多的科研范式和可能性。
論文的作者團隊為GPT-4設計了藥物、生物、化學、材料和數學五門「專項考試」,下面我們來看一下GPT-4這位考生在各個學科考試中的發揮怎么樣。
藥物發現
藥物發現是識別和開發新候選藥物以治療或預防特定疾病和醫療狀況的過程。這個復雜且多方面的領域旨在通過創造安全、有效和有針對性的治療藥物來改善人類健康和福祉。
評估 GPT-4 在藥物發現方面的能力具有巨大的潛力,例如加速發現過程、降低搜索和設計成本、增強創造力等。
具體來說,GPT-4在藥物發現方面有著廣泛的知識:GPT-4展示了對藥物發現中關鍵概念的廣泛理解,包括單個藥物,
靶蛋白,
小分子藥物的一般原則,
和藥物發現過程各個階段面臨的挑戰。
在此基礎之上,GPT-4可以幫助完成藥物發現中的多項基本任務,包括:
分子操縱:GPT-4 能夠通過修改現有分子結構來生成新的分子結構,可能發現新的藥物。
雖然GPT-4是協助藥物發現研究的有用工具,但了解其局限性和潛在錯誤也是客觀存在的。
SMILES序列處理比較困難:GPT-4可能難以直接處理SMILES序列。為了提高模型的理解和輸出,如果可能的話,最好提供藥物分子的名稱及其描述。
這將為模型提供更多背景信息,并提高其生成相關且準確響應的能力。
定量任務的局限性:雖然GPT-4在定性任務和問題方面表現出色,但在定量任務(例如預測分子數值)時可能會面臨限制。
作者評估的數據集中的特性和藥物靶點結合。建議研究人員在這些情況下以 GPT-4 的輸出作為參考,并使用專用的 AI 模型或科學計算工具進行驗證,以確保得出可靠的結論。
雙重檢查生成的分子:當使用GPT-4生成新分子時,必須驗證生成結構的有效性和化學性質。
藥物-靶點結合預測:GPT-4能夠預測分子與靶蛋白之間的相互作用,這有助于識別有前途的候選藥物并優化其結合特性。
分子特性預測:GPT-4能夠預測分子的各種理化和生物學特性,可以指導候選藥物的選擇和優化。
逆合成預測:GPT-4能夠預測目標分子的合成路線,幫助化學家設計高效且具有成本效益的策略來合成潛在候選藥物。
新分子生成:GPT-4可用于按照文本指令生成新分子。這種從頭生成分子的能力可以成為識別新藥物的工具。
廣泛的知識庫使GPT-4能夠在廣泛的藥物發現任務中提供有用的見解和建議。
編碼能力:GPT-4可以為藥物發現的編碼提供幫助,在數據下載、處理等方面提供巨大的便利。GPT-4強大的編碼能力可以極大地減輕研究人員未來的工作量。
研究人員首先通過定性測試研究GPT-4關于藥物發現的知識,測試了GPT-4翻譯藥物和表達式的能力。
GPT-4正確輸出化學式為CHClFNO,IUPAC名稱也正確,這意味著GPT-4知道藥物Afatinib。
然而,SMILES 并不正確。研究人員進一步給予指導,讓GPT-4再次生成SMILES。不幸的是,如圖所示,雖然研究人員明確要求 GPT-4 「注意每種原子類型的原子數量」并基于正確的IUPAC和化學式生成,但在幾次試驗中生成的 SMILES序列仍然不是正確的。
然后通過對多個關鍵任務的定量測試來研究其預測能力,包括藥物-靶標相互作用/結合親和力預測、分子性質預測和逆合成預測。
生物學
研究人員認為,GPT-4通過展示其處理復雜生物語言、執行生物信息任務、甚至作為生物設計的科學助手的能力,展現出為生物學領域做出貢獻的巨大潛力。
生物信息處理:GPT-4展示了其對生物領域專業文件信息處理的理解,例如MEME格式、FASTQ格式和VCF格式。
此外,它擅長對給定的任務和數據進行生物信息學分析,例如預測所提供序列的信號肽。
生物學理解:GPT-4展示了對各種生物學主題的廣泛理解,包括共有序列,
PPI,
信號通路和進化概念。
生物學推理:GPT-4能夠利用其內置的生物學知識從生物學觀察中推理出合理的機制。
生物輔助:GPT-4 展示了其在蛋白質設計任務領域以及通過將實驗方案轉化為自動化目的在濕實驗室實驗中作為科學助手的潛力。
雖然GPT-4本身是一種非常強大的工具,可以幫助生物學研究,但也觀察到一些局限性和偶爾的錯誤。
FASTA 序列理解:GPT-4 的一個顯著挑戰是FASTA序列的直接處理。如果可能的話,最好提供生物分子的名稱及其序列。
結果不一致:GPT-4 在與生物實體相關的任務上的表現受到與實體相關的豐富信息的影響。對未充分研究的實體(例如轉錄因子)的分析可能會產生不一致的結果。
阿拉伯數字理解:GPT-4 很難直接處理阿拉伯數字;建議將阿拉伯數字轉換為文本。
定量計算:雖然GPT-4在生物語言理解和處理方面表現出色,但在定量任務中遇到了局限性。為了獲得可靠的結論,建議使用替代計算工具進行手動驗證或驗證。
提示敏感性:GPT-4 的答案可能會不一致,并且高度依賴于問題的措辭,需要進一步細化以減少可變性,例如嘗試不同的提示。
總之,GPT-4 通過展示其在理解和處理生物語言、利用內置知識進行推理以及協助設計任務方面的熟練程度,在推進生物學領域展現出巨大的潛力。
盡管存在一些限制和錯誤,但通過適當的指導和改進,GPT-4 可以成為研究人員在不斷發展的生物研究領域中的寶貴工具。
計算化學
下面要進行的是化學考試,這里的計算化學是分子系統研究中不可或缺的工具,提供了對原子水平相互作用的見解并指導實驗工作。
在本次考試中,研究人員觀察到GPT-4的以下能力比較突出:
文獻綜述能力:GPT-4 擁有廣泛的計算化學知識,涵蓋密度泛函理論、費曼圖和電子結構理論、分子動力學模擬和分子構象生成等知識。
GPT-4 不僅能夠解釋基本概念,還可以總結該領域的主要發現和趨勢。
方法選擇能力:GPT-4 能夠針對具體的研究問題推薦合適的計算方法和軟件包,同時考慮系統規模、時間尺度和理論水平等因素。
模擬設置能力:GPT-4 能夠幫助制備簡單的分子輸入結構,建立和建議模擬參數,包括特定的對稱性、密度泛函、時間步長、集成、溫度和壓力控制方法,以及初始配置。
代碼開發能力:GPT-4 能夠協助在現有的計算化學和物理軟件包中實現新的算法或功能。
此外,GPT-4 還能夠通過提供實驗、計算和理論指導來幫助研究人員。
當然,研究人員也觀察到一些局限性:
首先,GPT-4 可能難以進行復雜的邏輯推理。
其次,GPT-4 不擅長生成或處理復雜分子或材料的原始原子坐標。
最后,GPT-4 在評估的基準測試中不擅長精確計算,并且通常忽略對稱性和不變性等物理先驗。
材料設計
在材料設計的考試中,研究人員設計了一套全面的任務,涵蓋了包括背景知識、設計原理、候選物識別、候選結構生成、性能預測和合成條件預測等各個方面。
通過解決設計過程的整個范圍,可以對 GPT-4 在材料設計方面的熟練程度進行全面評估,特別是對于結晶無機材料、有機聚合物和更復雜的材料。
通過考試評估,可以發現 GPT-4 在材料設計方面有如下能力:
信息記憶:GPT-4擅長記憶信息并提出無機晶體和聚合物的設計原理。它尤其擅長理解文本形式的材料設計規則。比如,在設計固態電解質材料時,它可以提出提高離子電導率的方法并提供準確的示例。
成分創建:熟練地為新型無機材料生成可行的化學成分,如下圖:
左邊的圖表示GPT-4生成合金化學成分的成功率。中間的圖表示生成離子化合物化學位置的成功率。右邊的圖表示生成給定原型的化學成分的成功率。
誤差線表示 5 個查詢的標準偏差。某些誤差線超過 1,因為均值和檢驗差的總和可能超過 1。例如,對于三元離子化合物,正確元素數的任務,成功率為1.0、0.967、0.7、1.0、1.0,平均值為 0.933,標準差為 0.117。
合成規劃:在無機材料的合成規劃方面表現出令人滿意的性能,比如下面的例子:
根據GPT-4的回答可以看出,它對無機材料的合成路線預測比較準確,合成步驟通常都正確,給出的合成條件與真實答案相差不遠。
編碼輔助:GPT-4 作為代碼助手,用于執行材料模擬、分析材料數據和進行可視化。這在很大程度上依賴于 GPT4 對現有軟件包的了解。
例如,它可以為大量屬性計算生成分子動力學和DFT輸入,并且可以正確利用許多計算包并構建自動處理管道。不過有時候可能需要迭代反饋和手動調整來微調生成的代碼。
研究人員設計了一些關于編碼輔助能力的任務,并進行了評估:
盡管GPT-4展現了自己在材料科學領域的強大能力,但也存在一些局限性:
GPT-4在提出有機聚合物和MOFs的任務中表現不夠理想。
GPT-4結構生成能力有限,尤其是在生成精確的原子坐標時,比如在下圖的測試中,左邊是GPT-4生成的Si結構,右邊是正確的結構。
GPT-4在屬性預測中無法提供精確的定量預測。例如,在預測一種材料是金屬材料還是半導體材料時,其準確性僅略高于隨機猜測,如下表:
最后,在沒有額外指導的情況下,GPT-4很難為訓練集中不存在的有機聚合物提出合成路線。
偏微分方程
在數學考試方面,研究人員選擇了偏微分方程(PDE),因為它在物理學、工程學、生物學和金融學等各個學科中都有深遠的應用。
不管大家看到偏微分方程這個詞,是眼前一亮,還是心里一沉,這次參加考試的是GPT-4,跟咱們沒關系。
作者來看一下GPT-4的表現:
首先考察的是偏微分方程的概念:
GPT-4的回答條理清晰,令人信服,甚至可以作為學生的指導。
另一方面,GPT-4能夠很好地辨別概念之間的關系,這可以幫助數學家拓寬視野并直觀地掌握不同子領域的聯系。
考察GPT-4提出解決方案的能力:
GPT-4可以推薦適當的分析和數值方法來解決各種類型和復雜性的偏微分方程。
——滿腦子偏微分方程,想考研是吧?
Talk is cheap. Show me the code.
下面馬上來考察一下GPT-4的代碼能力:
GPT-4也是隨手就擼了一段MATLAB代碼,來求偏微分方程的數值解?!悬c厲害。
代碼微調一下,就得到了上面的結果。
最后,GPT-4甚至進一步提出了這個領域的一些研究方向,并附帶了自己的看法。
當然,人無完人,機無完機。研究人員也在這門考試中發現了GPT-4的一些局限性:
雖然 GPT-4 在求解偏微分方程和提供顯式解方面表現出類似人類的能力,但可能存在錯誤推導的情況,所以需要我們驗證一下。
另外,GPT-4可能偶爾會錯誤地引用不存在的參考文獻。
展望未來
通過上面的幾門考試,我們領教了GPT-4在各個自然科學領域的能力和局限性。這也是我們探索GPT-4在自然科學領域潛力的第一步。
同時,通過解決這些局限性,GPT-4等LLM可以成為跨學科科學發現的更強大、更可靠的工具。這將使研究人員能夠受益于LLM的先進能力和洞察力,加快藥物發現、材料科學、生物學、數學和其他科學探究領域的研究和創新步伐。