麻省理工研究團(tuán)隊革新科學(xué)研究方式,通過多智能體智能圖推理實現(xiàn)科學(xué)發(fā)現(xiàn)自動化
在當(dāng)今快速發(fā)展的科學(xué)研究領(lǐng)域,如何高效地探索新領(lǐng)域、識別復(fù)雜模式并揭示龐大科學(xué)數(shù)據(jù)中的隱藏聯(lián)系,成為了人工智能面臨的重大挑戰(zhàn)。傳統(tǒng)的科學(xué)研究方法雖然取得了許多突破,但受限于研究人員的創(chuàng)造力和背景知識,可能無法充分挖掘現(xiàn)有數(shù)據(jù)中的潛在知識。為了解決這一問題,麻省理工學(xué)院(MIT)的研究團(tuán)隊提出SciAgents通過多智能體智能圖推理,自動化科學(xué)發(fā)現(xiàn)過程,推動科學(xué)研究進(jìn)入新的高度。
科學(xué)發(fā)現(xiàn)的過程通常包括背景知識的審查、假設(shè)的提出、假設(shè)的測試和驗證,以及基于發(fā)現(xiàn)的假設(shè)優(yōu)化。這一過程不僅耗時耗力,而且依賴于研究人員的個人能力和經(jīng)驗,可能會限制發(fā)現(xiàn)的廣度和深度。特別是在跨學(xué)科領(lǐng)域,如仿生材料設(shè)計,傳統(tǒng)方法難以充分利用自然界的設(shè)計原理,進(jìn)行工程應(yīng)用。此外,面對海量的科學(xué)數(shù)據(jù),傳統(tǒng)方法在挖掘和利用這些數(shù)據(jù)以生成全新研究思路方面顯得力不從心。
隨著人工智能技術(shù)的進(jìn)步,特別是大型語言模型(LLMs)和多智能體系統(tǒng)的發(fā)展,科學(xué)家們看到了利用AI技術(shù)自動化科學(xué)發(fā)現(xiàn)過程的潛力。SciAgents正是在這一背景下提出的。它結(jié)合了大規(guī)模本體知識圖譜、LLMs和多智能體系統(tǒng),通過智能圖推理,自動生成和優(yōu)化研究假設(shè),揭示跨學(xué)科的隱藏關(guān)系,超越傳統(tǒng)人類驅(qū)動的研究方法。
SciAgents的主要目標(biāo)是通過自動化的方式,推動科學(xué)理解的進(jìn)步。具體而言,SciAgents旨在利用大規(guī)模本體知識圖譜組織和互聯(lián)多種科學(xué)概念。結(jié)合LLMs和數(shù)據(jù)檢索工具,生成和優(yōu)化研究假設(shè)。通過多智能體系統(tǒng)的現(xiàn)場學(xué)習(xí)能力,揭示跨學(xué)科的隱藏關(guān)系。實現(xiàn)研究假設(shè)的自主生成和優(yōu)化,闡明底層機(jī)制、設(shè)計原理和意外的材料特性。通過這些目標(biāo),SciAgents不僅能夠提高科學(xué)發(fā)現(xiàn)的效率和精度,還能在材料發(fā)現(xiàn)和先進(jìn)材料開發(fā)方面取得突破性進(jìn)展。
研究團(tuán)隊是來自麻省理工學(xué)院(MIT)的Alireza Ghafarollahi 和Markus J. Buehler,這兩位研究人員都隸屬于麻省理工學(xué)院的原子和分子力學(xué)實驗室(LAMM),并且他們的研究涉及計算科學(xué)與工程領(lǐng)域。Markus J. Buehler還在施瓦茨曼計算學(xué)院擔(dān)任職務(wù),進(jìn)一步強(qiáng)調(diào)了他們在計算科學(xué)和多學(xué)科研究中的深厚背景。
核心概念
在SciAgents系統(tǒng)中,大規(guī)模本體知識圖譜是其核心組件之一。該圖譜由約1,000篇科學(xué)論文生成,包含33,159個節(jié)點和48,753條邊,代表了科學(xué)領(lǐng)域中的多種概念及其相互關(guān)系。通過這種結(jié)構(gòu)化的數(shù)據(jù)表示,SciAgents能夠系統(tǒng)地組織和互聯(lián)多種科學(xué)概念,形成一個龐大的知識網(wǎng)絡(luò)。這種圖譜不僅提供了概念之間的直接關(guān)系,還揭示了隱藏在數(shù)據(jù)中的復(fù)雜模式和潛在聯(lián)系,為科學(xué)發(fā)現(xiàn)提供了堅實的基礎(chǔ)。
SciAgents利用大型語言模型(LLMs)和數(shù)據(jù)檢索工具來生成和優(yōu)化研究假設(shè)。LLMs,如OpenAI的GPT系列,具有強(qiáng)大的自然語言處理能力,能夠理解和生成復(fù)雜的文本內(nèi)容。在SciAgents中,LLMs被用來解析和擴(kuò)展知識圖譜中的概念和關(guān)系,生成詳細(xì)的科學(xué)假設(shè)和研究計劃。數(shù)據(jù)檢索工具則用于從現(xiàn)有文獻(xiàn)中提取相關(guān)信息,確保生成的假設(shè)基于最新的科學(xué)研究。這種結(jié)合使得SciAgents能夠在廣泛的科學(xué)數(shù)據(jù)中找到新的研究方向和創(chuàng)新點。
多智能體系統(tǒng)是SciAgents的另一個關(guān)鍵組成部分。每個智能體在系統(tǒng)中扮演特定角色,如路徑生成、深度分析、假設(shè)制定和批判性審查等。通過這種分工協(xié)作,SciAgents能夠有效地管理科學(xué)研究的復(fù)雜性。更重要的是,這些智能體具備現(xiàn)場學(xué)習(xí)能力,能夠根據(jù)實時數(shù)據(jù)和反饋不斷優(yōu)化其行為和決策。這種動態(tài)適應(yīng)性使得SciAgents不僅能夠生成高質(zhì)量的研究假設(shè),還能在研究過程中不斷改進(jìn)和完善這些假設(shè),推動科學(xué)發(fā)現(xiàn)的進(jìn)程。
通過大規(guī)模本體知識圖譜、大型語言模型和多智能體系統(tǒng)的結(jié)合,SciAgents實現(xiàn)了科學(xué)發(fā)現(xiàn)過程的自動化和智能化。這種創(chuàng)新方法不僅提高了研究效率和精度,還為跨學(xué)科研究提供了新的可能性,展示了AI在科學(xué)發(fā)現(xiàn)中的巨大潛力。
方法論
本體知識圖譜的構(gòu)建
SciAgents的本體知識圖譜是從約1,000篇科學(xué)論文中提取的,這些論文涵蓋了生物材料和力學(xué)等領(lǐng)域。通過使用先進(jìn)的文本挖掘和自然語言處理技術(shù),研究團(tuán)隊從這些論文中提取了關(guān)鍵概念和關(guān)系。每篇論文的內(nèi)容被解析成結(jié)構(gòu)化的數(shù)據(jù),形成節(jié)點和邊的基礎(chǔ)。這些數(shù)據(jù)經(jīng)過清洗和標(biāo)準(zhǔn)化處理,以確保其一致性和準(zhǔn)確性。最終,生成了一個包含33,159個節(jié)點和48,753條邊的龐大知識圖譜,代表了科學(xué)領(lǐng)域中的多種概念及其相互關(guān)系。
在知識圖譜中,每個節(jié)點代表一個科學(xué)概念或?qū)嶓w,如“絲綢”、“傳熱性能”等。邊則表示這些節(jié)點之間的關(guān)系,如“絲綢具有生物相容性”或“傳熱性能影響材料的機(jī)械強(qiáng)度”。這些節(jié)點和邊不僅包括直接的關(guān)系,還揭示了隱藏在數(shù)據(jù)中的復(fù)雜模式和潛在聯(lián)系。通過這種結(jié)構(gòu)化的數(shù)據(jù)表示,SciAgents能夠系統(tǒng)地組織和互聯(lián)多種科學(xué)概念,形成一個龐大的知識網(wǎng)絡(luò),為科學(xué)發(fā)現(xiàn)提供堅實的基礎(chǔ)。
含隨機(jī)路徑點的啟發(fā)式路徑算法
SciAgents使用了一種結(jié)合啟發(fā)式路徑查找、節(jié)點嵌入和隨機(jī)路徑點的算法,旨在發(fā)現(xiàn)圖中的多樣路徑。該算法的主要目標(biāo)是通過估算節(jié)點嵌入的距離,在源節(jié)點和目標(biāo)節(jié)點之間找到路徑。節(jié)點嵌入是通過預(yù)訓(xùn)練模型生成的,這些嵌入對于啟發(fā)式函數(shù)至關(guān)重要,它估算了當(dāng)前節(jié)點與目標(biāo)節(jié)點之間的距離。通過依賴這些嵌入,算法能夠適應(yīng)圖的拓?fù)浣Y(jié)構(gòu),有效地遍歷復(fù)雜的網(wǎng)絡(luò)。
為了增加路徑查找過程的多樣性,算法引入了隨機(jī)路徑點。這些路徑點從初始路徑之外的鄰近節(jié)點中選擇,使算法能夠探索替代路徑。隨機(jī)化因子控制了啟發(fā)式搜索和隨機(jī)探索之間的平衡,使其在不同的使用場景中具有靈活性。找到路徑后,生成包含路徑節(jié)點及其二跳鄰居的子圖,為圖推理提供更廣泛的上下文。這種方法不僅提高了路徑查找的效率,還增加了生成假設(shè)的多樣性和新穎性。
圖推理過程
圖1:這里開發(fā)的多代理圖推理系統(tǒng)概述。圖a,圖構(gòu)造概述,可視化顯示了從作為數(shù)據(jù)源的科學(xué)論文到圖形構(gòu)建的進(jìn)展,右側(cè)的圖像顯示了圖形的放大視圖。小組b和c:提出了兩種不同的方法:在b中,一種基于代理之間預(yù)編程交互序列的多代理系統(tǒng),確保一致性和可靠性,在c中,一個全自動、靈活的多代理框架,動態(tài)適應(yīng)不斷發(fā)展的研究環(huán)境。這兩個系統(tǒng)都利用全局知識圖中的采樣路徑作為上下文來指導(dǎo)研究思路的生成過程。每個主體都扮演著特殊的角色:本體論者定義關(guān)鍵概念和關(guān)系,科學(xué)家1制定詳細(xì)的研究提案,科學(xué)家2擴(kuò)展和完善提案,評論家主體進(jìn)行徹底審查并提出改進(jìn)建議。第二種方法中的規(guī)劃師制定詳細(xì)的計劃,并指示助理檢查生成的研究假設(shè)的新穎性。這種合作框架能夠產(chǎn)生超越傳統(tǒng)人類驅(qū)動方法的創(chuàng)新和全面的科學(xué)假設(shè)。
圖推理過程的第一步是基于知識圖譜生成科學(xué)假設(shè)。算法首先識別兩個關(guān)鍵節(jié)點,可以明確指定或隨機(jī)選擇。如果設(shè)置了最短路徑標(biāo)志,則計算最短路徑;否則,采用啟發(fā)式路徑查找方法,結(jié)合隨機(jī)路徑點探索更多樣的路徑。一旦建立了路徑,函數(shù)從路徑及其關(guān)系中構(gòu)建知識圖譜,包含遍歷的節(jié)點和關(guān)系。圖譜結(jié)構(gòu)用于生成模型輸入,擴(kuò)展節(jié)點和關(guān)系,提供定義和解釋。
在初步構(gòu)思之后,下一階段是系統(tǒng)地擴(kuò)展假設(shè)的具體方面。為研究的每個方面構(gòu)建詳細(xì)的提示,批判性地評估和改進(jìn)科學(xué)內(nèi)容。模型生成擴(kuò)展內(nèi)容,并在標(biāo)題下添加到擴(kuò)展字段中。這一過程確保了每個主要研究方面都得到了充分的評估和改進(jìn)。
擴(kuò)展內(nèi)容后,系統(tǒng)將結(jié)果編譯成結(jié)構(gòu)化文檔,包括原始知識圖譜和假設(shè)、擴(kuò)展的研究方面,形成連貫的研究敘述。接下來,模型對整個文檔進(jìn)行批判性審查,評估優(yōu)缺點并提出改進(jìn)建議。這一步驟對于確保擴(kuò)展內(nèi)容的科學(xué)嚴(yán)謹(jǐn)性和邏輯性至關(guān)重要。
最后,模型識別與分子建模和合成生物學(xué)相關(guān)的最具影響力的科學(xué)問題,并概述關(guān)鍵步驟。模型通過單獨的提示識別每個領(lǐng)域的關(guān)鍵研究問題,并提供詳細(xì)的實驗和模擬計劃。這些計劃包括具體的工具和技術(shù),確保研究假設(shè)不僅具有創(chuàng)新性,還具有可操作性。
圖2:從最初的關(guān)鍵字選擇到最終文檔的整個過程概述,遵循分層擴(kuò)展策略,依次細(xì)化和改進(jìn)答案,用檢索到的數(shù)據(jù)豐富答案,通過識別或關(guān)鍵建模、模擬和實驗任務(wù)進(jìn)行評論和修改。
通過這些方法,SciAgents實現(xiàn)了科學(xué)發(fā)現(xiàn)過程的自動化和智能化。這種創(chuàng)新方法不僅提高了研究效率和精度,還為跨學(xué)科研究提供了新的可能性,展示了AI在科學(xué)發(fā)現(xiàn)中的巨大潛力。
實驗與結(jié)果
實驗設(shè)計
在SciAgents的實驗設(shè)計中,首先需要從知識圖譜中隨機(jī)選擇節(jié)點,并生成連接這些節(jié)點的路徑。這一步驟的目的是通過探索不同的概念組合,發(fā)現(xiàn)潛在的創(chuàng)新研究方向。具體來說,系統(tǒng)會從知識圖譜中隨機(jī)選擇兩個節(jié)點,作為研究的起點和終點。然后,使用啟發(fā)式路徑算法生成連接這兩個節(jié)點的路徑。該算法結(jié)合了節(jié)點嵌入和隨機(jī)路徑點,確保路徑的多樣性和探索性。通過這種方法,系統(tǒng)能夠生成包含豐富概念和關(guān)系的子圖,為后續(xù)的研究假設(shè)生成提供基礎(chǔ)。
圖3:我們的多智能體模型的結(jié)果,以連接關(guān)鍵字“絲綢”和“能源密集型”的知識圖為例,說明了一種新的研究假設(shè)。
圖4:使用(a)隨機(jī)路徑和(b)概念之間的最短路徑從全局圖中提取的連接關(guān)鍵字“絲綢”和“能源密集型”的知識圖。
在生成路徑后,系統(tǒng)會基于路徑中的節(jié)點和關(guān)系生成初步的研究假設(shè)。這個過程涉及使用大型語言模型(LLMs)解析和擴(kuò)展路徑中的概念和關(guān)系,生成詳細(xì)的科學(xué)假設(shè)和研究計劃。初步假設(shè)生成后,系統(tǒng)會進(jìn)一步擴(kuò)展和優(yōu)化這些假設(shè)。具體來說,系統(tǒng)會針對每個研究方面構(gòu)建詳細(xì)的提示,批判性地評估和改進(jìn)科學(xué)內(nèi)容。通過這種迭代過程,系統(tǒng)能夠生成高質(zhì)量的研究假設(shè),并確保其科學(xué)嚴(yán)謹(jǐn)性和邏輯性。
圖5:在第一個提出的用于自動化科學(xué)發(fā)現(xiàn)的多代理方法中實現(xiàn)的Scientist_1 LLM代理的配置文件。AI代理利用本體論者提供的知識圖中的概念定義及其之間的關(guān)系來生成新的研究假設(shè)。
結(jié)果分析
在一個具體的研究案例中,系統(tǒng)選擇了“傳熱性能”和“喙角”作為起始節(jié)點和終點節(jié)點。生成的路徑包含了“層狀結(jié)構(gòu)”、“生物材料”、“微流控芯片”、“角蛋白鱗片”和“仿生材料”等概念。基于這些概念,系統(tǒng)提出了一個研究假設(shè):利用軟光刻技術(shù)將仿生材料的層狀結(jié)構(gòu)(受角蛋白鱗片啟發(fā))工程化到微流控芯片中,以提高其機(jī)械性能和循環(huán)加載條件下的傳熱效率。
圖6:評論家對將絲綢與蒲公英基顏料結(jié)合以創(chuàng)造具有增強(qiáng)光學(xué)和機(jī)械性能的生物材料的研究假設(shè)提出的最有影響力的問題。
預(yù)期結(jié)果:
- 傳熱效率提高20-30%
- 機(jī)械穩(wěn)定性增強(qiáng),失效率降低15%
- 優(yōu)越的生物相容性,適合長期生物醫(yī)學(xué)應(yīng)用
除了傳熱性能與喙角的研究案例,系統(tǒng)還生成了其他多個研究創(chuàng)意。例如,開發(fā)具有分層、互連3D多孔結(jié)構(gòu)的新型膠原蛋白材料,以增強(qiáng)抗撞性、剛度記憶和動態(tài)適應(yīng)性;通過可調(diào)工藝性和納米復(fù)合材料集成適應(yīng)性來增強(qiáng)膠原蛋白支架的機(jī)械性能;研究石墨烯與淀粉樣纖維的相互作用,以創(chuàng)建具有增強(qiáng)電性能的新型生物電子設(shè)備。這些研究創(chuàng)意展示了系統(tǒng)在生成創(chuàng)新性和多樣性研究假設(shè)方面的強(qiáng)大能力。
新穎性和可行性評估
為了評估生成研究假設(shè)的新穎性和可行性,系統(tǒng)使用了Semantic Scholar API。具體來說,系統(tǒng)會調(diào)用API三次,使用不同的關(guān)鍵詞組合搜索相關(guān)文獻(xiàn)。每次調(diào)用返回十篇最相關(guān)的文獻(xiàn),包括其標(biāo)題和摘要。然后,系統(tǒng)會分析這些摘要,評估研究假設(shè)的新穎性,并提供詳細(xì)的評審報告。
通過使用Semantic Scholar API,系統(tǒng)能夠有效地評估研究假設(shè)的新穎性和可行性。結(jié)果顯示,生成的研究假設(shè)在新穎性和可行性方面具有較高的評分。例如,傳熱性能與喙角的研究假設(shè)被評為具有高度新穎性和合理的可行性。這些評估結(jié)果不僅驗證了系統(tǒng)生成假設(shè)的創(chuàng)新性,還確保了其在實際應(yīng)用中的可操作性。SciAgents展示了其在科學(xué)發(fā)現(xiàn)自動化中的巨大潛力。系統(tǒng)不僅能夠生成高質(zhì)量的研究假設(shè),還能通過評估工具確保其新穎性和可行性。
討論
多智能體系統(tǒng)在SciAgents中的應(yīng)用展示了其在科學(xué)發(fā)現(xiàn)中的巨大潛力。通過將不同角色分配給各個智能體,如路徑生成、深度分析、假設(shè)制定和批判性審查,系統(tǒng)能夠有效地管理科學(xué)研究的復(fù)雜性。這種分工協(xié)作不僅提高了研究效率,還確保了每個研究步驟的專業(yè)性和準(zhǔn)確性。此外多智能體系統(tǒng)具備現(xiàn)場學(xué)習(xí)能力,能夠根據(jù)實時數(shù)據(jù)和反饋不斷優(yōu)化其行為和決策。這種動態(tài)適應(yīng)性使得SciAgents不僅能夠生成高質(zhì)量的研究假設(shè),還能在研究過程中不斷改進(jìn)和完善這些假設(shè),推動科學(xué)發(fā)現(xiàn)的進(jìn)程。
圖7:流程圖顯示了多智能體團(tuán)隊成員在群聊管理器的協(xié)調(diào)下自主開發(fā)的動態(tài)交互,通過圖推理生成研究假設(shè)。
SciAgents通過將科學(xué)發(fā)現(xiàn)過程分解為可管理的子任務(wù),實現(xiàn)了系統(tǒng)化的知識探索。每個智能體在系統(tǒng)中扮演特定角色,負(fù)責(zé)處理特定的研究任務(wù)。例如,路徑生成智能體負(fù)責(zé)在知識圖譜中找到連接關(guān)鍵概念的路徑,深度分析智能體則負(fù)責(zé)解析和擴(kuò)展這些路徑中的概念和關(guān)系。通過這種分工協(xié)作,系統(tǒng)能夠高效地處理復(fù)雜的科學(xué)問題,生成具有創(chuàng)新性和可行性的研究假設(shè)。
在實驗中,SciAgents展示了其生成高新穎性和可行性假設(shè)的能力。系統(tǒng)通過隨機(jī)選擇節(jié)點和生成路徑,探索不同的概念組合,發(fā)現(xiàn)潛在的創(chuàng)新研究方向。然后,使用大型語言模型(LLMs)解析和擴(kuò)展路徑中的概念和關(guān)系,生成詳細(xì)的科學(xué)假設(shè)和研究計劃。通過這種方法,系統(tǒng)能夠生成具有高度新穎性和合理可行性的研究假設(shè)。例如,在傳熱性能與喙角的研究案例中,系統(tǒng)提出了利用軟光刻技術(shù)將仿生材料的層狀結(jié)構(gòu)工程化到微流控芯片中的假設(shè),并預(yù)測了其在傳熱效率和機(jī)械穩(wěn)定性方面的顯著提升。
圖8:從全局知識圖中隨機(jī)選擇的概念的隨機(jī)抽樣得出的知識圖。
研究貢獻(xiàn)
SciAgents展示了AI在科學(xué)假設(shè)生成與優(yōu)化中的巨大潛力。通過結(jié)合大規(guī)模本體知識圖譜、大型語言模型和多智能體系統(tǒng),SciAgents能夠自動生成和優(yōu)化研究假設(shè),揭示跨學(xué)科的隱藏關(guān)系,超越傳統(tǒng)人類驅(qū)動的研究方法。這種創(chuàng)新方法不僅提高了研究效率和精度,還為跨學(xué)科研究提供了新的可能性,展示了AI在科學(xué)發(fā)現(xiàn)中的重要作用。
圖9:規(guī)劃器代理根據(jù)用戶的查詢制定的計劃,由自治系統(tǒng)開發(fā),從隨機(jī)關(guān)鍵字生成研究假設(shè)。
為了確保生成研究假設(shè)的新穎性和可行性,SciAgents集成了評估工具,如Semantic Scholar API。系統(tǒng)通過調(diào)用API搜索相關(guān)文獻(xiàn),分析摘要,評估研究假設(shè)的新穎性,并提供詳細(xì)的評審報告。這種評估工具的整合不僅驗證了系統(tǒng)生成假設(shè)的創(chuàng)新性,還確保了其在實際應(yīng)用中的可操作性。
圖10:SciAgents展示了生成材料信息學(xué)的框架,展示了由輸入數(shù)據(jù)、問題和上下文驅(qū)動的構(gòu)思和推理的迭代過程。
未來工作方向
未來的研究可以探索增加能夠進(jìn)行實驗或從模擬研究中獲取數(shù)據(jù)的智能體。這些智能體可以通過執(zhí)行具體的實驗和模擬任務(wù),進(jìn)一步驗證和優(yōu)化研究假設(shè)。例如,分子動力學(xué)(MD)模擬智能體可以模擬分子層面的相互作用,合成生物學(xué)智能體可以設(shè)計和執(zhí)行基因編輯實驗。這種擴(kuò)展將使SciAgents能夠生成更為全面和詳細(xì)的研究計劃,進(jìn)一步提高其科學(xué)發(fā)現(xiàn)的能力。
SciAgents采用的模塊化方法提供了極大的靈活性,使其能夠適應(yīng)不同的研究需求和場景。未來的研究可以探索更多的模塊化擴(kuò)展,例如增加新的智能體角色或集成新的數(shù)據(jù)源。這種靈活性使得SciAgents能夠不斷進(jìn)化和優(yōu)化,適應(yīng)不斷變化的科學(xué)研究環(huán)境,推動科學(xué)發(fā)現(xiàn)的進(jìn)程。
SciAgents展示了其在科學(xué)發(fā)現(xiàn)自動化中的巨大潛力。系統(tǒng)不僅能夠生成高質(zhì)量的研究假設(shè),還能通過評估工具確保其新穎性和可行性。這種創(chuàng)新方法為科學(xué)研究提供了新的可能性,展示了AI在推動科學(xué)進(jìn)步中的重要作用。未來的研究可以進(jìn)一步擴(kuò)展和優(yōu)化SciAgents,使其在科學(xué)發(fā)現(xiàn)中發(fā)揮更大的作用。(END)
參考資料:https://arxiv.org/pdf/2409.05556
本文轉(zhuǎn)載自??大噬元獸??,作者: FlerkenS ????
