ACL2024 ｜利用GPT4構建的多Agent系統自動發現科學假設

發布于 2025-1-3 12:34

瀏覽

0收藏

今天分享一篇來自南陽理工的一篇文章《Large Language Models for Automated Open-domain Scientific Hypotheses Discovery》。本研究的目標是探索如何使用大型語言模型，尤其是GPT-4，來自動發現科學假設。目前假設性歸納研究的局限性在于使用的數據不是原始網絡語料庫，而是手動選擇后的句子，導致了來源較為封閉；同時，現有的假設標注大多是常識性知識，任務挑戰性不足。本文提出了首個針對社會科學學術假設發現的自然語言處理（NLP）數據集，該數據集包含了50篇最新發布于頂級社會科學期刊的論文，以及發展這些論文中假設所必需的原始網絡語料庫。同時提出了一個MooSE框架，驗證了利用GPT4構建的多Agent系統直接從web raw corpus自動發現科學假設的可行性。

ACL2024 ｜利用GPT4構建的多Agent系統自動發現科學假設-AI.x社區圖片

? Title: Large Language Models for Automated Open-domain Scientific Hypotheses Discovery

? URL:?? https://arxiv.org/abs/2309.02726??

? Code：?? https://github.com/zongliny/moose??

1 Motivation

? 假設歸納被認為是科學家對世界進行觀察并嘗試提出假設來解釋這些觀察結果時的主要推理類型。現有的假設歸納研究有兩個局限

a.受限于人工選定的句子，而非原始網絡語料，導致其來源較為封閉；

b.現有研究中的ground truth假設多為常識性知識，使得任務挑戰性降低。

? 如何基于最原始網絡語料，自動觀察并提出對人類而言都是全新的科學假設非常有意義。

2 Methods

這篇論文首次提出了一個用于社會科學學術假設發現的自然語言處理（NLP）數據集，并嘗試實現一個MOOSE框架去解決該問題。

數據集特點：

? 該數據集由50篇最近發表在頂級社會科學期刊上的論文組成。

? 收集了提出這些論文中假設所需的原始網絡語料庫。

最終目標：是創建一個系統，只給予一堆原始網絡語料庫，便能自動生成有效、新穎且對人類研究者有幫助的假設。

2.1 數據集步驟

1. 選擇論文：從頂級社會科學期刊選擇50篇在2023年1月之后發表的論文。涵蓋社會科學如心理學、人力資源管理、信息系統等領域。

2. 專家標注：對于每一篇選定的論文，社會科學研究領域的專家會收集其主要假設，并識別其背景和靈感來源（background + inspirations -> hypothesis） => reasoning process。然后，專家們會在網絡語料庫中找到與這些背景和靈感相似的內容，并收集每個匹配內容的完整段落，這些段落作為原始網絡語料庫的一部分。

3. 避免數據污染：沒有直接復制論文的背景和靈感，嘗試在raw web courpus中找到語義上相似的文本內容作為替代。以實現本文提到的從raw web corpus提出research hypotheses的目標。

4. 收集相關材料：還收集了所有50篇論文的鏈接，以及相關的14篇survey文章（這些survey論文可能有助于檢查假設的新穎性）。

5. 數據集構建：最終，這個數據集完全由一位社會科學研究領域的博士生構建完成。文檔中提到，由于數據集涉及許多手動選擇過程，因此這些手動選擇的內容更多地被用作基準人類性能的比較。

2.2 MOOSE框架介紹

MOOSE（MultimOdule framewOrk with paSt present future feEdback）的多模塊框架，用于自動化開放領域科學假設的發現（TOMATO任務）。其特點是結合了大型語言模型的生成能力和復雜的反饋機制，以自動化地從大量文本數據中發現和提煉出可能對科學研究有價值的新假設。

ACL2024 ｜利用GPT4構建的多Agent系統自動發現科學假設-AI.x社區

整體框架：

1. 基礎框架（MOOSE-base）：MOOSE框架的核心是一個基礎多模塊框架，它模擬了社會科學研究者提出初始研究假設的過程。這個過程包括以下幾個步驟：

? 背景發現器（Background Finder）：模塊通過閱讀原始網絡語料庫來尋找合適的研究背景。

? 靈感標題發現器（Inspiration Title Finder）：在找到背景后，模塊搜索與背景相關的標題，以幫助找到可能的靈感來源。

? 靈感發現器（Inspiration Finder）：根據選定的標題，模塊在相關文檔中找到能夠啟發假設形成的句子或段落。

? 假設提議器（Hypothesis Proposer）：利用背景和靈感來提出研究假設。

2. 反饋機制：為了提高生成假設的質量，MOOSE框架引入了三種反饋機制：

? 即時反饋（Present-Feedback）：當某個模塊的輸出可以被直接評估時，通過其他大型語言模型（LLMs）提供反饋，模塊可以根據反饋和之前的生成結果進行再生成，以改進輸出。

? 過去反饋（Past-Feedback）：在無法直接評估某個模塊的輸出時，框架繼續運行直到生成可以評估的輸出，然后利用這些信息為之前的模塊提供反饋（例如生成Inspiration Title時，可能沒法直接評價好壞，可以等依賴Inspiration Title生成具體Hypothesis后，通過評估Hypothesis質量反推當時生成Title的效果）。

a.說明：在文中提出的MOOSE框架中，Past-feedback被應用于Inspiration Title Finder模塊。Inspiration Title Finder的任務是從大量文本標題中找出可能對形成科學假設有啟發性的標題。然而，直接評估這些標題的質量和相關性可能比較困難，因為它們是否能夠激發出有意義的假設還未知。因此，系統會先繼續運行，直到生成一個假設（hypothesis），這個假設受到之前選擇的標題的影響，并且可以被直接評估。然后，系統會使用這個假設和它的評估結果作為反饋，來改進之前選擇的標題。如果一個假設經過評估被認為是新穎且合理的，那么可以推斷出啟發這個假設的標題是合適的，反之亦然。通過這種方式，系統可以在未來的迭代中選擇更好的標題，以提高最終假設的質量。Past-feedback的關鍵在于，它允許系統從未來的評估中學習，并利用這些知識來改進過去的決策，這在某些復雜的生成任務中是非常有用的。

b.未來反饋（Future-Feedback）：為后續模塊提供額外信息，幫助它們生成更高質量的輸出。包括提供輸出的理由（FF1）和在關鍵模塊前插入一個輔助模塊來分擔推理負擔（FF2）。

1. Future-feedback-1 (FF1): 這種類型的反饋機制涉及到為后續模塊提供當前輸出的解釋或理由。不僅僅是提供生成的假設本身（oi），還提供生成這些假設的理由或解釋，這樣后續模塊（Mj，j>i）就可以更好地利用這些信息。例如，在MOOSE框架中，Background Finder和Inspiration Title Finder模塊被修改為不僅生成背景或標題，還提供選擇它們的理由。這樣做的目的是幫助后續模塊更全面地理解所提供的信息，并在此基礎上生成更深入、更有針對性的假設。

2. Future-feedback-2 (FF2): 這種類型的反饋機制涉及到在關鍵模塊之前插入一個額外的模塊，以分擔一些推理負擔。例如，在MOOSE框架中，Hypothesis Proposer模塊負責提出假設，這是一個復雜且重要的任務。為了提高這個模塊的輸出質量，框架在Hypothesis Proposer之前引入了一個Hypothesis Suggestor模塊（作為Mj?0.5），它的任務是提供初步的建議，如何利用背景和靈感來構建假設。然后，Hypothesis Proposer模塊可以根據這些建議進一步發展出更新穎、更復雜的假設。（看著有點像COT的思考過程）

? Future-feedback是文中提出的另一種反饋機制，旨在為未來的模塊生成提供額外有用的信息，以提高生成質量。具體來說，Future-feedback關注于如何幫助后續模塊更有效地利用當前模塊的輸出來生成更高質量的結果。在MOOSE框架中，Future-feedback分為兩種類型：Future-feedback-1 (FF1) 和 Future-feedback-2 (FF2)。總結：Future-feedback的目的是增強模塊間的協作，通過提供額外的解釋、理由或初步建議，幫助后續模塊更有效地利用前一個模塊的輸出，從而提高整個系統生成假設的質量和新穎性。

特點：

? 模塊化設計：MOOSE框架采用模塊化設計，每個模塊負責一個特定的任務，并且可以獨立優化和改進。

? 迭代反饋：通過引入反饋機制，MOOSE框架能夠不斷迭代和改進生成的假設，提高了假設的質量和新穎性。

? 自動化和開放領域：MOOSE框架旨在自動化地從開放領域的原始網絡語料庫中生成科學假設，無需人工干預。

? 多方面評估：MOOSE框架不僅關注假設的新穎性，還包括有效性、一致性和清晰度等多個評估方面，以確保生成的假設對科學研究具有實際幫助。

3 Conclusion

? 構建了一個領先的NLP數據集，適用于開放域的科學假設發現。

? 提出了多模塊框架MOOS以及三種反饋機制，有助于提高假設生成的效果，驗證了從網絡raw corpus生成科學假設的有效性。

二、詳細內容

1.FeedBack模塊對最終生成結果的影響

GPT4評估結果

ACL2024 ｜利用GPT4構建的多Agent系統自動發現科學假設-AI.x社區

人類專家評估結果：

ACL2024 ｜利用GPT4構建的多Agent系統自動發現科學假設-AI.x社區

結論1：MOOSE-base 在新穎性和有幫助性方面表現優于基線模型，但在有效性方面略低。

結論2：加入未來反饋的MOOSE能提升整體表現。所有指標都有所提升。

結論3:：同時加入未來反饋和過去反饋的MOOSE在新穎性方面有顯著提升。可能意味著過去反饋更側重于提升假設的新穎性，但可能以犧牲一定程度的有效性和有幫助性為代價。

2.Present-feedback迭代次數對性能的影響（GPT4）

GPT4評估結果

ACL2024 ｜利用GPT4構建的多Agent系統自動發現科學假設-AI.x社區

人類專家評估結果：

ACL2024 ｜利用GPT4構建的多Agent系統自動發現科學假設-AI.x社區

結論1：present-feedback對于提高假設生成系統的性能是有效的，可以顯著提高生成假設的有效性、新穎性和對研究人員的幫助程度。

結論2：隨著反饋迭代次數的增加，性能提升效果持續，但可能存在一個最佳的迭代次數，超過這個次數后性能提升的邊際效益可能減少。

3 background選擇方法和Inspirations選擇方法對實驗結果的影響

ACL2024 ｜利用GPT4構建的多Agent系統自動發現科學假設-AI.x社區

實驗設置：

1. 目的：分析不同的背景（background）和靈感（inspirations）檢索方法對于最終生成的科學假設的質量有何影響。

2. 檢索方法：

? 隨機選擇背景和隨機選擇靈感（Random background and rand inspirations）。

? 隨機選擇背景和使用 BM25 算法選擇靈感（Rand background and BM25 inspirations）。

? 使用 GPT-3.5 選擇背景和靈感（GPT-3.5 picked background and inspirations）。

實驗結論：

結論1: 選擇背景和靈感的方法對生成假設的有效性、新穎性和有幫助性有顯著影響，隨機選擇背景和靈感能夠產生相對新穎的假設，但有效性和有幫助性較低。

結論2: BM25 在新穎性方面表現較好，而真實背景和靈感在有效性和有幫助性方面表現最佳。

結論3: GPT-3.5挑選的背景和靈感在有幫助性方面表現最佳，且在新穎性方面也表現不錯。

結論4: 利用Groundtruth background and inspirations生成的Hypotheses與真實的Hypotheses相比，新穎性方面得分并不高但是Validness比較高，可能是因為它們基于已有的研究成果。說明可能需要在Novelty和Validness之間找到平衡。

4.其他消融實驗

ACL2024 ｜利用GPT4構建的多Agent系統自動發現科學假設-AI.x社區

結論1: Future Feedback（特別是 FF2），對假設生成的質量有顯著影響，能夠提高新穎性和有效性。

結論2: 引入related survey對新穎性評估有重要影響，切斷與相關調查的訪問會提高新穎性。因為BM25檢索到的相關調查內容較少，導致新穎性檢測器傾向于認為假設是新穎的。

結論3: 語料庫的選擇和使用方式也會影響生成假設的新穎性和有效性。使用randomized corpus策略選擇數據，有效性得分略有提高，而新穎性得分下降。這可能是因為在這種設置下，MOOSE 傾向于選擇與背景相同靈感語料庫的靈感，導致結果不夠新穎。

? 先前的實驗：background passages -> backgrounds and inspirations passages -> inspirations

? w/ randomized corpus : inspiration corpus -> background, inspiration and background corpus -> inspiration extraction

三、總結

這篇論文提出了首個用于社會科學學術假設發現的NLP數據集，并開發了一個多模塊框架MOOSE以及三種不同的反饋機制，用以自動地生成科學假設。該方法不僅提高了生成假設的質量和新穎性，也驗證了大型語言模型在科學研究中自動化發現新假設的潛力。

結論1: 該研究首次發布了開放域科學假設發現的NLP數據集，填補了現有領域中的空白。

結論2: 論文提出的多模塊框架和三種反饋機制（Present、Future、Past）顯著提升了假設生成的性能，在多項評估中表現優異。

結論3：在生成科學假設時通常會遇到的一個權衡問題，即有效性（validness）與新穎性（novelty）之間的權衡。通常如果一個方法或系統在生成假設時達到了高新穎性，那么它很難同時達到高有效性。

本文轉載自 ??NLP PaperWeekly??，作者： NLP PaperWeekly

標簽

GPT4

Agent

系統

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂