ACL25 | DOLPHIN,Closed-loop Auto-research系統來幫你自動做科研了!
今天分享一篇上海人工智能實驗室 的文章,標題為 DOLPHIN: Moving Towards Closed-loop Auto-research through Thinking, Practice, and Feedback (DOLPHIN:通過思考、實踐和反饋邁向閉環自動化研究)。這篇文章介紹了一個名為DOLPHIN的閉環、LLM驅動的框架,旨在提升科學研究的自動化水平。該框架模擬人類研究過程,通過迭代循環進行思考(想法產生)、實踐(實驗驗證)和反饋(結果分析)。DOLPHIN的方法主要包括三個關鍵階段:1) 想法產生:基于先前實驗的反饋和根據主題、任務屬性排序的相關論文來產生新穎的想法。2) 實驗驗證:使用經過優化的代碼模板(通過異常-回溯引導的局部代碼結構進行調試)來實現和執行生成的想法。3) 結果反饋:自動分析每個想法的實驗結果,并將這些結果反饋到下一輪的想法產生中,形成閉環。
該方法特點總結如下:
1.閉環自動化研究:首次提出了一個完整的閉環自動化研究框架,涵蓋了從想法產生、實驗驗證到結果反饋的整個研究周期。
2.高質量想法生成與篩選:通過任務屬性引導的論文排序和想法過濾機制(新穎性、獨立性檢查),提高了生成想法的質量和相關性。
3.高效的實驗驗證:設計了異常-回溯引導的調試過程,提高了代碼執行的成功率,使得實驗能夠有效進行。
4.持續學習與改進:通過反饋機制,系統能夠從過去的成功和失敗中學習,在迭代過程中持續提升性能。
一、概述
- ?Title:DOLPHIN: Moving Towards Closed-loop Auto-research through Thinking, Practice, and Feedback
- ?URL:?? https://arxiv.org/abs/2501.03916v3??
- ?Authors:Jiakang Yuan, Xiangchao Yan, Shiyang Feng, Bo Zhang, Tao Chen, Botian Shi, Wanli Ouyang, Yu Qiao, Lei Bai, Bowen Zhou
- ?Code:?? https://github.com/Alpha-Innovator/Dolphin??
1.Motivation
- ?現有自動化研究的局限性:目前AI輔助的研究方法在提高效率方面取得了進展,但距離全自動科學研究仍有距離。許多現有工作在評估AI生成的想法時,主要依賴人類評估或LLM評估想法的新穎性,而缺乏在真實數據集上的實驗驗證,這使得想法的實際有效性難以衡量。
- ?缺乏反饋機制:先前的一些自動化研究工作(如AI-Scientist)雖然包含了實驗驗證,但它們通常在自建的簡單數據集上進行,且缺乏一個將實驗結果反饋到想法產生階段的機制。人類研究者會根據實驗結果迭代地改進想法,這種反饋對于提升研究質量至關重要,但在現有自動化系統中缺失。
- ?提升自動化水平的需求:為了進一步推動科學研究的自動化,需要一個能夠模擬人類研究者進行思考、實踐、并從反饋中學習的閉環系統,以持續產出高質量的研究成果。
2.Methods
省流版總結:
DOLPHIN 提出了一種閉環的 LLM 驅動自動研究框架。它模擬人類研究周期,通過 想法生成、實驗驗證 和 結果反饋 三個關鍵階段形成一個閉環,實現對特定研究主題的持續性能改進。想法生成階段利用LLM和篩選后的論文生成新穎想法;實驗驗證階段將想法轉化為可執行代碼并智能調試;結果反饋階段分析實驗結果并將其融入下一輪的想法生成,從而不斷優化研究質量和效率。
詳細方法和步驟:
論文提出的 DOLPHIN 框架是一個閉環的LLM驅動的自動研究框架,其核心流程包括三個階段:
(1) Idea生成過程 (Ideas Generation Process)
論文檢索與排序 (Paper Retrieval and Ranking):DOLPHIN 首先使用 Semantic Scholar API 檢索相關論文,獲取標題和摘要等關鍵信息。為了過濾掉不相關的論文,設計了一個任務屬性引導的論文排序過程。LLM(首先提取輸入主題的任務屬性(例如:模型輸入、輸出等),然后根據任務相關性和任務屬性對齊度對每篇檢索到的論文進行評分(1-10分)。只保留得分高于8分的論文作為后續想法生成的參考。
想法生成與過濾 (Ideas Generation and Filtering):新生成的想法會計算其embedding并與想法庫中現有想法的余弦相似度。如果最大相似度超過預設閾值(例如0.8),則認為該想法是冗余的并被丟棄。對于剩余的想法,LLM 還會進行新穎性檢查,判斷想法是否基于現有文獻(通過 Semantic Scholar API 搜索到的論文)是新穎的。只有被識別為新穎且獨立的想法才能進入實驗驗證階段。
(2)實驗驗證過程 (Experimental Verification Process)
實驗計劃與代碼生成 (Experiment Plan and Code Generation):給定一個想法和參考代碼(通常是基線模型的代碼),LLM(deepseek-v2.5)首先生成詳細的實驗計劃,然后根據想法和計劃修改參考代碼。
異常回溯引導的調試過程 (Exception-Traceback-Guided Debugging):
? 為了解決LLM生成代碼執行成功率較低的問題,DOLPHIN 設計了一個調試模塊。
? 當代碼執行出現錯誤時,首先從異常回溯信息中提取函數名、行號和代碼等信息,但僅關注自定義代碼,排除庫函數調用。
? LLM 在提取的異常回溯信息的指導下,生成與錯誤相關的本地代碼結構。
? 然后,LLM 分析異常回溯和本地代碼結構,進行必要的修改,實現代碼的自動執行。
? 調試過程會重復進行,直到成功執行或達到預設的最大調試次數(例如5次)。
(3)結果反饋過程 (Results Feedback Process)
?實驗結果分析與分類 (Result Analysis and Categorization):DOLPHIN 自動分析成功執行的實驗結果,并根據與參考代碼的性能對比,將結果分為三類:提升 (improvement)、維持 (maintenance)和下降 (decline)。
?反饋整合 (Feedback Integration):
為了避免重復驗證無效想法,DOLPHIN 將那些性能維持或提升的想法摘要嵌入到想法庫 B 中。這樣,在下一輪想法生成時,與這些先前未能提升性能的想法相似的新想法將被過濾掉。
同時,那些能夠提升性能的想法的摘要會被整合到下一輪想法生成的提示中,引導LLM生成更有效的想法。
3.Conclusion
?實現了首個閉環自動研究框架:DOLPHIN 成功構建了一個集想法生成、實驗驗證和結果反饋于一體的閉環自動研究框架,有效提升了科學研究的自動化水平。
?生成與SOTA相當的高質量想法:在3D點云分類、2D圖像分類和情感分類等基準數據集上的實驗結果表明,DOLPHIN 能夠自動提出與當前人類設計SOTA方法性能相當甚至更優的方法。
?顯著提高了研究效率:通過任務屬性引導的論文排序提升了想法生成效率,以及異常回溯引導的調試過程顯著提高了代碼執行成功率,使得整個自動研究過程更加高效。
? (Case Study) DOLPHIN (左側) 和人類研究者 (右側) 在3D點云分類任務中生成的想法和代碼對比:
image-20250610170501160
DOLPHIN 生成了一個名為“Contextual Semantic Reasoning”的想法,并提供了相應的代碼實現,該實現采用了基于圖的方法來建模點云中的語義關系。這里顯示,DOLPHIN 能夠提出與人類設計模型(如 DGCNN)相當甚至更簡潔有效的解決方案,從而驗證了其自動研究能力。
4.Limitation
?知識泄露與理解深度不足:在想法生成階段,LLMs可能保留其訓練數據中的歷史知識,導致生成想法時存在知識泄露的風險。此外,僅使用論文摘要和標題進行想法生成可能導致LLM無法深入理解文章的技術細節和邏輯關系。
?對復雜項目級代碼支持不足:LLMs 的代碼能力目前尚不足以理解和修改復雜的項目級代碼,這使得 DOLPHIN 難以驗證當前復雜的任務。
?仍需人工輔助:盡管框架已實現自動化,但仍需人工審查和評估生成結果,以確保符合倫理實踐,并規避潛在的偏見或不完整想法。
二、總結
結論1: DOLPHIN開創了閉環自動科學研究的新范式。 首次提出了一個由大型語言模型驅動的閉環框架,將想法生成、實驗驗證和結果反饋無縫集成,實現了研究過程的自動化和迭代優化。這對于加速科學發現、降低研發成本具有開創性意義。
結論2: DOLPHIN能夠生成高質量、可媲美甚至超越人類SOTA水平的科學想法和實現。 通過任務屬性引導的論文排序和基于embedding相似度去重,DOLPHIN能夠提出新穎且非冗余的想法。實驗結果表明,在3D點云分類等任務上,其自動生成的方法能夠達到或超越當前人類設計的SOTA模型,且實現方式更加簡潔高效。
結論3: 魯棒的異常回溯調試機制是LLM驅動代碼執行的關鍵突破。 論文設計的異常回溯引導的本地代碼結構分析和調試過程,有效解決了LLM生成代碼執行成功率低的痛點。這一創新機制使得DOLPHIN能夠將想法可靠地轉化為可運行的代碼并進行驗證,為未來更復雜的LLM驅動自動化任務奠定了基礎。
產業應用價值:
?算法/模型自動優化: 在機器學習和人工智能領域,DOLPHIN的思路可以直接應用于模型架構搜索、超參數優化、新算法組件的自動設計與驗證等,從而提升現有AI模型的性能。
?新藥研發/材料發現: 在生物醫藥、材料科學等高度依賴實驗和迭代的領域,類似的閉環自動化系統可以用于高通量篩選化合物、設計新材料配方,并自動進行模擬實驗或指導機器人進行真實實驗。
?自動化A/B測試與產品迭代: 在互聯網和軟件行業,該框架可以啟發設計更智能的A/B測試系統,自動生成產品改進方案,進行小規模線上實驗,并根據用戶反饋數據進行快速迭代。
?機器人與自動化控制: 在機器人領域,可以用于自動探索新的控制策略或機器人行為,并通過仿真或真實環境實驗進行驗證和優化。
?局限性考量: 當前階段,由于LLM在復雜邏輯推理、長程代碼依賴理解以及真實世界物理交互方面的局限,DOLPHIN更適合作為強大研究助手或在定義明確的子問題上進行自動化探索。距離完全取代復雜領域的人類專家進行開創性研究還有很長的路要走,但在特定任務的自動化和效率提升方面已展現出巨大潛力。
本文轉載自???NLP PaperWeekly???,作者:NLP PaperWeekly
