AMD發(fā)布科研Agent，論文自動化評分趨近頂會NeurIPS水平！

發(fā)布于 2025-1-13 10:20

瀏覽

0收藏

科學(xué)發(fā)現(xiàn)漫長且成本高昂，為了加速科學(xué)發(fā)現(xiàn)，降低研究成本，并提高研究質(zhì)量，芯片廠商AMD推出了Agent Laboratory，這是一個基于自主大型語言模型（LLM）的框架，能夠完成整個研究流程。

Agent Laboratory接受人類研究想法和一組筆記作為輸入，將其提供給一系列由LLM驅(qū)動的專門Agent組成的流程線，并產(chǎn)生研究報(bào)告和代碼倉庫。

AMD發(fā)布科研Agent，論文自動化評分趨近頂會NeurIPS水平！-AI.x社區(qū)

Agent Laboratory接受人類提供的研究想法，并通過三個階段——文獻(xiàn)綜述、實(shí)驗(yàn)和報(bào)告撰寫——來產(chǎn)生全面的研究成果，包括代碼倉庫和研究報(bào)告，同時允許用戶在每個階段提供反饋和指導(dǎo)。邀請多位研究人員通過參與調(diào)查、提供人類反饋來指導(dǎo)研究過程，并評估最終論文：

由o1-preview驅(qū)動的Agent Laboratory產(chǎn)生了最佳的研究成果；

AMD發(fā)布科研Agent，論文自動化評分趨近頂會NeurIPS水平！-AI.x社區(qū)

生成的機(jī)器學(xué)習(xí)代碼能夠與現(xiàn)有方法相比達(dá)到最先進(jìn)的性能；
人類的參與，即在每個階段提供反饋，顯著提高了研究的整體質(zhì)量

自動化評估，按頂會NeurIPS標(biāo)準(zhǔn)，論文（6.1/10）接近了頂會NeurIPS接受論文的平均得分（5.9/10）
而人類評估論文得分只有3.8/10，和自動化評估之間出現(xiàn)了一定差距

AMD發(fā)布科研Agent，論文自動化評分趨近頂會NeurIPS水平！-AI.x社區(qū)

在協(xié)作模式（人類指導(dǎo)）下評估Agent Laboratory，評分由3.8提升到4.38（+0.58，NeurIPS接受論文的平均得分是5.9）。自選主題在實(shí)用性（+0.5）、繼續(xù)使用（+0.5）和滿意度（+0.25）方面普遍獲得了更高的評分。

AMD發(fā)布科研Agent，論文自動化評分趨近頂會NeurIPS水平！-AI.x社區(qū)

Agent Laboratory顯著降低了研究費(fèi)用，與之前的自主研究方法相比，實(shí)現(xiàn)了84%的減少。

Agent Laboratory是如何工作的？

Agent Laboratory包含三個主要階段，系統(tǒng)地指導(dǎo)研究過程：

文獻(xiàn)綜述
實(shí)驗(yàn)，
報(bào)告撰寫

在每個階段，由LLM驅(qū)動的專門代理協(xié)作完成特定目標(biāo)，整合外部工具，如arXiv、Hugging Face、Python和LaTeX，以優(yōu)化結(jié)果。這個結(jié)構(gòu)化的工作流程從獨(dú)立收集和分析相關(guān)研究論文開始，通過協(xié)作規(guī)劃和數(shù)據(jù)準(zhǔn)備，最終實(shí)現(xiàn)自動化實(shí)驗(yàn)和全面報(bào)告生成。具體代理角色及其在這些階段的貢獻(xiàn)在論文中有詳細(xì)討論。模塊化設(shè)計(jì)確保了計(jì)算靈活性，適應(yīng)不同的資源可用性，同時保持生成高質(zhì)量研究成果的效率。

Agent Laboratory工作流程

AMD發(fā)布科研Agent，論文自動化評分趨近頂會NeurIPS水平！-AI.x社區(qū)

解決ML問題

進(jìn)行研究的第一步是構(gòu)建解決ML問題的能力。Agent Laboratory通過mle-solver來實(shí)現(xiàn)這一點(diǎn)。這個工具作為一個通用的ML代碼求解器，將前一階段的研究方向作為文本輸入，并迭代改進(jìn)研究代碼。為了實(shí)現(xiàn)這一點(diǎn)，一組頂級程序根據(jù)輸入（如任務(wù)指令、命令描述和提煉的知識）進(jìn)行迭代改進(jìn)，以根據(jù)評分函數(shù)提高實(shí)驗(yàn)結(jié)果。通過兩個命令生成一系列更改：REPLACE（重寫所有代碼）和EDIT（修改特定行）。成功編譯的代碼根據(jù)評分更新頂級程序，而錯誤則提示最多三次修復(fù)嘗試，然后嘗試新代碼。代理會反思每一步，以優(yōu)化結(jié)果。

mle-solver工作流程概覽

AMD發(fā)布科研Agent，論文自動化評分趨近頂會NeurIPS水平！-AI.x社區(qū)

撰寫研究報(bào)告

第二步是根據(jù)實(shí)驗(yàn)設(shè)計(jì)和結(jié)果生成研究報(bào)告。為此，引入了paper-solver，專注于報(bào)告生成。這個模塊作為結(jié)果和代碼到報(bào)告的生成器，將前一實(shí)驗(yàn)階段的輸出和發(fā)現(xiàn)總結(jié)成人類可讀的學(xué)術(shù)論文。paper-solver綜合前一階段的研究，為研究人員提供清晰的成就總結(jié)。輸入包括研究計(jì)劃、實(shí)驗(yàn)結(jié)果、衍生見解和文獻(xiàn)綜述，輸出格式適合會議提交的標(biāo)準(zhǔn)學(xué)術(shù)論文格式。

paper-solver的圖形概述

AMD發(fā)布科研Agent，論文自動化評分趨近頂會NeurIPS水平！-AI.x社區(qū)

https://github.com/SamuelSchmidgall/AgentLaboratory
https://agentlaboratory.github.io/
https://arxiv.org/pdf/2501.04227

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽

AMD

Agent

NeurIPS

贊

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

手把手教你使用用AI自動化制作PPT

pangguiyu ? 3396瀏覽 ? 0回復(fù)
盤點(diǎn)六大Devin替代方案：自動化你的編程任務(wù)

51CTO技術(shù)棧 ? 6456瀏覽 ? 0回復(fù)
ResearchAgent: 利用agent自動生成論文idea，再也不用擔(dān)心做科研沒有思路了

arnoldzhw ? 6254瀏覽 ? 0回復(fù)
如何構(gòu)建終極的AI自動化系統(tǒng)：多代理協(xié)作指南

ermulong ? 3483瀏覽 ? 0回復(fù)
革新GUI自動化：V-Zen模型引領(lǐng)多模態(tài)語言模型新紀(jì)元

AI論文解讀 ? 3298瀏覽 ? 0回復(fù)
OpenDevin自動化代碼生成工具評述

zhcs333 ? 3605瀏覽 ? 0回復(fù)
OpenDevin自動化代碼生成工具評述

zhcs333 ? 6373瀏覽 ? 0回復(fù)
RePrompt：提示詞自動化優(yōu)化策略

大語言模型論文跟蹤 ? 4884瀏覽 ? 0回復(fù)
基于LangGraph多智能體技術(shù)，搭建AI寫作自動化系統(tǒng)

小虎哦哦 ? 4469瀏覽 ? 0回復(fù)
AI科學(xué)家：大模型全自動化撰寫科研論文

AIRoobt ? 4373瀏覽 ? 0回復(fù)
使用TAG和RAG實(shí)現(xiàn)摘要和標(biāo)簽的自動化來簡化客戶反饋分析

51CTO內(nèi)容精選 ? 2737瀏覽 ? 0回復(fù)
RD-Agent：助力研發(fā)流程自動化的AI創(chuàng)新工具

Halo咯咯 ? 3302瀏覽 ? 0回復(fù)
數(shù)據(jù)分析自動化：LIDA智能可視化的魔法！

Halo咯咯 ? 2792瀏覽 ? 0回復(fù)
借助LLM實(shí)現(xiàn)模型選擇和試驗(yàn)自動化

51CTO內(nèi)容精選 ? 2436瀏覽 ? 0回復(fù)
自動化漏洞修復(fù)：從基于模板的方法到AI代理的演變

51CTO內(nèi)容精選 ? 1677瀏覽 ? 0回復(fù)
5個極其有用的 Python 自動化腳本

wx67f8a73a40259 ? 1014瀏覽 ? 0回復(fù)
快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025

快手技術(shù) ? 1628瀏覽 ? 0回復(fù)
【一文讀懂】機(jī)器人流程自動化（RPA）和智能自動化（IA）

碼農(nóng)隨心筆記 ? 832瀏覽 ? 0回復(fù)
Agentic Workflows帶來自動化新突破

Halo咯咯 ? 1007瀏覽 ? 0回復(fù)

PaperAgent

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學(xué)堂

AMD發(fā)布科研Agent，論文自動化評分趨近頂會NeurIPS水平！

目錄