登頂開源AI軟件工程師榜首，UIUC無Agent方案輕松解決SWE-bench真實編程問題

作者：機器之心 2024-07-15 12:23:49

Agentless 是一種自動解決軟件開發問題的方法，它使用簡單的兩階段方法進行定位和修復，以修復代碼庫中的 bug。

這篇論文的作者均來自伊利諾伊大學香檳分校（UIUC）張令明老師團隊，包括：Steven Xia，四年級博士生，研究方向是基于 AI 大模型的自動代碼修復；鄧茵琳，四年級博士生，研究方向是基于 AI 大模型的代碼生成；Soren Dunn，科研實習生，目前為 UIUC 大三學生。張令明老師現任 UIUC 計算機系副教授，主要從事軟件工程、機器學習、代碼大模型的相關研究。

更多詳細信息請見張老師的個人主頁：https://lingming.cs.illinois.edu/

自從 Devin（首個全自動 AI 軟件工程師）提出以來，針對軟件工程的 AI Agent 的設計成為研究的焦點，越來越多基于 Agent 的 AI 自動軟件工程師被提出，并在 SWE-bench 數據集上取得了不俗的表現、自動修復了許多真實的 GitHub issue。

然而，復雜的 Agent 系統會帶來額外的開銷和不確定性，我們真的需要使用如此復雜的 Agent 來解決 GitHub issue 嗎？不依賴 Agent 的解決方案能接近它們的性能嗎？

從這兩個問題出發，伊利諾伊大學香檳分校（UIUC）張令明老師團隊提出了 OpenAutoCoder-Agentless，一個簡單高效并且完全開源的無 Agent 方案，僅需 $0.34 就能解決一個真實的 GitHub issue。Agentless 在短短幾天內在 GitHub 上已經吸引了超過 300 GitHub Star，并登上了 DAIR.AI 每周最熱 ML 論文榜單前三。

論文：AGENTLESS : Demystifying LLM-based Software Engineering Agents
論文地址：https://huggingface.co/papers/2407.01489
開源代碼：https://github.com/OpenAutoCoder/Agentless

AWS 研究科學家 Leo Boytsov 表示：“Agentless 框架表現優異，超過所有開源 Agent 解決方案，幾乎達到 SWE Bench Lite 最高水平（27%）。而且，它以顯著更低的成本擊敗了所有開源方案。該框架采用分層查詢方法（通過向 LLM 提問來查找文件、類、函數等）以確定補丁位置。雖然利用 LLM，但不允許 LLM 做出規劃決策。”

Agentless 是一種自動解決軟件開發問題的方法，它使用簡單的兩階段方法進行定位和修復，以修復代碼庫中的 bug。在定位階段，Agentless 以分層方式來逐步縮小到可疑的文件、類 / 函數和具體的編輯位置。對于修復，它使用簡單的 diff 格式（參考自開源工具 Aider）來生成多個候選補丁，并對其進行過濾和排序。

研究者將 Agentless 與現有的 AI Software Agent 進行了比較，其中包括最先進的開源和商業 / 閉源項目。令人驚訝的是，Agentless 可以以更低的成本超越所有現有的開源 Software Agent！Agentless 解決了 27.33% 的問題，是開源方案中最高的，并且解決每個問題平均僅需 $0.29，在所有問題上（包括能解決和未解決的）平均只需要約 $0.34。

不僅如此，Agentless 還有改進的潛力。在考慮所有生成的補丁時，Agentless 可以解決 41% 的問題，這個上限表明補丁排序和選擇階段有顯著的改進空間。此外，Agentless 能夠解決一些即使是最好的商業工具（Alibaba Lingma Agent）也無法解決的獨特問題，這表明它可以作為現有工具的補充。

對 SWE-bench Lite 數據集的分析

研究者還對 SWE-bench Lite 數據集進行了人工檢查和詳細分析。

研究發現，SWE-bench Lite 數據集中，有 4.3% 的問題在問題描述中直接給出了完整的答案，也就是正確的修復補丁。而另外 10% 的問題描述了正確解決方案的確切步驟。這表明，SWE-bench Lite 中的某些問題可能更容易解決。

此外，研究團隊觀察到有 4.3% 的問題在問題描述中包含了用戶提議的解決方案或者步驟，但這些方案與開發人員的真實補丁并不一致。這進一步揭示了該基準測試的潛在問題，因為這些誤導性解決方案可能導致 AI 工具僅通過遵循問題描述來生成不正確的解決方案。

在問題描述質量方面，研究者觀察到，雖然 SWE-bench Lite 中大部分的任務都包含了足夠的信息，并且許多任務還提供了失敗示例來復現錯誤，但是仍有 9.3% 的問題沒有包含足夠的信息。例如需要實現一個新的函數或者添加一個錯誤信息，但是特定的函數名或者特定的錯誤信息字符串并沒有在問題描述中給出。這意味著即使正確實現了底層功能，如果函數名或錯誤信息字符串不完全匹配，測試也會失敗。

普林斯頓大學的研究人員，同時也是 SWE-Bench 的作者之一，Ofir Press 確認了他們的發現：“Agentless 對 SWE-bench Lite 進行了不錯的手動分析。他們認為 Lite 上的理論最高得分可能是 90.7%。我覺得實際的上限可能會更低（大約 80%）。一些問題的信息不足，另一些問題的測試過于嚴格。”

SWE-bench Lite-S：經過過濾的嚴格問題子集

針對這些問題，研究者提出了一個嚴格的問題子集 SWE-bench Lite-S（包含 252 個問題）。具體來說，從 SWE-bench Lite（包含 300 個問題）中排除了那些在問題描述中包含確切補丁、誤導性解決方案或未提供足夠信息的問題。這樣可以去除不合理的問題，并使基準測試的難度水平標準化。與原始的 SWE-bench Lite 相比，過濾后的基準測試更準確地反映了自動軟件開發工具的真實能力。

結語

盡管基于 Agent 的軟件開發非常有前景，作者們認為技術和研究社區是時候停下來思考其關鍵設計與評估方法，而不是急于發布更多的 Agent。研究者希望 Agentless 可以幫助重置未來軟件工程 Agent 的基線和方向。

責任編輯：張燕妮來源：機器之心

AI 開源

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

登頂開源AI軟件工程師榜首，UIUC無Agent方案輕松解決SWE-bench真實編程問題

對 SWE-bench Lite 數據集的分析

SWE-bench Lite-S：經過過濾的嚴格問題子集

結語