OpenDevin自動化代碼生成工具評述
1.概念
OpenDevin整個系統分為前端和后端兩個主要部分。前端負責處理用戶交互和顯示結果,而后端負責處理業務邏輯和執行 AI Agent。在計算機科學和人工智能領域,"智能體"(Agent)一詞通常用來指代那些在特定環境中展示出自治性、反應性、社交性、主動性、推理性以及認知性等智能特性的軟件或硬件實體。AI智能體是一個具備復雜推理、記憶和任務執行能力的高級系統。
2.OpenDevin核心組件
AgentHub
OpenDevin是一個集成了多種智能體(Agent)實現的平臺,包括monologue_agent、codeact_agent、planner_agent、SWE_agent、delegator_agent和dummy_agent等。用戶可以根據自己的需求,自由選擇使用其中任何一個智能體。每個智能體都被設計成一個循環流程,通過調用agent.step()方法,在每次迭代中接收當前狀態(State)作為輸入,并輸出相應的動作(Actions)來執行操作或命令。執行動作后,智能體可能會接收到一些觀察(Observations)結果。在實現智能體的過程中,每個智能體類都需要實現step和search_memory這兩個方法。step方法用于執行指令,而search_memory方法則用于從智能體的記憶中查詢信息。此外,OpenDevin還提供了一些輔助方法,如reset(重置智能體狀態)、register(注冊智能體)、get_cls(獲取智能體類)、list_agents(列出所有智能體)等,這些方法可以幫助用戶更好地管理和維護智能體的狀態以及注冊信息。
狀態 (State)
狀態對象是智能體執行任務時所依賴的重要信息的集合體。它主要包括以下三個方面的內容:
- 智能體采取的動作的歷史記錄以及這些動作產生的觀察結果。這些觀察結果可能包括文件的內容、命令的輸出等信息。
- 自智能體執行最近一步動作以來,所發生的一系列動作和觀察結果的軌跡。這些信息有助于智能體追蹤和分析任務的執行過程。
- 一個計劃(plan)對象,它包含了智能體的主要目標。智能體可以通過AddTaskAction和ModifyTaskAction這兩個操作來添加和修改子任務,從而更好地實現其主要目標。
動作 (Actions)
Agent 有一系列可以執行的動作列表,其中一些包括:
- CmdRunAction:在沙盒化的終端中運行命令。
- FileReadAction:讀取文件內容。
- ModifyTaskAction:更改子任務的狀態。
- AgentThinkAction:允許 Agent 添加純文本到歷史記錄中的無操作。
- AgentFinishAction:停止控制循環,允許用戶輸入新任務。
觀察 (Observations)
Agent 在執行動作后可能接收到的觀察結果列表如下:
- CmdOutputObservation:命令執行輸出。
- BrowserOutputObservation:瀏覽 URL 后的輸出。
- FileReadObservation:文件讀取操作的輸出。
- AgentRecallObservation:Agent 回憶操作的輸出。
- AgentErrorObservation:Agent 執行操作時發生錯誤的輸出。
前后端布局如下:
3.OpenDevin的能力
OpenDevin支持多種Agent智能體的選擇。以CodeActAgent為例,它是一個開源的語言模型(LLM),它具有對文本操作進行顯式優化的能力。它使用可執行的Python代碼來將LLM代理的動作統一到一個統一的操作空間中,稱為CodeAct。借助Python解釋器,CodeAct可以執行代碼操作,并通過多輪交互動態修改之前的操作或根據新的觀察發出新的操作。CodeActAgent框架可以根據現有的若干Action-Observation對的軌跡預測下一步需要執行什么Action,遵循業界流行的ReAct反思框架。ReAct的提示模版一般包含這些內容的多次重復:
Thought: ...
Action: ...
Observation: ...
... (Repeat many times)
CodeAct的思想是: 由LLM生成的代碼和用戶發起的消息構成Action,在環境中運行代碼就視為執行了這個 Action,擴大了 Agent 的 action space,用更少的交互次數完成更多的任務。在CodeAct的架構中,Agent接收來自User和Environment的消息,互相之間進行消息通信。同時使用CoT(Chain of Thoughts)思維樹將任務進行切分,直接將執行結果轉為自然語言總結。Agent會向 Environment 發出 Action,生成代碼并執行;向 User 發送 Action 的生成自然語言回復。User會向Agent發送自然語言的請求或者反饋,同時接收 Agent 的 Action 的生成自然語言回復。而Environment會向 Agent 發送 Action 的執行結果,因為他可以通過bash 命令行或 Python 解釋器執行 Action 生成的代碼。以下是CodeAct框架的原理圖:
SWE-Agent是另一種有效的代碼生成智能體。它不僅支持簡單的代碼生成任務,還支持軟件維護(例如錯誤修復)和軟件演化(如功能添加)等更為復雜的程序改進任務。其精心定制的 ACI(Agent-Computer Interface) 極大地增強了 Agent 創建和編輯代碼文件、瀏覽完整代碼庫以及執行程序的能力。SWE-agent的核心功能包括:搜索與導航、文件查看器、文件編輯器以及上下文管理。
SWE-agent 通過搜索與導航,能夠簡潔地列出所有包含搜索字符串的文件名,減少混淆。導航代碼庫需要找到適合當前任務的文件和內容。常見策略是查找可能有用的術語,如問題中提到的文件、函數或類定義。SWE-agent 引入了特殊命令 find file、search file 和 search dir,當搜索文件名或文件/目錄中的字符串時,這些命令會輸出搜索結果的摘要
當搜索到想查看的文件后,可以通過調用 open 命令打開路徑來使用交互式文件查看器。文件查看器一次最多顯示文件的 100 行窗口,Agent 可以使用 scroll down 和 scroll up 命令移動窗口,也可以使用 goto 命令跳至特定行。為了方便文件內導航和代碼定位,SWE-agent 顯示打開文件的完整路徑、文件的總行數、當前窗口前后的省略行數以及每行的行號(在可見行前添加)。
在進行文件編輯的階段,SWE-agent不僅支持基本的文件瀏覽,還提供了高效的滾動和搜索功能。限制每次顯示的代碼行數為 100 行,旨在提高瀏覽效率且減少信息過載。
為了保持 Agent 上下文的簡潔性和充分性,SWE-agent 構建了一系列詳細且復雜的提示詞模板。在每個步驟中都會接收到關于正確使用 bash 和 ACI 命令的指令、文檔和演示。若執行代碼錯誤,SWE-agent 會要求重試,直到收到正確生成的響應。一旦收到有效響應,過去的錯誤信息將被省略,僅保留最初的。又或者,當命令執行成功但無輸出時,系統會提供明確的反饋,增強交互明確性。
SWE-agent的工作流程如下圖,整體上仍然使用了ReAct框架,通過反復采取行動和獲得反饋來與環境進行工作。
在初始化階段,agent會創建一個實例,提供模擬的開發環境,并且將整個交互過程中所有的軌跡存儲到特定的工作目錄中。同時,每個實例都會被審查,以確定是否有任何實例不符合條件應該被跳過。對選定的實例進行環境重置,將其恢復到該實例的初始狀態,并獲取初始信息。
執行階段,首先為 Agent 配置適當的參數并初始化其內部模型,以準備迎接下游任務。在一個交互循環中,Agent首先會根據當前的文件狀態state和觀察結果observation,生成對應的思考thought和行動action。在這個過程中,實例會根據 Agent 提出的行動執行相應的命令,結果將被更新到觀察結果中。每次交互后, Agent 的行動、觀察結果和響應的行為軌跡都會被保存。當 Agent 的行動中包含“submit”命令時,意味著問題已解決,同時保存補丁patch并標記該問題為已完成done = True,交互循環隨之結束。
保存階段,Agent 在整個交互過程中生成的預測結果以及行動軌跡都會被記錄。
3.OpenDevin的體驗
OpenDevin可以在Windows、Linux等操作系統進行部署,同時提供前端UI頁面。詳細的前后端部署流程請見 OpenDevin。使用Ollama部署大語言模型,并在如下的初始化頁面中選擇已經部署好的各項服務。
用戶可以根據自己的偏好和需求,選擇不同的智能體Agent。不同Agent可以執行的任務以及流程會有些不同。以下是分別使用SWE-agent和CoderAgent對同一個問題進行回答的結果,兩者都使用codeqwen1.5-7B作為基座模型。可以看到SWE-agent將用戶輸入的任務拆解成編寫代碼、分不同語言實現以及寫入3個主要步驟,能完成一系列的任務而非只是對話問答。
使用SWE-agent作為agent,配合GPT4對問題的理解和生成文本能力,可以讓大語言模型完成項目級代碼的生成。下圖顯示了通過指令讓OpenDevin訪問github代碼庫,復制到本地并新建分支,完成文件的修改并且push到遠程的一系列流程,大語言模型先后完成了任務拆解,規劃執行并且調用各項工具的工作流程,展示了其能夠進行自主生成代碼并提交的能力。
參考文獻
1. Devin: ??https://www.cognition-labs.com/introducing-devin??
2. SWE-agent: ??https://github.com/princeton-nlp/SWE-agent??
3. CodeAct-agent: [2402.01030] Executable Code Actions Elicit Better LLM Agents (arxiv.org)
4. OpenDevin/SWE-bench: Enhanced fork of SWE-bench, tailored for OpenDevin's ecosystem. (github.com)
5. Qwen/Qwen1.5-14B-Chat · Hugging Face
6. 2404.10225 (arxiv.org)
7. 2405.15793 (arxiv.org)
