成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開源版AI程序員來了:GPT-4加持,能力比肩Devin,一天1.4k Star

人工智能 新聞
本周二,來自普林斯頓大學 NLP 組的研究人員放出了 SWE-agent —— 一個開源版 AI 程序員,不到一天就獲得了上千的 GitHub Star 量。

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區(qū)

http://www.ekrvqnd.cn/aigc/

最近,有很多人在為 AI 代替自己的工作而擔憂。

上個月火遍 AI 圈的「首位 AI 程序員」Devin,利用大模型能力已經掌握了全棧技能,僅需要人類給出自然語言指令,就可以自動完成復雜的代碼任務。

Devin 展示的能力非常驚艷,不過這款工具出自走閉源路線的創(chuàng)業(yè)公司,現在只有一小部分獲得了內測名額的人才能使用。

本周二,來自普林斯頓大學 NLP 組的研究人員放出了 SWE-agent —— 一個開源版 AI 程序員,不到一天就獲得了上千的 GitHub Star 量。

圖片

SWE-agent 是一款用于自主解決 GitHub 存儲庫中問題的新系統(tǒng)。它在 SWE-bench 上獲得了與 Devin 相似的準確度,平均耗時為 93 秒。

圖片

  • 項目網站:https://swe-agent.com/
  • GitHub:https://github.com/princeton-nlp/SWE-agent

該項目的作者 John Yang 表示,相關論文的預印版也將在 4 月 10 號上傳。

從原理上看,SWE-agent 通過將大模型(例如 GPT-4)轉變?yōu)檐浖こ讨悄荏w,可以修復真實 GitHub 存儲庫中的錯誤和問題。

在完整的 SWE-bench 測試集上,SWE-agent 解決了 12.29% 的問題,實現了 SOTA 性能。

為了提供開發(fā)過程中的自動化,SWE-agent 通過與專用終端交互來工作,它可以打開、搜索文件內容,使用自動語法檢查、編輯特定行,也可以編寫并執(zhí)行測試。

該項目的開發(fā)者精心設計了 UI 界面,并在 GitHub 上進行了介紹。

智能體 - 計算機接口 (ACI)

研究團隊設計了簡單的以大模型(LM)為中心的命令和反饋格式,使大模型能夠更方便地瀏覽存儲庫、查看、編輯和執(zhí)行代碼文件,這被稱為智能體 - 計算機接口 (ACI)。研究團隊還構建了 SWE 智能體存儲庫,以便輕松迭代存儲庫級編碼智能體的 ACI 設計。

就像語言模型需要良好的提示工程(prompt engineering)一樣,良好的 ACI 設計在使用智能體時會帶來更好的結果。沒有經過良好調整的 ACI 的基線智能體的表現比 SWE-agent 差得多。

SWE-agent 包含研究團隊在智能體 - 計算機接口設計過程中發(fā)現的非常有用的功能,包括:

1. 添加一個在發(fā)出編輯命令時運行的 linter,如果代碼語法不正確,則不會讓編輯命令通過。

2. 為智能體提供一個專門構建的文件查看器。研究團隊發(fā)現此文件查看器在每輪僅顯示 100 行時效果最佳,并且該文件編輯器具有上下滾動以及在文件中執(zhí)行搜索的命令。

3. 為智能體提供專門構建的全目錄字符串搜索命令。研究團隊發(fā)現該工具簡潔地列出匹配項非常重要 —— 只需列出至少有一個匹配項的每個文件。該研究表明,向模型顯示有關每個匹配的更多上下文對于模型來說太混亂了。

4. 當命令的輸出為空時,返回一條消息:「您的命令已成功運行,但未產生任何輸出」。

未來發(fā)布的論文將詳述更多信息。

安裝與使用

要使用 SWE-agent,首先要設置好如下條件:

1. 安裝 Docker,并在本地啟動 Docker;

2. 安裝 Miniconda,并使用 conda env create -fenvironment.yml 創(chuàng)建 swe-agent 環(huán)境;

3. 使用 conda activate swe-agent 激活;

4. 運行 ./setup.sh 創(chuàng)建 swe-agent docker 鏡像;

5. 在此存儲庫的根目錄下創(chuàng)建一個 keys.cfg 文件并填寫以下內容:

OPENAI_API_KEY: 'OpenAI API Key Here if using OpenAI Model (optional)'
ANTHROPIC_API_KEY: 'Anthropic API Key Here if using Anthropic Model (optional)'
GITHUB_TOKEN: 'GitHub Token Here (required)'

SWE-agent pipeline 包含兩個步驟:

  • 第一步:SWE-agent 接收輸入的 GitHub 問題,并返回嘗試修復它的拉取請求(pull request);
  • 第二步:評估拉取請求以驗證它確實解決了問題(目前僅適用于 SWE-bench 基準測試中的問題)。

如果想在整個 SWE-bench 上運行和評估,最簡單的方法是使用 x86 機器。

python run.py --model_name gpt4 \
  --data_path https://github.com/pvlib/pvlib-python/issues/1603 --config_file config/default_from_url.yaml
python run.py --model_name gpt4 \
  --per_instance_cost_limit 2.00 \
  --config_file ./config/default.yaml

如果想運行 SWE-bench 中的單個問題,可以使用 --instance_filter:

python run.py --model_name gpt4 \
  --instance_filter marshmallow-code__marshmallow-1359

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區(qū)

http://www.ekrvqnd.cn/aigc/

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-27 14:44:04

代碼編程語言

2023-03-28 08:23:38

2024-05-07 11:42:54

MoE模型GPT-4

2024-03-18 09:26:15

微軟AI

2024-08-14 09:13:28

2012-06-05 00:26:58

程序員

2023-03-16 19:17:57

2024-06-17 18:04:38

2023-09-11 15:57:16

人工智能模型GPT-4

2019-04-28 09:56:15

程序員互聯(lián)網脫發(fā)

2019-11-07 15:30:00

EmacsIDE

2023-04-21 09:49:36

GPTAI

2020-08-18 14:48:00

AI 數據人工智能

2025-04-16 09:15:00

AI模型數據

2023-06-19 08:19:50

2024-11-28 15:51:19

GPT-4o微軟

2015-02-10 10:21:22

程序員

2023-07-19 21:57:25

Office版微軟企業(yè)版

2025-04-16 09:35:03

2024-03-29 12:48:00

數據訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区国产好的精 | 国产一区 在线视频 | 精品久久久久一区 | 亚洲久草视频 | 亚洲性视频网站 | 91麻豆精品国产91久久久久久 | 狠狠干综合视频 | 中文字幕在线一区二区三区 | 久久久亚洲 | 欧美日韩国产传媒 | 一级片网站视频 | 久久久高清| 久久久久久亚洲精品 | 一区二区三区不卡视频 | 欧美日韩国产中文 | 日韩一区二区三区在线观看 | 国产a级毛片 | 成人激情视频 | 亚州无限乱码 | 亚洲国产精品久久久 | 国产视频欧美 | 色天堂影院 | 一级在线免费观看 | 亚洲精品久久久久久久久久久久久 | 91精品国产日韩91久久久久久 | 欧美亚洲国产一区二区三区 | 午夜手机在线视频 | 久久久久久亚洲 | 91精品国产综合久久久久蜜臀 | 国产精品视频播放 | 中文字幕在线一区二区三区 | 精品久久国产 | 大陆一级毛片免费视频观看 | 午夜久久久 | 一a一片一级一片啪啪 | 中文在线а√在线8 | 精品中文在线 | 国产精品色一区二区三区 | 国产第1页 | 日韩成人高清 | 免费黄网站在线观看 |