成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全球首個AI程序員當老板!IOI金牌得主全部工作AI掌盤,技術細節報告公開

人工智能 新聞
一夜之間,全球首個AI程序員的誕生碼農的世界變了天。更讓人震驚的是,現在的Devin還成為Cognition AI的首席執行官替身,開始打工了。

AI程序員Devin竟可以做老板的工作了?!

最近,Cognition AI的首席執行官Steven Hao給了Devin訪問自己帳戶的權限,然后Devin便開始為他工作了...

圖片

比如,「他」向初創公司Modal支持團隊寫了一封郵件,是詢問關于其產品Secrets更新后用多久再提供給正在運行的應用程序。

圖片

然后,「AI老板」Devin與技術團隊進行了無縫交流,最終解決了自己的疑惑。

圖片

就在最近,Cognition團隊發布了Devin的最新技術報告。

開篇,Cognition提到團隊的目標之一,就是讓Devin成為一個專門從事軟件開發的AI智能體,能夠成功地為大型復雜代碼庫貢獻代碼。

圖片

Reddit網友稱,「所有否認軟件工程師很快就會過時的人都太天真了。失業將對我們所有人造成沖擊」。

圖片

還有網友表示,AI正在迅速地重塑我們的現實,以至于我們根本不知道發生了什么。

圖片

圖片

技術報告出爐

為了評估Devin,研究人員使用了SWE-BENCH——一個針對軟件工程系統的自動化基準測試,可以確定地評估(通過單元測試)系統在真實代碼庫中解決問題的能力。

圖片

https://www.swebench.com/

在SWE-bench中,Devin成功解決了13.86%的問題,遠遠超過了之前最高的1.96%無輔助基線。

即使給定要編輯的確切文件(「輔助」模式),之前的最好的模型也只能解決4.80%的問題。

方法

研究人員采用SWE-BENCH來評估智能體,這比原始的LLM評估設置更通用。

設置

- 使用標準化的提示從頭到尾運行智能體,要求它僅根據GitHub問題描述編輯代碼。在運行過程中,不會向智能體提供任何其他用戶輸入。

- 代碼倉庫被克隆到智能體的環境中。只保留基礎提交(base commit)及其「祖先」提交在git歷史記錄中,以防止信息泄露給智能體。值得注意的是,研究人員移除了git遠程倉庫,這樣git pull就不起作用。

- 在測試開始之前,設置了Python Conda環境。

- 將Devin的運行時間限制在45分鐘,因為與大多數智能體不同的是,它具有無限期運行的能力。如果愿意,它可以選擇提前終止。

Eval

- 智能體運行退出后,研究人員會將所有測試文件重置為原始狀態,以防智能體修改測試,并將文件系統中的所有其他差異提取為patch。

- 為了確定哪些文件是測試文件,研究人員采用在測試patch中修改的所有文件的集合。

- 將智能體的patch應用到repo,然后是測試patch。

- 運行SWE-BENCH提供的eval命令,并檢查是否所有測試都通過。

具體可以在如下鏈接中,找到研究人員改編的評估工具的代碼:

https://github.com/CognitionAI/devin-swebench-results.

圖片

結果

研究人員在SWE基準測試集中,隨機抽取了25%的測試集(2294個測試集中的570個)對Devin進行了評估。

這樣做是為了縮短基準測試的完成時間,與作者在原始論文中使用的策略相同。

Devin成功解決了570個問題中的79個,成功率為13.86%。這明顯高于之前最佳輔助系統Claude 2的4.80%。

圖片

圖中的基線是在「assisted」設置中評估的,即向模型提供其需要編輯的確切文件。

基線在「unassisted」設置中表現較差,在這種情況下,一個單獨的檢索系統為LLM選擇要編輯的文件(最佳模型是Claude 2+BM25檢索系統,得分率為1.96%)。

在智能體環境中,Devin擁有整個軟件repo,可以自由瀏覽文件,因此研究人員選擇了較強的數據作為比較基準。

案例分析

多步規劃

Devin可以執行多步計劃,以接收來自環境的反饋。

72%的通過測試需要10分鐘以上的時間才能完成,這表明迭代能力有助于Devin取得成功。

圖片

定性示例

研究人員對Devin的結果進行了一些定性分析。回想一下,Devin只得到了問題描述和克隆存儲庫作為輸入。

示例1

最初,Devin被描述嚇了一跳,它在返回self之前添加了self.lower_bound_ = max_lower_bound。

這實際上是不正確的,因為變量尚未定義。

圖片

根據問題描述中提供的測試代碼,Devin會更新測試文件:

圖片

但在運行測試并出現錯誤后,Devin更正了文件:

圖片

圖片

在此修復后,Devin重新運行測試,以使其通過并成功退出。

這個例子很有趣,原因有幾個:

- 盡管不準確,Devin還是非常嚴格地遵循了原版中的指示。這表明與用戶的首選項過于一致。

- 有了在環境中運行測試的能力,Devin就能糾正自己的錯誤。對于軟件開發人員來說,能夠迭代是至關重要的,而智能體也應該能夠做到這一點。

示例2

Devin可以識別正確的文件 django/db/backends/postgresql/client.py ,并進行完整編輯:

圖片

在這里,Devin能夠成功地修改一大段代碼。

SWE-BENCH中,許多成功編輯都由單行差異組成,但Devin能夠同時處理多行。

示例3

這是一項艱巨的任務,涉及修改計算機代數系統,以正確處理地板和天花板對象上,與可指定為正值或負值的值有關的比較運算符。

這需要復雜的邏輯推理和多個推導步驟。

圖片

Devin錯選了要編輯的正確類,他編輯的是frac類,而不是floor類和ceiling類。

此外,Devin只編輯了一個比較運算符gt,而lt、le和ge也需要修改。這樣的編輯離正確還差得很遠。

示例4

這項任務涉及向回購中的所有數據集添加額外的退貨選項功能。Devin能夠成功地對幾個數據集進行此編輯;下面顯示了一個示例。

圖片

圖片

Devin設法對數據集 california_housing.py 、 covtype.py 、 kddcup99.py 和 mldata.py (原始PR實際上排除了它們)進行了類似的編輯。

不幸的是,Devin漏掉了兩個數據集, lfw.py 和 rcv1.py ,因此測試最終失敗。研究人員打算改進Devin編輯多個文件的能力。

測試驅動實驗

研究人員又進行了一次實驗,向Devin提供了最終的單元測試和問題陳述。

在這種「測試驅動開發」的環境下,100個抽樣測試中,成功通過率提高到了23%。(請注意,對測試本身的任何修改都會在評估前被刪除)。

這一結果是無法與SWE-BENCH的其他結果相比較的,因為該智能體可以訪問真值測試patch。

盡管如此,測試驅動開發是軟件工程中的一種常見模式,因此這種設置是SWE-BENCH的自然擴展。

人類給智能體一個有針對性的測試,來通過是人類工程師和智能體合作的一種自然方式,我們預計未來會看到更多測試驅動的智能體。

Devin通過測試新解決的問題示例

Devin通過在函數前面添加一條Print語句,然后運行單元測試,然后根據Print語句編輯文件,解決了這個問題。

圖片

圖片

新單元測試斷言會發出準確的錯誤信息:The value of 'filter_horizontal[0]' cannot include […]。

如果不知道錯誤的確切措辭,就不可能通過測試。

這凸顯了該基準的一個問題,說明不使用測試patches也不可能獲得滿分。

智能體仍在發展的初級階段,還有很大的改進空間。Cognition團隊相信智能體的能力將在未來顯著提高。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2020-04-03 09:05:43

麻將 AI Suphx神經網絡

2024-03-13 10:07:33

2024-03-13 10:41:29

AI程序員

2018-05-29 22:38:49

AI程序員代碼

2025-02-14 08:30:00

模型AI訓練

2024-03-13 12:29:36

AI訓練

2024-04-11 12:30:40

2011-04-18 09:35:23

Windows 8

2023-05-08 07:20:22

Doris分析型數據庫

2024-11-04 08:45:00

2024-12-04 13:25:46

2021-03-15 08:02:37

程序員996打工

2025-02-08 14:00:00

AI訓練數據

2023-01-06 17:16:36

程序員數據薪酬

2012-08-29 15:49:50

2023-06-14 15:16:41

AI編程

2012-08-07 09:20:09

程序員

2017-08-11 16:40:21

2017-04-05 11:28:53

2019-01-16 18:11:28

程序員技能開發者
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲欧美日韩在线一区二区 | 亚洲精品久久久久久一区二区 | 亚洲第一网站 | 欧美成人免费在线视频 | 视频一区在线观看 | 免费欧美 | 国产成人精品一区二区三区 | 久久国产精品亚洲 | 亚洲第一视频网站 | 狠狠涩| 97国产精品视频人人做人人爱 | 国产精品极品美女在线观看免费 | 国产精品免费播放 | 成人精品免费视频 | 国产成人精品午夜 | 日韩免费 | 午夜精品视频在线观看 | 天天草av| 精品久久久久久久久久 | 日韩电影免费在线观看中文字幕 | 久久香焦 | 亚洲高清av| 久久久久久一区 | 亚洲日本乱码在线观看 | av手机在线免费观看 | 国产美女免费视频 | 日本国产一区二区 | 国产精品18久久久久久白浆动漫 | 正在播放国产精品 | 欧美高清视频 | 国产1区| 国产精品久久二区 | 欧美中文字幕一区二区三区亚洲 | 成在线人视频免费视频 | 国产精品久久久久一区二区三区 | 草草在线观看 | 国产日韩欧美 | 精品乱码一区二区三四区 | 在线观看成人精品 | 国产精久久久久久久 | 欧美精品电影一区 |