成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

實測打臉!世界第一位AI程序員Devin:20項任務只完成了3項!14項任務徹底失敗!網友:實際效果跟商業估值沒關系!

原創 精選
人工智能
近日, Answer.AI 團隊中經常試驗 AI 開發工具的測試團隊秉著“百聞不如一見”的精神,與最受Twitter追捧的編程神器共事了一個月,結果非常慘烈。

編輯 | 言征

出品 | 51CTO技術棧(微信號:blog51cto)

10個月過去,世界“首位AI程序員”究竟如何了?

近日, Answer.AI 團隊中經常試驗 AI 開發工具的測試團隊秉著“百聞不如一見”的精神,與最受Twitter追捧的編程神器共事了一個月,結果非常慘烈。

“作為 Answer.AI 團隊中經常試驗 AI 開發工具的一員,Devin 給人的感覺有些不同。如果它能實現承諾的一半,它就能改變我們的工作方式。但盡管 Twitter 上充滿了熱情,我們卻找不到太多關于人們實際使用它的詳細記錄。所以我們決定對它進行測試,在各種現實世界的任務中對其進行測試。這就是我們的故事——一次徹底的、現實世界的嘗試,嘗試使用 2024 年最受炒作的 AI 產品之一。

圖片圖片

不過,經過20項實際的工作測試任務后,“首位AI軟件工程師”的服務在真實工作水平表現相當糟糕。

隸屬于 Answer.AI(由 Jeremy Howard 和 Eric Ries 創立的 AI 研發實驗室)的三名數據科學家對 Devin 進行了測試,發現它只成功完成了 20 項任務中的 3 項。

1.20項只完成了三項,Devin真實實力不堪一擊

在本月初(1月8日),由 Hamel Husain、Isaac Flath 和 Johno Whitaker 發表了一項針對Devin的綜合分析中,Devin 開局不錯,成功地將數據從 Notion 數據庫提取到 Google 表格中。

圖片圖片

AI 代理還設法創建了一個行星跟蹤器,用于檢查有關木星和土星歷史位置的說法。

但隨著三名研究人員繼續測試,他們遇到了問題。

研究人員在他們的報告中解釋說:

“看似簡單的任務通常需要幾天而不是幾小時,Devin會陷入技術死胡同或產生過于復雜、不可用的解決方案。“更令人擔憂的是,Devin 傾向于推進實際上不可能的任務。”

例如,他們引用了Devin在被要求將多個應用程序部署到基礎設施部署平臺 Railway 時如何不理解、如何不受支持,并花了一天多的時間嘗試不奏效的方法,此外還產生不存在的功能等類似的幻覺。

在提交給 Devin 的20項任務中,AI軟件工程師只圓滿地完成了其中的 3 項——上面提到的兩項任務和研究如何使用 Python 構建 Discord 機器人的第三項挑戰。其他3項任務產生了不確定的結果,14個項目徹底失敗。

圖片圖片

研究人員表示,Devin提供了完美的用戶體驗,在奏效時令人印象深刻。

“但問題是——它很少奏效,在我們嘗試的20項任務中,我們看到14次失敗,3 次結果不確定,只有 3 次成功。”他們寫道。

“更令人擔憂的是,我們無法預測哪些任務會成功。即使是類似于我們早期勝利的任務也會以復雜、耗時的方式失敗。看似有希望的自主性變成了一種負擔——Devin會花幾天時間尋找不可能的解決方案,而不是識別根本的障礙。”

我們在實際使用AI工具中會反復觀察到這樣一種現象甚至是模式:無法預測哪些任務會成功。

所以,社交媒體的吹捧熱情和公司估值與現實世界的真實效用并不匹配。

但我們還是需要可靠的、可交付的產品和服務來推動增長,不是嗎?

截至目前,Devin背后的公司Cognition AI沒有回應置評請求。

2.Devin自主執行任務的原理

“Devin”被譽為自主編程智能體,于 2024 年 3 月推出。該機器人的創建者是一家名為 Cognition AI 的機構,它聲稱“Devin 可以端到端地構建和部署應用程序”,以及“可以自主查找和修復代碼庫中的錯誤”。該工具于 2024 年 12 月正式發布,起價為每月 500 美元。

根據 Cognition 官方文檔的描述,Devin 是一名自主的 AI 軟件工程師,可以編寫、運行和測試代碼,幫助軟件工程師完成個人任務或團隊項目,它可以審查 PR、支持代碼遷移、響應隨叫隨到的問題、構建 Web 應用程序,甚至執行個人助理任務,例如在 DoorDash 上訂購午餐,以便您可以專注于您的代碼庫。

原理上大概是這樣:該服務使用 Slack 作為其命令的主接口,這些命令被發送到其所在的計算環境,一個托管終端、瀏覽器、代碼編輯器和規劃器的 Docker 容器。AI 代理支持與外部服務的 API 集成。例如,這允許它通過 SendGrid 代表用戶發送電子郵件。

Devin 是一個“復合 AI 系統”,這意味著它依賴于多個底層 AI 模型,其中包括 OpenAI 的 GPT-4o,并且之后會有更過的模型加入。

從理論上講,用戶能夠要求Devin執行將代碼遷移到 Jupyter Notebook 開發平臺 nbdev 等任務,并期望它能夠成功完成這些任務。但這可能要求太高了。

3.早期就被曝視頻造假,問題還很多

去年3月,Devin 在爆火不久后,就被人曝料早期評估發現了問題。起因是Cognition AI 發布了一段宣傳視頻,引起了業界的廣泛關注,據稱該視頻展示了 AI 編碼員可以在自由職業者平臺 Upwork 上自主完成項目來賺錢。

圖片圖片

但很快,軟件開發人員 Carl Brown 分析了該視頻,并在他的 Internet of Bugs YouTube 頻道上揭穿了它:自己對于視頻中操作只需要36分鐘,而用Devin則至少需要6小時甚至可能超過一天的時間。

另外,Devin 還因涉嫌包含關鍵安全問題而被另一位 YouTube 代碼專家點名批評。

只能說,即便是較為成熟的編程賽道,要做一款另用戶真正滿意的自主Agent,任重道遠。

參考鏈接:https://www.answer.ai/posts/2025-01-08-devin.html#appendix-tasks-attempted-with-devin

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區

http://www.ekrvqnd.cn/aigc/

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2011-03-03 20:53:28

程序員人才

2021-03-08 16:14:03

程序員技能開發者

2013-11-04 10:32:01

Facebook女程序員

2022-03-09 09:50:18

程序員計算機編程

2024-04-15 08:00:00

AI程序員

2011-06-03 09:31:17

2019-10-18 16:00:19

AI 數據人工智能

2015-05-08 09:03:41

Linux用戶無法完成任務

2017-07-04 10:02:58

AMDVega專業卡

2024-03-18 09:26:15

微軟AI

2021-04-13 09:07:12

程序員工具軟件開發

2019-04-17 09:14:39

程序員 996馬云

2013-12-05 13:41:15

女程序員奮斗

2015-04-14 09:29:25

CTO程序員

2012-12-11 09:34:40

程序員

2015-05-12 11:35:28

移動·開發技術周刊

2011-11-09 14:34:33

物聯網

2009-07-27 14:38:34

網絡運維管理奧運

2023-03-29 10:04:18

圖像AI

2023-09-14 13:23:00

AI芯片
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 福利网站导航 | 日本在线观看网址 | 国产精品美女在线观看 | 久久天天躁狠狠躁夜夜躁2014 | 男女激情网站免费 | 欧美一级三级 | 国产精品视频久久 | 日韩精品一区中文字幕 | 国产一区影院 | 久久精品国产亚洲 | 草草视频在线观看 | 日韩中文字幕在线 | 99久热在线精品视频观看 | 天天看夜夜 | h片在线观看免费 | 黑人巨大精品欧美黑白配亚洲 | 91久久久精品国产一区二区蜜臀 | 91精品在线观看入口 | 日韩欧美在线免费观看视频 | 中文字幕精品视频在线观看 | 东京av男人的天堂 | 天天射美女 | 在线一区二区三区 | 亚洲3级| 天天操天天操 | 日本精品视频在线 | 综合久久综合久久 | 精品久久香蕉国产线看观看亚洲 | 一区二区三区免费 | 精品一区二区三区四区 | 亚洲国产成人一区二区 | 国产精品一区二区av | 一区二区三区av | 亚洲精品成人在线 | 亚洲精品乱 | 成人亚洲精品 | 91免费在线| 国产视频久| 国产成人精品一区二区三区视频 | 欧美 日韩 国产 成人 | 国产真实精品久久二三区 |