成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

實(shí)測(cè)打臉!世界第一位AI程序員Devin:20項(xiàng)任務(wù)只完成了3項(xiàng)!14項(xiàng)任務(wù)徹底失敗! 原創(chuàng)

發(fā)布于 2025-1-24 12:49
瀏覽
0收藏

編輯 | 言征

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

10個(gè)月過(guò)去,世界“首位AI程序員”究竟如何了?

近日, Answer.AI 團(tuán)隊(duì)中經(jīng)常試驗(yàn) AI 開(kāi)發(fā)工具的測(cè)試團(tuán)隊(duì)秉著“百聞不如一見(jiàn)”的精神,與最受Twitter追捧的編程神器共事了一個(gè)月,結(jié)果非常慘烈。

“作為 Answer.AI 團(tuán)隊(duì)中經(jīng)常試驗(yàn) AI 開(kāi)發(fā)工具的一員,Devin 給人的感覺(jué)有些不同。如果它能實(shí)現(xiàn)承諾的一半,它就能改變我們的工作方式。但盡管 Twitter 上充滿了熱情,我們卻找不到太多關(guān)于人們實(shí)際使用它的詳細(xì)記錄。所以我們決定對(duì)它進(jìn)行測(cè)試,在各種現(xiàn)實(shí)世界的任務(wù)中對(duì)其進(jìn)行測(cè)試。這就是我們的故事——一次徹底的、現(xiàn)實(shí)世界的嘗試,嘗試使用 2024 年最受炒作的 AI 產(chǎn)品之一。

實(shí)測(cè)打臉!世界第一位AI程序員Devin:20項(xiàng)任務(wù)只完成了3項(xiàng)!14項(xiàng)任務(wù)徹底失敗!-AI.x社區(qū)圖片


不過(guò),經(jīng)過(guò)20項(xiàng)實(shí)際的工作測(cè)試任務(wù)后,“首位AI軟件工程師”的服務(wù)在真實(shí)工作水平表現(xiàn)相當(dāng)糟糕。

隸屬于 Answer.AI(由 Jeremy Howard 和 Eric Ries 創(chuàng)立的 AI 研發(fā)實(shí)驗(yàn)室)的三名數(shù)據(jù)科學(xué)家對(duì) Devin 進(jìn)行了測(cè)試,發(fā)現(xiàn)它只成功完成了 20 項(xiàng)任務(wù)中的 3 項(xiàng)。

1.20項(xiàng)只完成了三項(xiàng),Devin真實(shí)實(shí)力不堪一擊

在本月初(1月8日),由 Hamel Husain、Isaac Flath 和 Johno Whitaker 發(fā)表了一項(xiàng)針對(duì)Devin的綜合分析中,Devin 開(kāi)局不錯(cuò),成功地將數(shù)據(jù)從 Notion 數(shù)據(jù)庫(kù)提取到 Google 表格中。

實(shí)測(cè)打臉!世界第一位AI程序員Devin:20項(xiàng)任務(wù)只完成了3項(xiàng)!14項(xiàng)任務(wù)徹底失敗!-AI.x社區(qū)圖片

AI 代理還設(shè)法創(chuàng)建了一個(gè)行星跟蹤器,用于檢查有關(guān)木星和土星歷史位置的說(shuō)法。

但隨著三名研究人員繼續(xù)測(cè)試,他們遇到了問(wèn)題。

研究人員在他們的報(bào)告中解釋說(shuō):

“看似簡(jiǎn)單的任務(wù)通常需要幾天而不是幾小時(shí),Devin會(huì)陷入技術(shù)死胡同或產(chǎn)生過(guò)于復(fù)雜、不可用的解決方案。“更令人擔(dān)憂的是,Devin 傾向于推進(jìn)實(shí)際上不可能的任務(wù)。”

例如,他們引用了Devin在被要求將多個(gè)應(yīng)用程序部署到基礎(chǔ)設(shè)施部署平臺(tái) Railway 時(shí)如何不理解、如何不受支持,并花了一天多的時(shí)間嘗試不奏效的方法,此外還產(chǎn)生不存在的功能等類(lèi)似的幻覺(jué)。

在提交給 Devin 的20項(xiàng)任務(wù)中,AI軟件工程師只圓滿地完成了其中的 3 項(xiàng)——上面提到的兩項(xiàng)任務(wù)和研究如何使用 Python 構(gòu)建 Discord 機(jī)器人的第三項(xiàng)挑戰(zhàn)。其他3項(xiàng)任務(wù)產(chǎn)生了不確定的結(jié)果,14個(gè)項(xiàng)目徹底失敗。

實(shí)測(cè)打臉!世界第一位AI程序員Devin:20項(xiàng)任務(wù)只完成了3項(xiàng)!14項(xiàng)任務(wù)徹底失敗!-AI.x社區(qū)圖片

研究人員表示,Devin提供了完美的用戶(hù)體驗(yàn),在奏效時(shí)令人印象深刻。

“但問(wèn)題是——它很少奏效,在我們嘗試的20項(xiàng)任務(wù)中,我們看到14次失敗,3 次結(jié)果不確定,只有 3 次成功。”他們寫(xiě)道。

“更令人擔(dān)憂的是,我們無(wú)法預(yù)測(cè)哪些任務(wù)會(huì)成功。即使是類(lèi)似于我們?cè)缙趧倮娜蝿?wù)也會(huì)以復(fù)雜、耗時(shí)的方式失敗。看似有希望的自主性變成了一種負(fù)擔(dān)——Devin會(huì)花幾天時(shí)間尋找不可能的解決方案,而不是識(shí)別根本的障礙。”

我們?cè)趯?shí)際使用AI工具中會(huì)反復(fù)觀察到這樣一種現(xiàn)象甚至是模式:無(wú)法預(yù)測(cè)哪些任務(wù)會(huì)成功。

所以,社交媒體的吹捧熱情和公司估值與現(xiàn)實(shí)世界的真實(shí)效用并不匹配。

但我們還是需要可靠的、可交付的產(chǎn)品和服務(wù)來(lái)推動(dòng)增長(zhǎng),不是嗎?

截至目前,Devin背后的公司Cognition AI沒(méi)有回應(yīng)置評(píng)請(qǐng)求。

2.Devin自主執(zhí)行任務(wù)的原理

“Devin”被譽(yù)為自主編程智能體,于 2024 年 3 月推出。該機(jī)器人的創(chuàng)建者是一家名為 Cognition AI 的機(jī)構(gòu),它聲稱(chēng)“Devin 可以端到端地構(gòu)建和部署應(yīng)用程序”,以及“可以自主查找和修復(fù)代碼庫(kù)中的錯(cuò)誤”。該工具于 2024 年 12 月正式發(fā)布,起價(jià)為每月 500 美元。

根據(jù) Cognition 官方文檔的描述,Devin 是一名自主的 AI 軟件工程師,可以編寫(xiě)、運(yùn)行和測(cè)試代碼,幫助軟件工程師完成個(gè)人任務(wù)或團(tuán)隊(duì)項(xiàng)目,它可以審查 PR、支持代碼遷移、響應(yīng)隨叫隨到的問(wèn)題、構(gòu)建 Web 應(yīng)用程序,甚至執(zhí)行個(gè)人助理任務(wù),例如在 DoorDash 上訂購(gòu)午餐,以便您可以專(zhuān)注于您的代碼庫(kù)。

原理上大概是這樣:該服務(wù)使用 Slack 作為其命令的主接口,這些命令被發(fā)送到其所在的計(jì)算環(huán)境,一個(gè)托管終端、瀏覽器、代碼編輯器和規(guī)劃器的 Docker 容器。AI 代理支持與外部服務(wù)的 API 集成。例如,這允許它通過(guò) SendGrid 代表用戶(hù)發(fā)送電子郵件。

Devin 是一個(gè)“復(fù)合 AI 系統(tǒng)”,這意味著它依賴(lài)于多個(gè)底層 AI 模型,其中包括 OpenAI 的 GPT-4o,并且之后會(huì)有更過(guò)的模型加入。

從理論上講,用戶(hù)能夠要求Devin執(zhí)行將代碼遷移到 Jupyter Notebook 開(kāi)發(fā)平臺(tái) nbdev 等任務(wù),并期望它能夠成功完成這些任務(wù)。但這可能要求太高了。

3.早期就被曝視頻造假,問(wèn)題還很多

去年3月,Devin 在爆火不久后,就被人曝料早期評(píng)估發(fā)現(xiàn)了問(wèn)題。起因是Cognition AI 發(fā)布了一段宣傳視頻,引起了業(yè)界的廣泛關(guān)注,據(jù)稱(chēng)該視頻展示了 AI 編碼員可以在自由職業(yè)者平臺(tái) Upwork 上自主完成項(xiàng)目來(lái)賺錢(qián)。

實(shí)測(cè)打臉!世界第一位AI程序員Devin:20項(xiàng)任務(wù)只完成了3項(xiàng)!14項(xiàng)任務(wù)徹底失敗!-AI.x社區(qū)圖片

但很快,軟件開(kāi)發(fā)人員 Carl Brown 分析了該視頻,并在他的 Internet of Bugs YouTube 頻道上揭穿了它:自己對(duì)于視頻中操作只需要36分鐘,而用Devin則至少需要6小時(shí)甚至可能超過(guò)一天的時(shí)間。

另外,Devin 還因涉嫌包含關(guān)鍵安全問(wèn)題而被另一位 YouTube 代碼專(zhuān)家點(diǎn)名批評(píng)。

只能說(shuō),即便是較為成熟的編程賽道,要做一款另用戶(hù)真正滿意的自主Agent,任重道遠(yuǎn)。

參考鏈接:??https://www.answer.ai/posts/2025-01-08-devin.html#appendix-tasks-attempted-with-devin??

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:言征

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄

    主站蜘蛛池模板: 成年免费在线观看 | 做a的各种视频 | 免费看a | 二区视频 | 黄色一级在线播放 | 亚洲天天干 | 亚洲成人网在线 | 午夜精品91 | 中文字幕一区二区三区在线视频 | 成人免费大片黄在线播放 | 国产精品免费大片 | 亚洲国产一区视频 | 午夜精品久久久久久久星辰影院 | 亚洲精品久久久久久一区二区 | 九九精品久久久 | 高清免费av | 97在线播放 | 欧美一区二区三区在线观看 | 国产成人jvid在线播放 | 亚洲一区二区三区在线 | 国产精品国产三级国产aⅴ无密码 | 中文字幕在线观看国产 | 亚洲国产在 | 91在线一区二区 | 999国产精品视频免费 | 亚洲 中文 欧美 日韩 在线观看 | 天天躁日日躁性色aⅴ电影 免费在线观看成年人视频 国产欧美精品 | 浴室洗澡偷拍一区二区 | 成人在线视频免费看 | 日本一二三区高清 | 成人亚洲精品 | 国产激情自拍视频 | www.中文字幕.com| 亚洲精品欧美一区二区三区 | 视频一区在线观看 | 欧美一级二级在线观看 | 久久精品久久久 | 拍拍无遮挡人做人爱视频免费观看 | 国产丝袜一区二区三区免费视频 | 日韩av在线一区 | 欧美在线二区 |