成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟研究:AI 編程助手軟件調(diào)試能力堪憂

人工智能
即便是一些目前最先進的 AI 模型,在解決軟件漏洞這一問題上,仍然無法與經(jīng)驗豐富的開發(fā)者相媲美。微軟研究院(微軟的研發(fā)部門)的一項新研究表明,包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在內(nèi)的多款模型,在一個名為 SWE-bench Lite 的軟件開發(fā)基準測試中,無法成功調(diào)試許多問題。

4 月 13 日消息,OpenAI、Anthropic 和其他頂尖人工智能實驗室的人工智能模型越來越多地被用于協(xié)助編程任務(wù),谷歌首席執(zhí)行官桑達爾?皮查伊在去年 10 月透露,該公司 25% 的新代碼由 AI 生成;而 Meta 首席執(zhí)行官馬克?扎克伯格也表達了在公司內(nèi)部廣泛部署 AI 編碼模型的雄心壯志。

然而,即便是一些目前最先進的 AI 模型,在解決軟件漏洞這一問題上,仍然無法與經(jīng)驗豐富的開發(fā)者相媲美。微軟研究院(微軟的研發(fā)部門)的一項新研究表明,包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在內(nèi)的多款模型,在一個名為 SWE-bench Lite 的軟件開發(fā)基準測試中,無法成功調(diào)試許多問題。

研究的共同作者們測試了九種不同的模型,這些模型作為“基于單個提示詞的智能體”的核心,能夠使用包括 Python 調(diào)試器在內(nèi)的一系列調(diào)試工具。他們給這個智能體分配了一組經(jīng)過篩選的 300 項軟件調(diào)試任務(wù),這些任務(wù)均來自 SWE-bench Lite。

據(jù)共同作者們介紹,即使配備了更強大、更先進的模型,他們的智能體成功完成的調(diào)試任務(wù)也極少超過一半。其中,Claude 3.7 Sonnet 的平均成功率最高,為 48.4%;其次是 OpenAI 的 o1,成功率為 30.2%;而 o3-mini 的成功率為 22.1%。

為何這些 AI 模型的表現(xiàn)如此不盡如人意?部分模型在使用可用的調(diào)試工具以及理解不同工具如何幫助解決不同問題方面存在困難。然而,共同作者們認為,更大的問題在于數(shù)據(jù)稀缺。他們推測,當前模型的訓練數(shù)據(jù)中,缺乏足夠多的“順序決策過程”數(shù)據(jù),即人類調(diào)試痕跡的數(shù)據(jù)。

“我們堅信,訓練或微調(diào)這些模型可以使它們成為更好的交互式調(diào)試器。”共同作者們在研究報告中寫道,“然而,這需要專門的數(shù)據(jù)來滿足此類模型訓練的需求,例如記錄智能體與調(diào)試器交互以收集必要信息、隨后提出漏洞修復建議的軌跡數(shù)據(jù)。”

這一發(fā)現(xiàn)其實并不令人意外。許多研究都表明,代碼生成型 AI 往往會引入安全漏洞和錯誤,這是由于它們在理解編程邏輯等領(lǐng)域的薄弱環(huán)節(jié)所導致的。最近對一款流行的 AI 編程工具 Devin 的評估發(fā)現(xiàn),它只能完成 20 項編程測試中的 3 項。

不過,微軟的這項研究是迄今為止對模型在這一持續(xù)存在問題領(lǐng)域最為詳細的剖析之一。盡管它可能不會削弱投資者對 AI 輔助編程工具的熱情,但愿它能讓開發(fā)者及其上級領(lǐng)導三思而后行,不再輕易將編程工作完全交給 AI 來主導。

IT之家注意到,越來越多的科技界領(lǐng)袖對 AI 會取代編程工作的觀點提出了質(zhì)疑。微軟聯(lián)合創(chuàng)始人比爾?蓋茨曾表示,他認為編程作為一種職業(yè)將會長期存在。與他持相同觀點的還有 Replit 首席執(zhí)行官阿姆賈德?馬薩德、 Okta 首席執(zhí)行官托德?麥金農(nóng)以及 IBM 首席執(zhí)行官阿爾溫德?克里希納。

責任編輯:龐桂玉 來源: IT之家
相關(guān)推薦

2021-12-02 06:58:01

微軟桌面助手

2024-08-12 08:41:40

2013-12-30 13:40:13

2025-03-28 07:33:09

數(shù)據(jù)庫AI助手設(shè)計

2023-08-04 12:12:43

WindowsCopilot

2023-03-17 11:05:44

微軟Copilot生成式AI助手

2025-05-23 10:41:00

2025-06-05 09:05:36

2025-06-23 07:12:00

AI代碼助手AI模型人工智能

2022-09-01 15:47:47

編程工具AI

2023-09-21 10:01:10

GitHubAI 代碼助手

2024-12-09 10:53:00

2024-08-08 16:20:36

2009-02-25 09:27:47

微軟游戲學習能力

2022-11-25 09:42:53

AI技術(shù)

2024-02-26 00:00:00

AI編程助手Copilot

2024-02-27 08:00:00

人工智能AI編程助手開發(fā)

2013-07-27 20:01:11

惡意軟件
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产欧美视频一区二区三区 | h视频在线免费 | 视频一区二区在线观看 | 国产成人福利在线观看 | 成人欧美一区二区三区黑人孕妇 | 日韩美女在线看免费观看 | 久久综合一区二区三区 | 日韩在线免费视频 | 国产精品美女一区二区 | 成人二区 | 国产精品欧美一区二区三区不卡 | 国产伊人精品 | 毛片高清 | 国产精品jizz在线观看老狼 | 又爽又黄axxx片免费观看 | 精品毛片在线观看 | 国产精品久久久久久久久久免费 | 日韩午夜 | 日韩视频在线一区 | 九九亚洲精品 | 亚洲一区二区三区久久 | 91网站在线看 | 91在线看网站 | h在线看 | 在线婷婷 | 亚洲精品一 | www.狠狠干| 亚洲欧美一区二区三区国产精品 | 色成人免费网站 | 女同videos另类 | 日本特黄a级高清免费大片 国产精品久久性 | 黄色一级大片在线观看 | 色婷婷婷婷色 | 免费视频二区 | av国产精品毛片一区二区小说 | 国产精品极品美女在线观看免费 | 久久男人| 国产在线观看一区二区 | 日本黄色高清视频 | 欧美日韩成人网 | 91精品国产综合久久久久蜜臀 |