OpenAI研究人員發現,AI無法解決大多數編程問題
2月24日消息,據外媒報道,OpenAI的研究人員承認,即使是最先進的AI模型仍然無法與人類程序員匹敵,盡管首席執行官山姆·奧特曼(Sam?Altman)堅稱,到今年年底,他們將能夠擊敗“低級”的軟件工程師。
在一篇新論文中,該公司的研究人員發現,即使是前沿模型,或最先進、最具突破邊界的人工智能系統,“仍然無法解決大多數”編碼任務。
研究人員使用了一種名為sw-lancer的新開發基準,該基準基于自由職業者網站Upwork的1400多個軟件工程任務。使用這個基準,OpenAI測試了三個大模型,它自己的o1推理模型和旗艦GPT-4o,以及Anthropic的克勞德3.5十四行詩。
具體地說,新的基準評估了大模型對Upwork中的兩種任務的執行情況:單個任務,涉及解決錯誤并實現對它們的修復,或者管理任務,看到模型試圖縮小并做出更高級別的決策。
這些模型在Upwork上承擔了累積價值數十萬美元的任務,但它們只能修復表面的軟件問題,而無法在更大的項目中找到BUG或找到它們的根本原因。
這篇論文指出,盡管這三位大模型通常能夠“比人類快得多”地操作,但他們也未能把握漏洞的普遍程度或理解它們的背景,“導致解決方案不正確或不夠全面。”
正如研究人員解釋的那樣,Claude?3.5?Sonnet比兩個OpenAI模型表現得更好,比o1和GPT-40賺得更多。盡管如此,它的大多數答案都是錯誤的,根據研究人員的說法,任何模型都需要“更高的可靠性”來信任現實生活中的編碼任務。
更直白地說,這篇論文似乎表明,盡管這些前沿模型可以快速工作并解決放大任務,但它們在處理這些任務方面遠不如人類工程師熟練。
盡管這些大模型在過去幾年里發展迅速,而且很可能會繼續發展,但他們在軟件工程方面的技能還不足以取代現實生活中的人,這并不妨礙首席執行官們解雇他們的人類程序員,轉而支持不成熟的人工智能模型。