編譯 | 言征
出品 | 51CTO技術棧(微信號:blog51cto)
就在李彥宏和周鴻祎就“AI是否會取代程序員”爭吵的第二天晚上,一款號稱“全球首款AI軟件工程師”的Devin被社交媒體瘋傳了起來。
Devin(英文中寓意:神秘、完美,Godlike),脫穎而出的地方在于,跟以往的Github Copilot等編碼助手不同,它能夠獨立地、端到端地、處理整個軟件項目。而它的公司Cognition Labs, 已經獲得了2100萬美元的投資支持,其中包括彼得·泰爾的Founders Fund,人氣陡升。
如果Devin成功,這將會顯著影響軟件開發行業,可能會在某些項目上減少對人類開發者的需求。
具體能力數字方面,Devin在SWE-Bench基準測試(用于評估AI模型在軟件工程任務)中取得了13.86%的準確率,也就是說它能獨立解決每100個問題中的近14個,雖然這一成績遠遠超過了之前最好的模型Claude 2的1.96%的無輔助準確率和4.80%的有輔助準確率。
這是生成式AI在自主理解和解決軟件開發問題能力顯著提升的重大事件,堅定了選擇GenAI+Coding賽道的從業者的信心。
1、Demo視頻很震撼,不如實測一番
但李彥宏和周鴻祎的那個爭論,似乎并不會隨著Devin的出現而迎來答案。
因為,Devin非常有創造性,但實際表現并不會讓程序員們擔心丟掉飯碗。正如Cognition放出的視頻,可以看出整個過程仍需要人工輔助參與,即便不需要人,我們會發現AI能完成的任務,實在太過簡單。
另外,Demo演示視頻難免讓人懷疑實際效果,一位酷愛開發的網友 Andrew Kean Gao第一時間申請了測試使用Devin。正如上文所說,有些任務如果沒有人為干預的話,就會運行失敗。
圖片
“Devin給人的第一眼的印象在于UI/UX(界面和交互),而并非是GenAI”,他表示,AI是核心組件,但真正引人注目的是他們構建的周邊基礎設施。
圖片
此外,Gao還表示,這個產品感覺相當成熟,并不是之前以為的一個演示版本。“他們構建了諸如自動部署到Netlify、API密鑰保護、智能中斷方式以免真的打斷流程、為人類量身定制的良好用戶界面,以及連接LLM和人類開發者的橋梁,還有一個可以回溯時間的滑塊,”他補充說,一點點揭開事物的面紗很有趣。
圖片
“最大的缺點是速度慢,”Gao說,他形容網站感覺有點慢。然而,他說這也可能是因為他使用的是1Mbps的Starlink連接。所以這部分可能是他自己的問題。
Gao還提到,你不能編輯Devin生成的代碼。“它還沒有達到協作的程度。”
Ryan Carniato,SolidJS UI庫的作者以及MarkoJS核心團隊成員,表示到目前為止,Devin在正確選擇用于簡單任務的庫方面,尚存在困難,比如構建一個“todo-list”應用程序。Devin竟然選擇復雜庫而不是像Lit這樣的現代輕量級庫來構建網絡組件,有些讓人咋舌。
在HackerNews上以dakiol為名的用戶說:“我工作中的90%并不是編寫代碼(作為一名高級軟件工程師),而是要將復雜的要求去混淆并分解成明確的塊,找出要求中的空白或漏洞,以便我只需編寫最少的代碼,理解代碼庫以便實施能夠很好地契合。”這段話突顯了Devin的局限性。
2、Devin 砸不了程序員的飯碗
Devin的顯著能力提升在社交媒體上引發了關于編程工作未來以及人工智能在軟件開發中角色的討論。不出意外,又是兩派:一些開發者對工作被取代表示擔憂,而另一些人則將Devin視為提高生產力、專注于更高層次任務的工具。
令人驚訝的是,對于開發者工作的總體前景仍然保持積極。據美國勞工統計局預測,從2019年到2029年,軟件開發人員的就業機會將增長22%,這一增長速度遠遠超過所有職業的平均增長率。
“AI系統如Devin將降低非技術創始人進入技術領域的門檻。它將使軟件工程大眾化,”AI科學家Saurabh Shukla說,他強調了Devin的積極面,以及它將如何(不)取代軟件工程工作。
谷歌的工程經理Vineet Joglekar表示:“如果你是一個僅僅寫代碼的人,你需要開始以不同的方式思考。”他說,由于在故障排除、策略思考和人類驅動的創新問題解決中持續需要人工監督,Devin還沒有準備好取代所有的開發者工作。
最后多說一嘴,近期代碼編寫Agent類的產品值得大家關注,雖然它暫時還取代不了人類!畢竟的確可以提升不少效率。當然,周鴻祎目前看是贏了!