METR發(fā)現(xiàn) AI 編碼的“摩爾定律”?指數(shù)級增長或顛覆軟件開發(fā) 精華
還記得 2023 年初 ChatGPT 剛出來時,讓它30 秒寫一個“冒泡排序”都覺得很新鮮?彈指之間,今天的 AI agent 已經(jīng)能自主幾分鐘內(nèi)啃下人類程序員需要一小時乃至一天才能完成的需求了。
感覺 AI 進(jìn)步太快跟不上?這可不是錯覺。專注于 AI 能力評估的 METR 機(jī)構(gòu)扔出重磅研究:AI 系統(tǒng)能搞定的編碼任務(wù)復(fù)雜度(以人類所需時間衡量)正以驚人的指數(shù)速度增長,其“時間范圍”(Time Horizon)——即 AI 能達(dá)到 50% 成功率的任務(wù)時長——大約每 7 個月就翻一番!
METR 測試了 2019 到 2025 年間最強(qiáng)的 AI Agent,用近 200 個任務(wù)(主要是編碼,夾雜些推理)對它們進(jìn)行了“大考”。結(jié)果清晰地顯示:任務(wù)越耗時,AI 越難搞定,但它們能搞定的任務(wù)時長上限,確實在指數(shù)級飆升。
指數(shù)增長的未來預(yù)測:
如果這個“7 個月翻倍”的趨勢保持下去,那畫面太美不敢看:
- 2026年:搞定2 小時任務(wù)
- 2027年:拿下8 小時(1 工作日)任務(wù)
- 2028年:挑戰(zhàn)40 小時(1 周)任務(wù)
- 2029年:沖擊167 小時(1 個月)的大型項目
加速!趨勢可能更快!
更刺激的是,這個增長似乎還在加速!METR 發(fā)現(xiàn),隨著模型能力大幅提升,在 2024-2025 年間,“時間范圍”的翻倍時間已縮短到僅僅 4 個月。如果按這個“渦輪增壓”的速度,搞定月度級任務(wù)可能2027 年就能實現(xiàn)!
當(dāng)然,預(yù)測有風(fēng)險,趨勢也可能放緩。但反過來想,它也可能更快!特別是當(dāng) AI 開始越來越多地參與到開發(fā)下一代更強(qiáng) AI 的工作中時,一個強(qiáng)大的“飛輪效應(yīng)”可能被觸發(fā):AI 加速創(chuàng)造更強(qiáng) AI,后者再進(jìn)一步加速……這種自我強(qiáng)化的循環(huán)可能導(dǎo)致能力的超指數(shù)級增長。
歷史性時刻?
METR的這一發(fā)現(xiàn),它可能預(yù)示著一個生產(chǎn)力奇點的臨近,其影響之深遠(yuǎn),可能重塑軟件開發(fā)乃至所有知識型工作,成為我們這個時代最值得關(guān)注的趨勢之一。
這一發(fā)現(xiàn)也支撐了朱嘯虎的最近一個熱門的觀點“5年以后沒有獨立的大模型公司,AI直接交付服務(wù)的形式體現(xiàn)商業(yè)價值”,按這一摩爾定律預(yù)測,我想這個時間可能不需要5年!
開發(fā)者和企業(yè),是時候認(rèn)真思考如何應(yīng)對這場可能到來的巨變了。
參考:
??https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/??
??https://theaidigest.org/time-horizons??
本文轉(zhuǎn)載自?????AI工程化???,作者:ully
