METR發現 AI 編碼的“摩爾定律”?指數級增長或顛覆軟件開發 精華
還記得 2023 年初 ChatGPT 剛出來時,讓它30 秒寫一個“冒泡排序”都覺得很新鮮?彈指之間,今天的 AI agent 已經能自主幾分鐘內啃下人類程序員需要一小時乃至一天才能完成的需求了。
感覺 AI 進步太快跟不上?這可不是錯覺。專注于 AI 能力評估的 METR 機構扔出重磅研究:AI 系統能搞定的編碼任務復雜度(以人類所需時間衡量)正以驚人的指數速度增長,其“時間范圍”(Time Horizon)——即 AI 能達到 50% 成功率的任務時長——大約每 7 個月就翻一番!
METR 測試了 2019 到 2025 年間最強的 AI Agent,用近 200 個任務(主要是編碼,夾雜些推理)對它們進行了“大考”。結果清晰地顯示:任務越耗時,AI 越難搞定,但它們能搞定的任務時長上限,確實在指數級飆升。
指數增長的未來預測:
如果這個“7 個月翻倍”的趨勢保持下去,那畫面太美不敢看:
- 2026年:搞定2 小時任務
- 2027年:拿下8 小時(1 工作日)任務
- 2028年:挑戰40 小時(1 周)任務
- 2029年:沖擊167 小時(1 個月)的大型項目
加速!趨勢可能更快!
更刺激的是,這個增長似乎還在加速!METR 發現,隨著模型能力大幅提升,在 2024-2025 年間,“時間范圍”的翻倍時間已縮短到僅僅 4 個月。如果按這個“渦輪增壓”的速度,搞定月度級任務可能2027 年就能實現!
當然,預測有風險,趨勢也可能放緩。但反過來想,它也可能更快!特別是當 AI 開始越來越多地參與到開發下一代更強 AI 的工作中時,一個強大的“飛輪效應”可能被觸發:AI 加速創造更強 AI,后者再進一步加速……這種自我強化的循環可能導致能力的超指數級增長。
歷史性時刻?
METR的這一發現,它可能預示著一個生產力奇點的臨近,其影響之深遠,可能重塑軟件開發乃至所有知識型工作,成為我們這個時代最值得關注的趨勢之一。
這一發現也支撐了朱嘯虎的最近一個熱門的觀點“5年以后沒有獨立的大模型公司,AI直接交付服務的形式體現商業價值”,按這一摩爾定律預測,我想這個時間可能不需要5年!
開發者和企業,是時候認真思考如何應對這場可能到來的巨變了。
參考:
??https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/??
??https://theaidigest.org/time-horizons??
本文轉載自?????AI工程化???,作者:ully
