AI 編程新王者:OpenAI GPT-4.1 系列登場,上下文百萬 tokens、代碼生成速度飆升 40%
IT之家 4 月 15 日消息,OpenAI 公司今天(4 月 15 日)發布博文,宣布以 API 的形式發布 GPT-4.1 系列模型,涵蓋 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。
這些模型在編程、指令遵循和長文本理解方面全面超越前代 GPT-4o 及 GPT-4o mini,上下文窗口最高支持 100 萬 tokens,知識更新至 2024 年 6 月。
需要注意的是,該系列模型現階段專為開發者打造,目前僅通過開發者 API 方式提供,普通用戶暫時無法通過 ChatGPT 頁面體驗該模型。
OpenAI 表示在編程方面,相比較 GPT-4o 模型,GPT-4.1 模型的代碼生成速度飆升 40%,且用戶輸入查詢的成本降低了 80%。
新模型性能
OpenAI 在官方博文中表示,GPT-4.1 系列模型在編程、指令遵循和長文本處理上表現優異,全面超越 GPT-4o 及 GPT-4o mini。
GPT-4.1 在編程測試 SWE-bench Verified 中得分 54.6%,較 GPT-4o 提升 21.4 個百分點,在指令遵循測試 MultiChallenge 中提升 10.5 個百分點,在多模態長文本測試 Video-MME 中創下 72.0% 的新紀錄。
GPT-4.1 mini 和 nano 展現了小型模型的巨大潛力。GPT-4.1 mini 在多項基準測試中媲美甚至超越 GPT-4o,延遲降低近一半,成本減少 83%。
GPT-4.1 nano 作為最快、最經濟的選擇,擁有 100 萬個 token 的上下文窗口,在 MMLU 測試中得分 80.1%,適合分類和自動補全任務。
這些模型通過優化推理棧和提示緩存技術,顯著降低了首次響應時間,為開發者提供高效低成本的解決方案。
GPT-4.1 系列模型在實際應用中表現突出,特別適合構建智能代理,處理復雜任務。例如,Windsurf 測試顯示,GPT-4.1 在編程效率上提升 30%,減少 50% 不必要編輯;Thomson Reuters 的法律 AI 助手 CoCounsel 使用 GPT-4.1 后,多文檔審查準確率提升 17%。
命名混亂引發關注
GPT-4.1 的發布加劇了 OpenAI 產品命名的復雜性。
ChatGPT 目前已包含 GPT-4o、GPT-4o mini、o1-pro 等多種模型選項。OpenAI 首席執行官山姆?奧爾特曼(Sam Altman)早在 2024 年 2 月就承認命名問題。
他在 X 平臺表示,產品線過于繁雜,計劃通過未來的 GPT-5 整合品牌,OpenAI 計劃在 2025 年 7 月前逐步淘汰 API 中的 GPT-4.5 Preview 模型,從而緩解命名混亂。
這一臨時模型于 2024 年 2 月推出,曾被批評為“失敗品”,開發者需在 2025 年 7 月前遷移到其他模型,不過,GPT-4.5 在 ChatGPT 中暫時保留,未受影響。
費用
API 價格方面,OpenAI GPT-4.1 模型每 100 萬 tokens 輸入費用為 2 美元(IT之家注:現匯率約合 14.6 元人民幣),每 100 萬 tokens 輸出費用為 8 美元(現匯率約合 58.3 元人民幣)。在中等查詢中,相比較 GPT-4o,GPT-4.1 不僅能提供更強悍的性能,而且便宜 26%。
此外,OpenAI GPT-4.1 nano 是 OpenAI 最便宜、最快的模型: