剛剛,GPT-4.5問世!OpenAI迄今最大、最貴模型,API價格飛漲30倍,不拼推理拼情商
大家心心念念的 GPT-4.5 終于來了!
凌晨 4 點,OpenAI 開始了直播,奧特曼并沒有現身。直播不到 15 分鐘就匆匆結束了。
OpenAI 正式發布了其最大、最強的聊天模型 GPT?4.5 研究預覽版本。
奧特曼發推稱,GPT?4.5 讓他第一次感覺像在與一個有思想的人在交談,可以從模型那里得到真正好的建議。
OpenAI 表示,GPT-4.5 在擴展預訓練和后訓練方面向前邁出了一步。通過擴展無監督學習,GPT-4.5 提高了識別模式、建立聯系和產生創造性見解的能力,而無需推理。這意味著,GPT-4.5 從一開始就不是一個推理模型。
OpenAI 的早期測試表明,與 GPT-4.5 的交互感覺更自然。它的知識庫更廣泛,更能遵循用戶意圖,而且「情商」更高,使得在提高寫作、編程和解決實際問題等任務中非常有用。同時,GPT-4.5 還減少了幻覺出現。
Cognition 聯合創始人兼 CEO Scott Wu 分享了使用 GPT-4.5 的體驗,表示非常棒。在他們的智能體編碼基準測試中,GPT-4.5 相較于 o1 和 4o 實現大幅改進。同時發現一個有趣的數據點:雖然 GPT-4.5 和 Claude 3.7 Sonnet 在整體基準測試中得分相似,但他們發現 GPT-4.5 在涉及架構和跨系統交互的任務上峰值更大,而 Claude 3.7 Sonnet 在原始編碼和代碼編輯上峰值更大。
圖源:https://x.com/ScottWu46/status/1895209597084017073
從今天開始,ChatGPT Pro 用戶可以在網頁版、手機版和桌面版使用 GPT-4.5。下周將向 Plus 和 Team 用戶開放,再下周向企業和 Edu 用戶開放。
現在,GPT-4.5 只支持搜索、上傳文件和圖片和畫布功能,還不支持語音模式、視頻和屏幕共享等多模態功能。OpenAI 表示,未來會持續更新,讓產品變得更容易使用。
基準測試結果
OpenAI 首先在 SimpleQA(評估模型的事實性回答能力)數據集上進行了測試,其中 GPT-4.5 的準確率最高,超越了前代 GPT-4o、o1 和 o3-mini,展現了 GPT-4.5 擁有驚人的世界知識。
同時,GPT-4.5 的幻覺率也最低。
OpenAI 其次測試了人類協作訓練水平。
隨著模型不斷擴展并解決更復雜的問題,教會它們更好地理解人類的需求和意圖變得越來越重要。對于 GPT-4.5,OpenAI 開發了全新的可擴展技術,可以使用來自較小模型的數據來訓練更大、更強的模型。這些技術提高了 GPT-4.5 的可操縱性、對細微差別的理解和自然對話水平。
下圖人類偏好衡量結果顯示,測試人員更喜歡 GPT-4.5 查詢而不是 GPT-4o。
OpenAI 表示,將對世界的深刻理解與更佳的協作相結合,可以使得模型在更適合人類協作的「熱情直觀對話」中自然地整合想法。GPT-4.5 能夠更好地理解人類的意思,并以更細致入微的「情商」來解讀微妙的暗示或隱含的期望。此外,GPT-4.5 還表現出了更強的審美直覺和創造力,它擅長幫助寫作和設計。
比如「在考試失敗后,正在經歷一段艱難的時光」,GPT-4.5 能夠給你更擬人的安慰「哎呀,聽到這個消息我真的很遺憾。考試失敗會讓人感到很艱難和沮喪,但請記住,這只是一個瞬間 —— 并不反映你的身份或能力。想談談發生了什么,還是你只是需要分散注意力?無論如何,我都在這里。」。
不過,OpenAI 指出 GPT-4.5 在做出反應之前不會思考,這使得它的優勢與 o1 等推理模型截然不同。因此,與 o1、o3-mini 相比,GPT-4.5 是一種更通用、天然更智能的模型。
OpenAI 相信推理將成為未來模型的核心能力,而兩種擴展方法 —— 預訓練和推理 —— 將相輔相成。隨著 GPT-4.5 等模型通過預訓練變得更加智能和知識淵博,它們將成為推理和使用工具的代理的更強大的基礎。
從下圖多個基準測試結果,我們可以明顯看到:在 GPQA(科學)、AIME’24(數學)、SWE-Bench Verfied(編碼)等數據集上,GPT-4.5 全面領先于 GPT-4o,但仍然遜色于 o3-mini,尤其是數學和真實編程能力。
數字代表最佳內部性能
擴展無監督學習
OpenAI 通過擴展兩種互補范式來提升 AI 能力:無監督學習和推理。
這兩種范式代表了 AI 智能的兩個軸向。
其中,擴展推理使模型在做出回應之前學會思考并產生思維鏈,從而能夠解決復雜的 STEM(科學、技術、工程和數學)或邏輯問題。例如 OpenAI 的 o1 和 o3?mini 模型就推動了這一范式的發展。
另一方面,無監督學習則提高了世界模型的準確性以及直覺能力。
GPT?4.5 是通過擴大計算和數據規模以及架構和優化創新來擴大無監督學習的一個例子。其結果是一個知識面更廣、對世界理解更深入的模型,從而在廣泛的主題上減少了幻覺現象,提高了可靠性。
接下來,我們看看 GPT 在這幾年當中范式的改變:
2018 年,當問 GPT-1「第一種語言是什么?」時,GPT-1 只能簡單的重復問題,答案根本沒有參考價值:
2019 年,GPT-2 能進行一些簡短的回答:
GPT-3.5 的回答如下,但并不是最準確的答案:
GPT-4 顯然比其他模型更聰明,但你會明顯感覺到它想讓你知道它有多聰明,只是在列出事實:
最后,我們看一下 GPT-4.5 的答案,可以看出 GPT-4.5 給出了一個很棒的回答。它清晰、簡潔、連貫,而且還很有趣。
API 調用和價格
至于 API,所有付費用戶現已可以選擇聊天補全 API、助手 API 和批處理 API 來接入 GPT-4.5 模型,支持函數調用、結構化輸出、流式傳輸和系統消息等主要功能,還支持圖像輸入。
測試顯示,GPT-4.5 在寫作輔助、溝通、學習、輔導和頭腦風暴等需要高情商和創造力的應用場景特別有用。在多步驟編程和復雜任務自動化等方面也表現出色,看來 OpenAI 是持續押注智能體了。
GPT-4.5 體量很大,需要大量計算資源,所以 API 價格每 1M token 75 美元,比 GPT-4o 的 2.5 美元暴漲 30 倍。OpenAI 甚至在官方博客中表示:「因此,GPT-4.5 還無法完全替代 GPT-4o」
考慮到要在支持現有功能和開發未來的模型之間取得平衡,OpenAI 還在評估是否要長期在 API 中提供 GPT-4.5。
大家明顯被 GPT?4.5 的價格震驚到了,下面這張梗圖說明了一切。
圖源:https://x.com/airesearch12/status/1895215157623889991
OpenAI 已經放出了詳細的 GPT-4.5 系統卡。
系統卡地址:https://cdn.openai.com/gpt-4-5-system-card.pdf
Scaling Law 還在生效
可能比我們期待得更久一些,曾是 OpenAI 和 Tesla AI 團隊重要成員的 Andrej Karpathy 直接寫了一篇「小作文」,表示期待 GPT-4.5 已經約兩年了。
https://x.com/karpathy/status/1895213023238987854
「自從 GPT-4 發布以來,我一直渴望看到這種升級,因為它能從一個定性的角度來衡量擴大預訓練計算規模所帶來的進步(即大力出奇跡)。」
「每個版本號提升 0.5,大致對應預訓練計算量增長了十倍。」Karpathy 回顧了 Scaling Law 從 GPT-1 到 GPT-4 逐漸生效的過程,雖然相比 GPT-3.5,GPT-4 的進步似乎有些微妙。
「一切似乎都只是在細微之處有所改進:措辭更具創意,對提示詞的細微差別理解得更好,類比更合理,模型也更有趣,對罕見領域的知識和理解有所提升,幻覺現象減少了,整體感覺更好。這就像「水漲船高」,所有方面都提升了大約 20%。」
因此,帶著這種預期,Karpathy 開始測試比 GPT-4 的預訓練計算量增加了 10 倍的 GPT-4.5。在提前體驗過 GPT4.5 時,他再次感受到了從 GPT-3.5 進化到 GPT-4 時那種震撼。
更令人興奮的是,Karpathy 認為 GPT-4.5 依然展示了 Scaling Law 的獨到之處,僅僅通過訓練更大模型就能「免費」獲得模型各方面能力的提升。
Karpathy 判斷 OpenAI 接下來會基于 GPT-4.5 進一步通過強化學習進行訓練,使其具備推理能力。「請注意,GPT-4.5 僅通過預訓練、監督微調和 RLHF 進行了訓練,因此它并不是一個推理模型。因此,在推理至關重要的場景中(如數學、編程等),GPT-4.5 的發布并沒有推動模型能力的提升。」
Karpathy 更期望在非推理密集型任務(更多與情商相關,比如世界知識、創造力、類比能力、整體理解力、幽默感等等)中看到 GPT-4.5 的進步。為此,Karpathy 設計了 5 個好玩的提示詞來測試。
大家如果感興趣,可以去 Karpathy 評論區的輕量級模型競技場上投票,看看 GPT-4.5 的情商是不是更精進了:
題目:創建一段 GPT-4.5 和 GPT-4 之間的對話,其中 GPT-4.5 以幽默和諷刺的方式嘲笑 GPT-4 的能力不足,GPT-4 則幽默地試圖為自己辯護。
不過以「整頓」AI 圈出名的 Gary Marcus 并不看好 GPT -4.5,他表示 GPT-4.5 基本上是個無足輕重的研究。GPT-5 仍然是一個幻想。
更進一步的,Marcus 表示擴展數據和計算能力并不是一條好的物理定律,過去幾年我們聽到的關于 GPT-5 的那些夸大其詞的說法:并不那么真實。
https://x.com/GaryMarcus/status/1895212523949113752