GPT-4.5發布了，參數規模可能在3-5萬億之間，宣稱是最好的聊天模型，但有“強弩之末”的感覺

發布于 2025-3-13 06:57

瀏覽

0收藏

2月28日OpenAI發布了GPT-4.5，OpenAI稱這是其迄今為止最大的預訓練模型。我有點期待GPT-4.5會帶來令人振奮的突破。然而，從官方披露的信息以及實際表現來看，GPT-4.5沒有展現出超越前代模型的顯著優勢。有點“強弩之末”的感覺。可能再次驗證了業界比較廣泛的認知：“單純擴大模型參數規模，對性能提升的邊際效應正在遞減” 。接下來分幾個章節，談談我的感受。

期待與現實的落差

GPT-4.5 被 OpenAI 定位為“our largest and best model for chat yet”，暗示其在規模和技術能力上的重要進展。然而，與兩年前 GPT-4發布時的轟動效應相比，GPT-4.5 的亮相顯得低調（奧特曼沒有參加）。官方文章提到，其核心進步在于通過擴展無監督學習（unsupervised learning，可以理解為“預訓練”）提升了知識廣度和可靠性，但并未強調推理能力的顯著增強。我認為，盡管 GPT-4.5 在某些領域（如減少幻覺）有所改進，但整體表現并未帶來顛覆性的驚喜。

GPT-4.5 的技術細節與參數規模估測

OpenAI 未公開 GPT-4.5 的具體參數數量，但從其描述和行業趨勢來看，我們推測一下。

基準參考GPT-4的參數規模據推測約為1.76萬億（https://en.wikipedia.org/wiki/GPT-4）。
計算資源官方文件提到GPT-4.5在Microsoft Azure AI超級計算機上訓練，這表明其計算需求可能遠超GPT-4。
模型架構假設GPT-4.5可能延續了Mixture of Experts（MoE）架構（https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/ ），MoE架構能在參數規模增加的同時優化計算效率。結合MoE模型的參數分布特點，我推測 GPT-4.5 的參數規模在3萬億至5萬億之間。
性能反饋驗證官方數據表明，GPT-4.5在SimpleQA準確率上為62.5%，相較GPT-4o略有提升。暗示參數規模的增長未帶來比例相當的性能增益，支持其規模可能在3萬億至5萬億的假設——足夠大，但未達天文數字。

GPT-4.5發布了，參數規模可能在3-5萬億之間，宣稱是最好的聊天模型，但有“強弩之末”的感覺-AI.x社區

更大規模為何未帶來耀眼表現？

GPT-4.5 的訓練聚焦于擴展無監督學習，通過增加計算資源和數據量提升模型的“世界知識深度”（deeper world knowledge）。官方稱其在知識問答中的幻覺率降低，且在日常查詢（63.2% 勝率）和專業查詢（56.8% 勝率）中優于 GPT-4o。此外，GPT-4.5 未引入顯著的推理增強機制，而是強化了與人類的協作能力（如更高的“EQ”和 steerability）。這些特點表明，OpenAI 在GPT-4.5中選擇了“廣度優先”的發展路徑，而非“深度突破”。

盡管 GPT-4.5 的參數規模可能達到 3 萬億，其性能提升卻遠不如預期。例如，在學術基準測試中，GPT-4.5 的 AIME 2024（數學競賽）得分僅為 36.7%，雖高于 GPT-4o 的 9.3%，但遠不及推理模型 OpenAI o1 的 87.3%。同樣，在 SWE-Bench Verified（編碼任務）中，GPT-4.5 的 38.0% 表現雖優于 GPT-4o（30.7%），但并未展現出壓倒性優勢。這種“規模大、增益小”的現象可能源于以下原因：

數據質量瓶頸訓練數據的總量雖增加，但其中人類有效知識的比例可能不足。GPT-4.5 在SimpleQA上幻覺率降低，表明其知識記憶更準確，但推理能力未見顯著增強。這可能因為數據中缺乏足夠的高質量邏輯推理樣本，導致模型在“記憶”上進步，卻在“思考”上停滯。
架構效率限制我們可以用圖書館來類比Transformer架構的大模型。參數規模可以視為圖書館的書架數量。通常來說，書架越多，能容納的書籍（知識）就越多。但當參數規模擴大到一定程度時，可能會出現效率遞減的情況。這就好比，一味地擴建圖書館、增加書架，但如果新增加的書籍大多是內容重復的，或者是質量低劣、雜亂無章的，那么讀者并不會因為圖書館變大了就變得更聰明——模型的輸出質量也不會因此顯著提升。

反過來，如果模型參數規模過小，則其知識記憶能力會相對較差。仍然以圖書館為例：如果一個圖書館很小，書架數量有限，卻要容納海量的書籍，那么很可能只能將每本書的內容進行大幅精簡，甚至只保留核心概要。這樣一來，很多知識的細節就會丟失，讀者也就無法獲取全面、深入的信息。但是有必要說明的是，很多小模型的推理能力不差，原因是“推理”與概念體系更相關，概念體系更容易通過知識點的壓縮來達到，這也是之前Ilya為什么說：Compression is Intelligence！

轉向Testing Time Computing Scaling Law

面對預訓練的局限，業界已經將目光轉向Testing Time Computing Scaling Law，即通過推理時增加計算量提升性能。這種趨勢在DeepSeekmR1, OpenAI的o1/o3，Qwen QwQ等模型中已有體現，它們通過更長的思維鏈推理（chain-of-thought）顯著提高了復雜任務的解決能力。

本文轉載自??后向傳播??，作者：張發恩 ????

標簽

GPT-4.5

聊天模型

參數規模

贊

回復