GPT-4.5發布了,參數規模可能在3-5萬億之間,宣稱是最好的聊天模型,但有“強弩之末”的感覺
2月28日OpenAI發布了GPT-4.5,OpenAI稱這是其迄今為止最大的預訓練模型。我有點期待GPT-4.5會帶來令人振奮的突破。然而,從官方披露的信息以及實際表現來看,GPT-4.5沒有展現出超越前代模型的顯著優勢。有點“強弩之末”的感覺。可能再次驗證了業界比較廣泛的認知:“單純擴大模型參數規模,對性能提升的邊際效應正在遞減” 。接下來分幾個章節,談談我的感受。
期待與現實的落差
GPT-4.5 被 OpenAI 定位為“our largest and best model for chat yet”,暗示其在規模和技術能力上的重要進展。然而,與兩年前 GPT-4發布時的轟動效應相比,GPT-4.5 的亮相顯得低調(奧特曼沒有參加)。官方文章提到,其核心進步在于通過擴展無監督學習(unsupervised learning,可以理解為“預訓練”)提升了知識廣度和可靠性,但并未強調推理能力的顯著增強。我認為,盡管 GPT-4.5 在某些領域(如減少幻覺)有所改進,但整體表現并未帶來顛覆性的驚喜。
GPT-4.5 的技術細節與參數規模估測
OpenAI 未公開 GPT-4.5 的具體參數數量,但從其描述和行業趨勢來看,我們推測一下。
- 基準參考GPT-4的參數規模據推測約為1.76萬億(https://en.wikipedia.org/wiki/GPT-4)。
- 計算資源官方文件提到GPT-4.5在Microsoft Azure AI超級計算機上訓練,這表明其計算需求可能遠超GPT-4。
- 模型架構假設GPT-4.5可能延續了Mixture of Experts(MoE)架構(https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/ ),MoE架構能在參數規模增加的同時優化計算效率。結合MoE模型的參數分布特點,我推測 GPT-4.5 的參數規模在3萬億至5萬億之間。
- 性能反饋驗證官方數據表明,GPT-4.5在SimpleQA準確率上為62.5%,相較GPT-4o略有提升。暗示參數規模的增長未帶來比例相當的性能增益,支持其規模可能在3萬億至5萬億的假設——足夠大,但未達天文數字。
更大規模為何未帶來耀眼表現?
GPT-4.5 的訓練聚焦于擴展無監督學習,通過增加計算資源和數據量提升模型的“世界知識深度”(deeper world knowledge)。官方稱其在知識問答中的幻覺率降低,且在日常查詢(63.2% 勝率)和專業查詢(56.8% 勝率)中優于 GPT-4o。此外,GPT-4.5 未引入顯著的推理增強機制,而是強化了與人類的協作能力(如更高的“EQ”和 steerability)。這些特點表明,OpenAI 在GPT-4.5中選擇了“廣度優先”的發展路徑,而非“深度突破”。
盡管 GPT-4.5 的參數規模可能達到 3 萬億,其性能提升卻遠不如預期。例如,在學術基準測試中,GPT-4.5 的 AIME 2024(數學競賽)得分僅為 36.7%,雖高于 GPT-4o 的 9.3%,但遠不及推理模型 OpenAI o1 的 87.3%。同樣,在 SWE-Bench Verified(編碼任務)中,GPT-4.5 的 38.0% 表現雖優于 GPT-4o(30.7%),但并未展現出壓倒性優勢。這種“規模大、增益小”的現象可能源于以下原因:
- 數據質量瓶頸訓練數據的總量雖增加,但其中人類有效知識的比例可能不足。GPT-4.5 在SimpleQA上幻覺率降低,表明其知識記憶更準確,但推理能力未見顯著增強。這可能因為數據中缺乏足夠的高質量邏輯推理樣本,導致模型在“記憶”上進步,卻在“思考”上停滯。
- 架構效率限制我們可以用圖書館來類比Transformer架構的大模型。參數規模可以視為圖書館的書架數量。通常來說,書架越多,能容納的書籍(知識)就越多。但當參數規模擴大到一定程度時,可能會出現效率遞減的情況。這就好比,一味地擴建圖書館、增加書架,但如果新增加的書籍大多是內容重復的,或者是質量低劣、雜亂無章的,那么讀者并不會因為圖書館變大了就變得更聰明——模型的輸出質量也不會因此顯著提升。
反過來,如果模型參數規模過小,則其知識記憶能力會相對較差。 仍然以圖書館為例:如果一個圖書館很小,書架數量有限,卻要容納海量的書籍,那么很可能只能將每本書的內容進行大幅精簡,甚至只保留核心概要。這樣一來,很多知識的細節就會丟失,讀者也就無法獲取全面、深入的信息。但是有必要說明的是,很多小模型的推理能力不差,原因是“推理”與概念體系更相關,概念體系更容易通過知識點的壓縮來達到,這也是之前Ilya為什么說:Compression is Intelligence!
轉向Testing Time Computing Scaling Law
面對預訓練的局限,業界已經將目光轉向Testing Time Computing Scaling Law,即通過推理時增加計算量提升性能。這種趨勢在DeepSeekmR1, OpenAI的o1/o3,Qwen QwQ等模型中已有體現,它們通過更長的思維鏈推理(chain-of-thought)顯著提高了復雜任務的解決能力。
