成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4.5發布了,參數規模可能在3-5萬億之間,宣稱是最好的聊天模型,但有“強弩之末”的感覺

發布于 2025-3-13 06:57
瀏覽
0收藏

2月28日OpenAI發布了GPT-4.5,OpenAI稱這是其迄今為止最大的預訓練模型。我有點期待GPT-4.5會帶來令人振奮的突破。然而,從官方披露的信息以及實際表現來看,GPT-4.5沒有展現出超越前代模型的顯著優勢。有點“強弩之末”的感覺。可能再次驗證了業界比較廣泛的認知:“單純擴大模型參數規模,對性能提升的邊際效應正在遞減” 。接下來分幾個章節,談談我的感受。

期待與現實的落差

GPT-4.5 被 OpenAI 定位為“our largest and best model for chat yet”,暗示其在規模和技術能力上的重要進展。然而,與兩年前 GPT-4發布時的轟動效應相比,GPT-4.5 的亮相顯得低調(奧特曼沒有參加)。官方文章提到,其核心進步在于通過擴展無監督學習(unsupervised learning,可以理解為“預訓練”)提升了知識廣度和可靠性,但并未強調推理能力的顯著增強。我認為,盡管 GPT-4.5 在某些領域(如減少幻覺)有所改進,但整體表現并未帶來顛覆性的驚喜。

GPT-4.5 的技術細節與參數規模估測

OpenAI 未公開 GPT-4.5 的具體參數數量,但從其描述和行業趨勢來看,我們推測一下。

  1. 基準參考GPT-4的參數規模據推測約為1.76萬億(https://en.wikipedia.org/wiki/GPT-4)。
  2. 計算資源官方文件提到GPT-4.5在Microsoft Azure AI超級計算機上訓練,這表明其計算需求可能遠超GPT-4。
  3. 模型架構假設GPT-4.5可能延續了Mixture of Experts(MoE)架構(https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/ ),MoE架構能在參數規模增加的同時優化計算效率。結合MoE模型的參數分布特點,我推測 GPT-4.5 的參數規模在3萬億至5萬億之間。
  4. 性能反饋驗證官方數據表明,GPT-4.5在SimpleQA準確率上為62.5%,相較GPT-4o略有提升。暗示參數規模的增長未帶來比例相當的性能增益,支持其規模可能在3萬億至5萬億的假設——足夠大,但未達天文數字。

GPT-4.5發布了,參數規模可能在3-5萬億之間,宣稱是最好的聊天模型,但有“強弩之末”的感覺-AI.x社區

更大規模為何未帶來耀眼表現?

GPT-4.5 的訓練聚焦于擴展無監督學習,通過增加計算資源和數據量提升模型的“世界知識深度”(deeper world knowledge)。官方稱其在知識問答中的幻覺率降低,且在日常查詢(63.2% 勝率)和專業查詢(56.8% 勝率)中優于 GPT-4o。此外,GPT-4.5 未引入顯著的推理增強機制,而是強化了與人類的協作能力(如更高的“EQ”和 steerability)。這些特點表明,OpenAI 在GPT-4.5中選擇了“廣度優先”的發展路徑,而非“深度突破”。

盡管 GPT-4.5 的參數規模可能達到 3 萬億,其性能提升卻遠不如預期。例如,在學術基準測試中,GPT-4.5 的 AIME 2024(數學競賽)得分僅為 36.7%,雖高于 GPT-4o 的 9.3%,但遠不及推理模型 OpenAI o1 的 87.3%。同樣,在 SWE-Bench Verified(編碼任務)中,GPT-4.5 的 38.0% 表現雖優于 GPT-4o(30.7%),但并未展現出壓倒性優勢。這種“規模大、增益小”的現象可能源于以下原因:

  1. 數據質量瓶頸訓練數據的總量雖增加,但其中人類有效知識的比例可能不足。GPT-4.5 在SimpleQA上幻覺率降低,表明其知識記憶更準確,但推理能力未見顯著增強。這可能因為數據中缺乏足夠的高質量邏輯推理樣本,導致模型在“記憶”上進步,卻在“思考”上停滯。
  2. 架構效率限制我們可以用圖書館來類比Transformer架構的大模型。參數規模可以視為圖書館的書架數量。通常來說,書架越多,能容納的書籍(知識)就越多。但當參數規模擴大到一定程度時,可能會出現效率遞減的情況。這就好比,一味地擴建圖書館、增加書架,但如果新增加的書籍大多是內容重復的,或者是質量低劣、雜亂無章的,那么讀者并不會因為圖書館變大了就變得更聰明——模型的輸出質量也不會因此顯著提升。

    反過來,如果模型參數規模過小,則其知識記憶能力會相對較差。 仍然以圖書館為例:如果一個圖書館很小,書架數量有限,卻要容納海量的書籍,那么很可能只能將每本書的內容進行大幅精簡,甚至只保留核心概要。這樣一來,很多知識的細節就會丟失,讀者也就無法獲取全面、深入的信息。但是有必要說明的是,很多小模型的推理能力不差,原因是“推理”與概念體系更相關,概念體系更容易通過知識點的壓縮來達到,這也是之前Ilya為什么說:Compression is Intelligence!

轉向Testing Time Computing Scaling Law

面對預訓練的局限,業界已經將目光轉向Testing Time Computing Scaling Law,即通過推理時增加計算量提升性能。這種趨勢在DeepSeekmR1, OpenAI的o1/o3,Qwen QwQ等模型中已有體現,它們通過更長的思維鏈推理(chain-of-thought)顯著提高了復雜任務的解決能力。

本文轉載自??后向傳播??,作者: 張發恩 ????


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产97碰免费视频 | 久久青草av | 国产婷婷色综合av蜜臀av | 欧美日韩成人影院 | 国产在线一区二区 | 国产精品久久久久久婷婷天堂 | 97免费视频在线观看 | 精品少妇一区二区三区在线播放 | 中日字幕大片在线播放 | 日本一区二区三区在线观看 | 国产农村妇女精品一二区 | 一区二区精品 | 草在线| 一区二区在线 | www.天天操| 午夜一级黄色片 | 激情久久av一区av二区av三区 | а_天堂中文最新版地址 | 亚洲黄色一级 | 日本视频在线播放 | 久草免费福利 | 成人免费视频观看 | 97精品久久| 欧美狠狠操 | 瑟瑟激情| 国产日韩欧美一区 | 亚洲天堂二区 | 精品日韩在线 | 国家aaa的一级看片 h片在线看 | 一级午夜aaa免费看三区 | 亚洲嫩草 | 国产视频久久 | 欧美成人一区二免费视频软件 | 国产精品一区二区视频 | 日韩三级电影在线看 | 欧美精品在线观看 | 免费h视频 | 华丽的挑战在线观看 | 国产精品福利在线 | 精品久久中文 | av手机在线免费观看 |