成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Scaling Law不是唯一視角!清華劉知遠團隊提出大模型“密度定律”:模型能力密度100天翻番

人工智能
清華NLP實驗室劉知遠教授團隊,最新提出大模型的密度定律(densing law),表達形式讓人想到芯片領域的摩爾定律:模型能力密度隨時間呈指數級增長,2023年以來能力密度約每3.3個月(約100天)翻一倍。

Scaling Law并非描述大模型能力的唯一視角!

清華NLP實驗室劉知遠教授團隊,最新提出大模型的密度定律(densing law),表達形式讓人想到芯片領域的摩爾定律:

模型能力密度隨時間呈指數級增長,2023年以來能力密度約每3.3個月(約100天)翻一倍。

圖片

根據密度定律,研究團隊還得出以下重要推論——AI時代的三大核心引擎——電力、算力與智力,都同樣遵循密度快速增長趨勢。

圖片圖片

為了發現這一結論,研究團隊引入了一項衡量大模型性價比的新指標——能力密度(capability density)。

團隊通過設置參考模型的方式,將“能力密度”定義為了“有效參數量”與實際參數量的比值。

給定目標模型后,其“有效參數量”被定義為實現與目標模型一樣的效果,參考模型需要的最少參數量。

論文第一作者肖朝軍表示,根據擬合曲線,到了明年年底,只要8B參數就能實現和GPT-4一樣的效果。

圖片

論文地址:https://arxiv.org/abs/2412.04315

大模型“能力密度”三個月翻一番

大模型尺度定律(Scaling Law)和密度定律(Densing Law),都是大模型指導性的規律發現。

它們分別在不同的維度,對大模型進行科學化的推演。

大模型尺度定律是一種描述大模型隨著規模的變化而發生的規律性變化的數學表達,表現為大模型的Loss與模型參數規模、訓練數據規模之間的冪律關系。

尺度定律之外,清華研究團隊發現,大模型還有另一種度量與優化的空間,能力密度(Capability Density),它為評估不同規模 LLM 的訓練質量提供了新的統一度量框架。

清華研究團隊提出的“能力密度”(Capability Density),定義為給定LLM的有效參數大小與實際參數大小的比率

有效參數大小指的是達到與目標模型同等性能所需的參考模型的參數數量。

清華研究團隊特別引入了參考模型(Reference Model)的概念,通過擬合參考模型在不同參數規模下的性能表現,建立起參數量與性能之間的映射關系。

具體來說,若一個目標模型M的參數量為NM ,其在下游任務上的性能分數為SM,研究人員會計算出參考模型要達到相同性能所需的參數量 N(SM),即“有效參數量”。

目標模型M的密度就定義為這個“有效參數量”與其實際參數量的比值:

ρ(M) = N(SM)/NM。

比如一個3B的模型能達到6B參考模型的性能,那么這個3B模型的能力密度就是2(6B/3B)

為了準確估計模型性能,研究團隊采用了兩步估計法。

第一步是損失(Loss)估計,通過一系列不同規模的參考模型來擬合參數量與語言模型Loss之間的關系;

第二步是性能估計,考慮到涌現能力的存在,研究人員結合開源模型來計算它們的損失和性能,最終建立起完整的映射關系。

通過研究分析近年來29個被廣泛使用的開源大模型,清華研究團隊發現,LLMs的最大能力密度隨時間呈指數增長趨勢,可以用公式ln(ρmax) = At + B來描述.

其中ρmax是時間t時LLMs的最大能力密度。

密度定律表明,大約每過3.3個月(100天),就能用參數量減半的模型達到當前最先進模型的性能水平。

圖片

ChatGPT發布后,能力密度增長更快了

基于密度法則,清華研究團隊提出了多個重要推論。

首先,模型推理開銷隨時間指數級下降。

2022年12月的GPT-3.5模型每百萬Token的推理成本為20美元,而2024年8月的Gemini-1.5-Flash模型僅為0.075美元,成本降低了266倍,約2.5個月下降一倍。

與此同時,大模型推理算法不斷取得新的技術突破——模型量化、投機采樣、顯存優化。

圖片

其次,研究還發現,自ChatGPT發布以來,大模型能力密度正在加速增強。

以MMLU為評測基準測量的能力密度變化情況,ChatGPT發布前按照每4.8倍增,發布后按照每3.2月倍增,密度增強速度增加50%。

這一現象背后,更高效模型引起了學術界和產業的廣泛關注,誕生了更多高質量開源模型。

圖片

再次,芯片電路密度(摩爾定律)和模型能力密度(密度定律)持續增強,兩條曲線交匯揭示端側智能巨大潛力。

研究顯示,在摩爾定律的作用下,相同價格芯片的計算能力每2.1年翻倍,而密度法則表明模型的有效參數規模每3.3個月翻倍。

兩條曲線的交匯,意味著主流終端如PC、手機將能運行更高能力密度的模型,推動端側智能在消費市場普及。

圖片

此外,團隊指出,無法僅依靠模型壓縮算法增強模型能力密度。

也就是說,現有的模型壓縮技術(如剪枝和蒸餾)未必能提高模型密度。

實驗表明,大多數壓縮模型的密度低于原始模型,模型壓縮算法雖可以節省小參數模型構建開銷。

但是如果后訓練不充分,小參數模型能力密度非但不會增長,反而會有顯著下降。

圖片

最后,研究團隊指出,模型高性價比有效期不斷縮短。

根據尺度定律,更多數據+更多參數實現能力增強,訓練成本會急劇上升;

而能力密度定律,隨著能力密度加速增強,每隔數月會出現更加高效的模型。

這意味著模型高性價比的有效使用期縮短,盈利窗口短暫。

例如,2024年6月發布的Google Gemma-2-9B模型,其訓練成本約185 萬人民幣;

但僅兩個月后,它的性能就被參數量減半的MiniCPM-3-4B超越。

以API盈利方式估算,2個月內需要17億次用戶訪問,才能夠收回訓練成本!

圖片

尺度定律下,LLM規模至上。而在密度定律下,LLM正進入一個全新的發展階段。

在清華劉知遠老師最新報告中,AI時代的三大核心引擎——電力、算力與智力,密度都在快速增長:

  • 電池能量密度在過去20年中增長了4倍,其倍增周期約為10年;
  • 摩爾定律則揭示,芯片的晶體管密度每18個月翻倍;
  • 而AI模型能力密度每100天翻倍的速度更是驚人。

圖片

尤其是模型能力密度的提升也意味著用更少的資源實現更強的能力,這不僅降低了AI發展對能源和算力的需求,也為AI技術的可持續發展提供了無限可能。同時也揭示了端側智能的巨大潛力。

在這一趨勢下,AI計算從中心端到邊緣端的分布式特性協同高效發展,將實現“AI無處不在”的愿景。

作者預計,隨著全球AI計算云端數據中心、邊緣計算節點的擴張,加上模型能力密度增長帶來的效率提升,我們將看到更多本地化的AI模型涌現,云端和邊緣端各司其職,可運行LLM的終端數量和種類大幅增長,“AI 無處不在”的未來正在到來。

論文地址:https://arxiv.org/abs/2412.04315

責任編輯:姜華 來源: 量子位
相關推薦

2024-12-09 17:20:29

2024-12-10 09:00:00

AI邊緣計算

2022-04-06 15:00:03

模型人工智能研究

2024-08-29 14:05:00

數據模型

2024-09-02 14:30:00

數據訓練

2025-04-11 09:15:00

語言模型AI數據

2024-10-11 14:00:00

模型數據

2024-11-11 17:35:11

2023-06-20 13:44:49

清華推理

2024-02-23 11:27:00

數據技術

2025-02-21 13:20:00

2024-09-11 12:31:59

2025-03-17 12:55:18

2023-10-31 17:28:00

數據訓練

2024-11-11 14:00:00

AI模型

2024-12-24 10:30:00

2025-04-23 12:09:25

RL大模型進化

2023-09-10 10:51:22

算法結構

2023-11-23 07:41:54

因果推斷大模型

2024-09-20 16:20:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品一区免费 | 女生羞羞视频 | 亚洲国产一区二区三区 | 久久久久久久久中文字幕 | 欧美成年网站 | 久久99精品视频 | 先锋影音资源网站 | 玖玖综合网 | 日韩三片 | 黄色片免费看 | 日本理论片好看理论片 | 欧美精品在线免费观看 | 老司机久久 | 91短视频网址 | 成人国产在线观看 | 成人精品鲁一区一区二区 | 国产精品综合网 | 黄色毛片免费看 | 999久久精品| 久久久久一区 | 成人妇女免费播放久久久 | 中文字幕av在线 | 中国一级特黄真人毛片 | 精品一区二区三区在线视频 | 免费视频一区 | 日本黄色免费大片 | 久久久91精品国产一区二区精品 | 成人亚洲精品 | 91麻豆精品国产91久久久更新资源速度超快 | 久草www | 国产最新视频在线 | 黄色小视频大全 | 日韩高清不卡 | 久久久久久久一级 | 久久在线精品 | 欧美日韩一区在线播放 | 91精品久久久久久久久久入口 | 欧美涩| 在线一区二区三区 | 欧美高清成人 | 热久久国产 |