成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型界「摩爾定律」Densing Law 來了!盲目Scaling將過時!清華劉知遠團隊發現:大模型能力密度約100天翻倍!

原創 精選
人工智能
雖然 OpenAI CEO 奧特曼擲地有聲地說“這里沒有墻”。但是,OpenAI的最近的發布也沒有那么炸了,尤其是 o1 Pro 比滿血版在編程能力上僅高出一分,似乎更讓人相信了“墻”的存在。

整理 | 伊風

出品 | 51CTO技術棧(微信號:blog51cto)

Scaling Law會失效嗎?

雖然 OpenAI CEO 奧特曼擲地有聲地說“這里沒有墻”。但是,OpenAI的最近的發布也沒有那么炸了,尤其是 o1 Pro 比滿血版在編程能力上僅高出一分,似乎更讓人相信了“墻”的存在。

是時候跳出Scaling Law了!

清華NLP實驗室劉知遠教授團隊,提出的Densing Law(密度定律),給了我們一個全新的視角!

圖片圖片

不同于Scaling Law,認為隨著模型規模(如參數數量)、訓練數據集大小等參數的增長,模型性能會按照一定的冪律進行可預測的提高。

大模型的密度定律的表達,與摩爾定律相似,重點討論了能力如何隨著時間而增強。

簡而言之:大模型能力密度約100天翻一倍!

圖片圖片

什么是能力密度呢?

研究團隊將其定義為模型的“有效參數量”與實際參數量的比值,是一種衡量 LLM(Large Language Model)訓練質量的新指標。

舉個論文中的例子:2024年2月1日發布的MiniCPM-1-2.4B,其性能可以與2023年9月27日發布的Mistral-7B相媲美甚至更優。換句話說,4個月后,只需要使用參數量為35%的LLM,即可獲得大致相當的性能。

論文的第一作者說,用該定律推算,到明年年底,一個8B的小模型就可以實現GPT-4那么強悍的效果了。

圖片圖片

此外,研究團隊發現,AI時代的三大核心引擎同樣遵守密度定律,電力、算力與智力(AI),都有各自的倍增周期。其中,電池能量密度倍增時間為10年,芯片電路密度的倍增時間則為18個月。

在論文的主要發現部分,研究團隊還發現了5個重要的推論,讓我們展開講講:

1.模型的推理開銷隨時間呈指數級下降

根據密度定律(Densing Law),每三個月后,我們就可以用參數減半的模型,達到與以前相當的性能效果。

因此,在實現相同任務性能的情況下,推理成本正以指數速度下降。

團隊發現,從2023年1月到現在,GPT-3.5級別模型的推理成本已降低了266.7倍。

圖片圖片

2.大模型能力密度呈加速增強趨勢

團隊比較了 ChatGPT 發布前后 LLM 密度的增長趨勢,發現在這一節點后,LLM 密度的增長速度提高了 50%!

這個結論不意外——可以說這波AI熱就是從ChatGPT發布掀起的。

無論我們怎么吐槽OpenAI的封閉生態,其對AI發展的巨大推動是不可磨滅的。

圖片圖片

3.模型小型化揭示端側智能巨大潛力

摩爾定律(Moore, 1965)指出,相同面積的芯片上集成的電路數量呈指數增長,這意味著計算能力也在指數增長。

而此次提出的密度定律(Densing Law)表明,LLM 的密度每 3.3 個月翻一番。

結合這兩個因素,團隊提出:在價格相同的芯片上可運行的 LLM 有效參數規模的增長速度,超過了 LLM 密度和芯片計算能力的增長速度。

這種雙重增長的模式,就好像在電梯上跑步,讓AI在不遠的未來能在手機等端側上絲滑運行。

圖片圖片

4.無法通過模型壓縮增強模型能力密度

剪枝和蒸餾沒我們想象得那么有用!

在團隊的研究中,通過比較模型與其壓縮版本,發現廣泛使用的剪枝和蒸餾方法通常會使壓縮后的模型密度低于原始模型。

研究認為,應該繼續尋找更高效的模型壓縮算法,尤其應更加注重提升小模型的密度。

圖片圖片

5.密度倍增周期決定模型存在“有效期”

一個殘酷的事實,大模型也有有效期。

每過數月,就會有更加“實惠”的新模型出現,這就意味著模型必須要在有限期之內,獲得足夠的盈利才能收支平衡。

研究團隊以API盈利方式估算,需要2個月內達成17億用戶訪問!

看了這個數字,我們更理解大模型為何如此燒錢。

圖片圖片

密度定律也提醒了AI圈,不要一味地追求Scaling。

更重要的是如何在模型性能與效率間取得平衡。

“盲目增加模型參數以追求性能提升可能會導致模型密度降低,從而引發不必要的能源消耗。例如,盡管 Llama-3.1-405B(Dubey 等,2024)在開源模型中實現了最先進的性能,但其所需的計算資源是其他模型的數百倍。”

因此,未來的議題應該從單純的性能優化轉向密度優化。大模型走出“應試”,不再執著于榜單上的數字,才能真正走入應用的曠野之中。

參考鏈接:

1.https://arxiv.org/abs/2412.04315

2.插圖來源于研究課題組

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2024-12-10 07:00:00

大模型密度定律人工智能

2024-12-10 09:00:00

AI邊緣計算

2022-04-06 15:00:03

模型人工智能研究

2024-08-29 14:05:00

數據模型

2024-03-18 09:22:43

AI模型

2021-10-27 15:42:50

模型人工智能深度學習

2024-10-11 14:00:00

模型數據

2015-05-13 09:58:23

摩爾定律

2010-05-05 09:46:03

NVIDIA摩爾定律

2025-02-21 13:20:00

2025-04-11 09:15:00

語言模型AI數據

2024-11-11 17:35:11

2009-03-10 11:14:59

2010-11-11 11:13:19

紅帽RHEL 6

2024-10-08 10:30:00

AI生成技術

2024-09-11 12:31:59

2022-02-10 09:59:37

計算機定律數字化

2011-05-19 09:06:51

2013-01-09 10:07:37

摩爾定律處理器ARM
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美三级在线 | 日本成人在线网址 | 围产精品久久久久久久 | 国产亚洲一区二区三区在线 | jlzzjlzz国产精品久久 | 久久综合九九 | 欧美福利| 午夜视频一区二区 | 日韩一区欧美一区 | 久久久精品影院 | 精精国产xxxx视频在线野外 | 午夜精品一区二区三区在线视 | 国产成人网 | 久久久久久久国产 | 国产激情在线播放 | hitomi一区二区三区精品 | 欧美日韩在线观看一区 | 99自拍视频 | 亚洲国产欧美91 | 亚洲视频中文字幕 | 成人在线一区二区 | 久久久精品一区二区三区 | 日韩精品一区二区三区中文字幕 | 午夜激情免费视频 | 久久久久久久久久久久亚洲 | 男女爱爱网站 | 国产一区二区三区在线看 | 国产第一页在线播放 | 久久综合一区二区三区 | 午夜视频免费 | 欧美二级| 中文字幕一区二区三区精彩视频 | 国产视频观看 | 日本在线一区二区三区 | 久久精品视频免费看 | 国产精品视频久久久 | 成人av网站在线观看 | 久久久久国产精品一区二区 | a在线免费观看 | 久久99国产精品 | 超碰日本|