新Scaling Law浮出水面！OpenAI內部員工爆料下一代模型Orion性能堪憂；量化Llama3困難，這些都有了新解

作者：言征 2024-11-15 15:31:44

實際的計算節省還取決于硬件對更低精度的支持。此外，這里研究的模型（參數最多達17億個）尚未在最大的實際規模上進行測試。不過，這些一般趨勢仍然適用于更大的模型。?

編輯 | 言征

出品 | 51CTO技術棧（微信號：blog51cto）

Scaling Law 最近被業內不少人士唱衰，一方面以OpenAI為代表大模型廠商們，基本上還是圍繞著GPT-4在探索周邊，雖說不是原地打轉，但單就性能提升而言，就連OpenAI自家的員工都爆料說非常有限。

1.OpenAI內部人士：Orion性能提升遇到瓶頸

昨天，外媒媒體曝出消息稱，奧特曼一直吊胃口的下一代模型“Orion”，也被自家的兩位知情人士，坦承：GPT-4與Orion之間的質量差距明顯小于GPT-3與GPT-4之間的差距，并透露截止到夏末，Orion在回答未經訓練的編碼問題時表現不佳，僅在語言處理能力方面顯示出提升。

這可影響大了，業界都在向著OpenAI學習、追趕，OpenAI的放緩自然也就意味著大模型進展在放緩。

其實，不止這些頭部的模型廠商面臨著規模定律的擴大困境，就連算力有限，只能量化做小模型（例如只有1bit參數的BitNet，再有業內很多基于Llama做量化的小模型）的那些機構同樣也面臨著困境。

那接下來大模型的大小廠商們還能怎么走？除了o1的“慢思考推理”、強化學習外，規模定律短期還有別的出路嗎？

2.新規模定律來了

答案終于來了！

最近，哈佛、斯坦福大學發表了一篇研究論文《Scaling Laws of Precision》掀起了AI圈不小的波瀾，得到了許多研究人士的瘋狂轉發與討論。

圖片

論文中，研究人員進行了一項新研究，指出精度（即模型中用于表示數字的比特數）在模型擴展規律中比之前認為的更為重要，可以顯著影響語言模型的性能。

研究人員指出，在以往描述模型性能隨參數量和訓練數據量變化的擴展規律基本忽略了精度這一因素。

3.大模型已經被過度訓練，Llama3越來越難以量化

論文作者之一Kumar指出了兩點，一點是基于Llama3的量化越來越難，第二點則是發現提高數據精度可以提高量化的性能。

“由于模型在大量數據上過度訓練，因此訓練后量化變得更加困難，因此，如果在訓練后量化，最終原來更多的預訓練數據可能會造成危害！在預訓練期間以不同的精度放置權重、激活或注意力的效果是一致且可預測的，并且擬合縮放定律表明，高精度（BF16）和下一代精度（FP4）的預訓練可能都是次優的設計選擇！”

圖片

具體實驗上，研究團隊進行了超過465次訓練，測試不同精度（3到16位）對模型的影響。實驗使用的語言模型規模達到17億參數，訓練數據量達260億個tokens。研究發現，過度訓練的模型在訓練后對量化處理更為敏感。模型如果在訓練數據量遠超“Chinchilla最優”值20倍時，即被視為過度訓練，這次實驗測試的比率達到了1000倍。

研究人員首先對訓練后量化模型權重的常用技術進行了研究，發現訓練時間越長/預訓練期間用到的數據越多，模型對推理時的量化就越敏感，這解釋了為什么 Llama-3 可能更難量化。

“事實上，這種損失下降大致是預訓練期間的token/參數比率的冪律，因此你可以提前預測臨界數據大小，如果你正在為量化模型提供服務，則超過該臨界數據大小，對更多數據進行預訓練將會產生積極影響。”

“直覺可能是，隨著你在更多數據上進行訓練，越來越多的知識被壓縮為權重，給定的擾動將對性能造成更大的損害。 ”

下面是一個固定語言模型，該模型對各種數據預算進行了過度訓練，最高可達 300 億個 token，之后進行訓練后量化。這表明，更多的預訓練 FLOP 并不一定能帶來更好的生產模型。具體的實驗數字和圖示如下：

圖片

（左）以固定的模型大小，針對不同的數據量在BF16精度下進行訓練，并在最后對權重進行量化。研究發現，由于訓練后量化所導致的性能下降會隨著預訓練期間觀察到的標記（token）數量的增加而增加，因此，最終額外的預訓練數據可能會產生負面影響。

（右）我們的擴展研究表明，根據論文中的成本模型，以較低的精度訓練更大的模型可能是計算上最優的選擇。權重、激活值、注意力機制均進行了量化，所有模型均在同一數據量下進行訓練，具體細節見附錄H。

然后該研究將注意力轉向低精度訓練，主要研究量化感知訓練（僅權重）和低精度訓練。該研究將模型分解為權重、激活和 KV 緩存，找到其中任何一個量化到任意精度時損失的 Scaling Law，并開發一種組合且可解釋的函數形式來預測在預訓練期間，量化這三者的任意組合對損失的影響。

4.新Scaling Law：精度擴展定律

作者介紹道，新發現的精度擴展定律依賴于“有效參數數量”的概念，“我們假設它是在固定數量的真實參數下降低精度時減少的數量，因此在 FP4 中訓練的 10 億參數模型具有與 BF16 中的 2.5億參數模型相當的‘有效參數’數量。”

雖然權重可以在低精度下訓練而不會出現問題，但激活和 KV 緩存卻很敏感。下面是標準化的“有效參數計數”，作為每個（權重、激活、KV 緩存）的精度函數，以及當它們都保持相同精度（綁定）時，基于我們的擬合。

圖片

實驗還揭示了基于新擴展規律的計算最優精度。研究表明，當模型參數、數據和精度聯合優化時，這一最優精度通常獨立于計算預算。劃重點：下面的結論很重要——

首先，通過實驗，研究人員制定了新的精度縮放定律。另一項重要發現則提出了預訓練期間計算的最優精度。根據該研究，當同時優化參數數量、數據和精度時，這一精度通常與計算預算無關。

其次，普遍采用的16位模型訓練法并非最優，因為很多位是多余的。然而，使用4位進行訓練則需要不成比例地增加模型大小，以維持損失縮放。研究人員的計算表明，對于較大的模型而言，7-8位是計算最優的。

但是，當模型大小從一開始就固定時，情況就會發生變化：更大且訓練更好的模型應以更高的精度進行訓練——例如，使用16位的Llama 3.1 8B模型。

然而，實際的計算節省還取決于硬件對更低精度的支持。此外，這里研究的模型（參數最多達17億個）尚未在最大的實際規模上進行測試。不過，這些一般趨勢仍然適用于更大的模型。

5.寫在最后OpenAI或轉向專有模型或應用

正如文章開頭提到的，OpenAI難產的下一代大模型，如果按照此前的設想，將會面臨短期難以克服的困難：模型的參數規模沒有更大的算力儲備，即便儲備充足，這一新模型也會在數據中心的運行成本只會更加昂貴，再者還有一個硬傷：

這也是OpenAI內部研究人員指出的，高質量訓練數據的缺乏是性能提升放緩的原因之一，因為大部分公開的文本和數據已被使用。為此，OpenAI創建了一個由Nick Ryder領導的“基礎團隊”（Foundations Team），以應對數據資源短缺問題。

這些都需要大量的時間等待去補足。

而哈佛、斯坦福的這篇研究也被很多AI圈人士看好，比如知名AI研究員Tim Dettmers，認為這些結果揭示了量化的局限性。他預計，隨著低精度帶來的效率提升達到極限，將出現從純規模擴張向專用模型和人本應用的轉變。

簡單理解，就是純規模擴張的量化模型已迎來瓶頸，專用模型勢必在接下來一年大放異彩。

想了解更多AIGC的內容，請訪問：

51CTO AI.x社區

http://www.ekrvqnd.cn/aigc/

責任編輯：武曉燕來源： 51CTO技術棧

OpenAI AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看