僅需Llama3 1/17的訓(xùn)練成本，Snowflake開源128x3B MoE模型

發(fā)布于 2024-4-25 13:16

瀏覽

0收藏

Snowflake 發(fā)布高「企業(yè)智能」模型 Arctic，專注于企業(yè)內(nèi)部應(yīng)用。

剛剛，數(shù)據(jù)管理和倉庫提供商 Snowflake 宣布加入 LLM 混戰(zhàn)，發(fā)布了一款專注于企業(yè)級應(yīng)用的頂級大型語言模型（LLM）——Snowflake Arctic。

作為一家云計算公司推出的 LLM，Arctic 主要具備以下兩個方面的優(yōu)勢：

高效智能：Arctic 在企業(yè)任務(wù)方面表現(xiàn)出色，例如 SQL 生成、編程和指令遵循，甚至可與使用更高計算成本訓(xùn)練的開源模型媲美。Arctic 為經(jīng)濟(jì)高效的訓(xùn)練設(shè)定了新的基線，使 Snowflake 客戶能夠以低成本為其企業(yè)需求創(chuàng)建高質(zhì)量的定制模型。
開源開放：Arctic 采用 Apache 2.0 許可，提供對權(quán)重和代碼的開放訪問，Snowflake 還將開源所有的數(shù)據(jù)方案和研究發(fā)現(xiàn)。?

現(xiàn)在，你可以在 Hugging Face 上訪問 Arctic 模型。Snowflake 表示：用戶很快可以通過一些模型庫獲取，包括 Snowflake Cortex、AWS、微軟 Azure、NVIDIA API、Lamini、Perplexity、Replicate 和 Together 等。

僅需Llama3 1/17的訓(xùn)練成本，Snowflake開源128x3B MoE模型-AI.x社區(qū)

Hugging Face：https://huggingface.co/Snowflake/snowflake-arctic-instruct

Arctic 的上下文窗口設(shè)置為 4K，研究團(tuán)隊正在研發(fā)基于注意力池（attention-sink）的滑動窗口實(shí)現(xiàn)，在未來幾周內(nèi)將支持無限序列生成，并在不久的將來擴(kuò)展到 32K 注意力窗口。

高性能、低成本

Snowflake 的研究團(tuán)隊從企業(yè)客戶的 AI 需求和使用案例中看到了一個一致的模式：企業(yè)希望使用 LLM 構(gòu)建對話式 SQL 數(shù)據(jù) copilot、代碼 copilot 和 RAG 聊天機(jī)器人。

這意味著 LLM 需要在 SQL、代碼、復(fù)雜指令遵循和生成具體響應(yīng)方面表現(xiàn)出色。Snowflake 將這些能力融合成一個稱為「企業(yè)智能」的單一指標(biāo)，具體方式是對編碼（HumanEval + 和 MBPP+）、SQL 生成（Spider）和指令遵循（IFEval）性能水平取平均值。

Arctic 在開源 LLM 中達(dá)到了頂級的「企業(yè)智能」水平，而且是在大約不到 200 萬美元的訓(xùn)練計算成本（少于 3K GPU 周）的情況下做到的。這意味著 Arctic 比其他使用類似計算成本訓(xùn)練的開源模型能力更強(qiáng)。

更重要的是，即使與那些使用遠(yuǎn)高于其的計算成本訓(xùn)練的模型相比，Arctic 在企業(yè)智能方面也表現(xiàn)出色。Arctic 的高訓(xùn)練效率意味著 Snowflake 的客戶和整個 AI 社區(qū)可以以更經(jīng)濟(jì)的方式訓(xùn)練定制模型。

如圖 1 所示，Arctic 在企業(yè)智能指標(biāo)上與 LLAMA 3 8B 和 LLAMA 2 70B 不相上下，而使用的訓(xùn)練計算成本不到一半。并且，盡管僅使用 1/17 倍的計算成本，Arctic 在編碼（HumanEval + 和 MBPP+）、SQL（Spider）和指令遵循（IFEval）等指標(biāo)上可與 Llama3 70B 媲美，即 Arctic 在保持整體性能競爭力的同時做到了這一點(diǎn)。

僅需Llama3 1/17的訓(xùn)練成本，Snowflake開源128x3B MoE模型-AI.x社區(qū)

此外，Snowflake 還在學(xué)術(shù)基準(zhǔn)上評估了 Arctic，涉及世界知識、常識推理和數(shù)學(xué)能力，完整評估結(jié)果如下圖所示：

僅需Llama3 1/17的訓(xùn)練成本，Snowflake開源128x3B MoE模型-AI.x社區(qū)

訓(xùn)練效率

為了達(dá)到上述訓(xùn)練效率，Arctic 采用一種獨(dú)特的 Dense-MoE 混合 transformer 架構(gòu)。它將一個 10B 的密集 transformer 模型與一個 128×3.66B 的殘差 MoE MLP 結(jié)合起來，總共有 480B 參數(shù)和 17B 活躍參數(shù)，使用 top-2 gating 來進(jìn)行選擇。

設(shè)計和訓(xùn)練 Arctic 時，研究團(tuán)隊使用了以下三個關(guān)鍵的見解和創(chuàng)新：

MoE 專家數(shù)量多，并采取壓縮技術(shù)

2021 年底，DeepSpeed 團(tuán)隊證明了 MoE 可以應(yīng)用于自回歸 LLM，從而顯著提高模型質(zhì)量而不增加計算成本。在設(shè)計 Arctic 時，研究團(tuán)隊注意到，基于這個思路，模型質(zhì)量的提高主要取決于 MoE 模型中的專家數(shù)量和總參數(shù)量，以及這些專家的組合方式數(shù)量。

基于此，Arctic 被設(shè)計為在 128 個細(xì)粒度（fine-grained）專家之間分布 480B 參數(shù)，并使用 top-2 gating 來選擇 17B 活躍參數(shù)。

架構(gòu)與系統(tǒng)協(xié)同設(shè)計

在強(qiáng)大的 AI 訓(xùn)練硬件上訓(xùn)練具有大量專家的基本 MoE 架構(gòu)非常低效，因為專家之間的全連接通信開銷很高。Snowflake 發(fā)現(xiàn)，如果通信可以與計算重疊，就可以省去這種開銷。

因此，Arctic 將密集 transformer 與殘差 MoE 組件相結(jié)合（圖 2），通過通信計算重疊，使訓(xùn)練系統(tǒng)能夠?qū)崿F(xiàn)良好的訓(xùn)練效率，隱藏了通信開銷的大部分。

僅需Llama3 1/17的訓(xùn)練成本，Snowflake開源128x3B MoE模型-AI.x社區(qū)

聚焦企業(yè)數(shù)據(jù)的課程學(xué)習(xí)

在代碼生成和 SQL 等企業(yè)級指標(biāo)上表現(xiàn)出色需要與通用指標(biāo)截然不同的數(shù)據(jù)課程學(xué)習(xí)（Curriculum Learning）。通過數(shù)百次小規(guī)模的消融實(shí)驗，該團(tuán)隊了解到通用技能，如常識推理，可以在初始階段學(xué)習(xí)；而編碼、數(shù)學(xué)和 SQL 等更復(fù)雜的指標(biāo)可以在訓(xùn)練后期有效學(xué)習(xí)。

這可以類比于人類的生活教育，從簡單到困難逐步獲取能力。因此，Arctic 使用一個三階段的課程學(xué)習(xí)，每個階段的數(shù)據(jù)構(gòu)成都不同，第一階段側(cè)重于通用技能（1T token），后兩個階段側(cè)重于企業(yè)技能（1.5T 和 1T token）。

僅需Llama3 1/17的訓(xùn)練成本，Snowflake開源128x3B MoE模型-AI.x社區(qū)

推理效率

僅需Llama3 1/17的訓(xùn)練成本，Snowflake開源128x3B MoE模型-AI.x社區(qū)

推理效率也是模型高效的一個重要方面，影響到模型是否可以在低成本下進(jìn)行實(shí)際部署。

Arctic 代表了 MoE 模型規(guī)模的一次飛躍，它比任何其他開源自回歸 MoE 模型都使用了更多的專家和總參數(shù)。因此，Snowflake 需要幾個創(chuàng)新思路來確保 Arctic 能夠高效推理：

a) 在批大小較小的交互推理中，例如批大小為 1，MoE 模型的推理延遲受制于讀取所有活躍參數(shù)的時間，推理是受內(nèi)存帶寬限制的。在這種批大小下，Arctic（17B 活躍參數(shù)）的內(nèi)存讀取量僅為 Code-Llama 70B 的 1/4、Mixtral 8x22B（44B 活躍參數(shù)）的 2/5，從而具備更快的推理速率。

b) 當(dāng)批大小顯著增加，例如每次前向傳遞數(shù)千個 token 時，Arctic 從內(nèi)存帶寬受限轉(zhuǎn)變?yōu)橛嬎闶芟蓿评硎艿矫總€ token 的活躍參數(shù)的限制。在這方面，Arctic 的計算量是 CodeLlama 70B 和 Llama 3 70B 的 1/4。

為了實(shí)現(xiàn)計算受限的推理和與 Arctic 中少量活躍參數(shù)相匹配的高吞吐量，需要一個較大的批大小。實(shí)現(xiàn)這一點(diǎn)需要有足夠的 KV 緩存來支持，同時還需要足夠的內(nèi)存來存儲模型的近 500B 參數(shù)。

雖然具有挑戰(zhàn)性，但 Snowflake 通過使用兩個節(jié)點(diǎn)進(jìn)行推理，并結(jié)合 FP8 權(quán)重、split-fuse 和連續(xù)批處理、節(jié)點(diǎn)內(nèi)張量并行以及節(jié)點(diǎn)間 pipeline 并行等系統(tǒng)優(yōu)化來實(shí)現(xiàn)。

研究團(tuán)隊已與 NVIDIA 展開密切合作，針對由 TensorRT-LLM 驅(qū)動的 NVIDIA NIM 微服務(wù)進(jìn)行推理優(yōu)化。同時，研究團(tuán)隊還與 vLLM 社區(qū)合作，內(nèi)部開發(fā)團(tuán)隊也將在未來幾周內(nèi)為企業(yè)用例實(shí)現(xiàn) Arctic 的高效推理。

本文轉(zhuǎn)自機(jī)器之心，作者：機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/0mqx1xkyhOXDGpbu42d_5g??

標(biāo)簽

模型開源

贊

回復(fù)