成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一條磁力鏈爆全網,Mixtral 8x7B論文來了!碾壓Llama 2 70B,每token僅需激活13B參數

人工智能 新聞
爆火社區的Mixtral 8x7B模型,今天終于放出了arXiv論文!所有模型細節全部公開了。

還記得一個月前,Mistral AI突然公布的一條磁力鏈接,引爆了整個AI社區。

緊接著,Mixtral 8x7B的技術細節隨之公布,其表現不僅優于Llama 2 70B,而且推理速度提高了整整6倍。

甚至,它在大多數標準基準測試上與GPT-3.5打平,甚至略勝一籌。

今天,這家法國初創正式發布了Mixtral 8x7B混合專家模型(Mixtral of Experts)的論文。

論文地址:https://arxiv.org/abs/2401.04088

網友紛紛表示,最好的開源模型論文終于發布了。

具體技術細節,我們一探究竟。

架構

Mixtral是一個稀疏的混合專家網絡,而且是一個純解碼器模型。其中前饋塊從一組8個不同的參數組中進行選擇。

在每一層,對于每個token,路由網絡都會選擇其中的兩個組「專家」來處理token,并將它們的輸出相加。

這項技術不僅增加了模型的參數數量,而且控制了成本和延遲,因為模型每處理一個token只會使用部分參數。

具體來說,Mixtral使用32000個token的上下文信息時進行了預訓練。在多項基準測試中,它的性能達到或超過Llama 2 70B和GPT-3.5。

尤其,Mixtral在數學、代碼生成和多語言理解任務方面,表現卓越,并在這些領域顯著優于Llama 2 70B。

而且研究表明,Mixtral能夠成功地從32k token的上下文窗口中檢索信息,無論序列長度和信息在序列中的位置如何。

架構細節

Mixtra基于Transformer架構打造,并使用了「Mistral 7B」論文中一些模型修改方法。

但明顯不同的是,Mixtral完全支持32k token的全密集上下文長度,并且前饋塊被混合專家層(Mixture-of-Expert layer)所取代。先看如下表1,匯總了模型架構的具體參數。

圖片

稀疏混合專家

下圖所示,研究人員具體介紹了混合專家層。

這是一個處理輸入數據的特殊層,在這里,每個輸入數據點都會被分配給8個處理單元(稱為「專家」)中的2個。

這個分配過程是由一個路由完成的,但這里的路由并不是我們通常說的網絡設備,而是神經網絡中的一個組件,它負責決定哪些「專家」來處理特定的數據點。

每個「專家」實際上是一個處理模塊,它們各自獨立處理被分配的數據,并輸出結果。

最終,這層的輸出結果是由這2個被選中的「專家」的輸出經過特定的加權計算后得到的。

在Mixtral這個系統中,每個「專家」其實就是一個標準的前饋網絡模塊,這種模塊也被用在了我們所說的標準Transformer模型架構中。

混合專家層(Mixture of Experts Layer)

MoE層可以在具有高性能專用內核的單個GPU上高效運行。

比如Megablocks將MoE層的前饋網絡(FFN)操作轉換為大型稀疏矩陣乘法,顯著提高了執行速度,并自然地處理不同專家獲得分配它們的可變數量token的情況。

此外,MoE層可以通過標準模型并行技術以及一種稱為專家并行(EP)的特殊分區策略分布到多個GPU。

在MoE層執行期間,本應由特定專家處理的token將被路由到相應的GPU進行處理,并且專家的輸出將返回到原始token位置。

結果

研究人員對Mixtral和Llama進行了對比研究,為了確保比較的公正性,并重新運行了所有的基準測試,這一次采用了內部開發的評估流程。

研究人員在多種不同的任務上進行了性能評估,這些任務可以分為以下幾類:

- 常識推理(零樣本):包括Hellaswag,Winogrande,PIQA,SIQA,OpenbookQA,ARC-Easy,ARC-Challenge,以及CommonsenseQA

- 世界知識(少樣本,5個樣本):涵蓋了NaturalQuestions和TriviaQA

- 閱讀理解(零樣本):BoolQ和QuAC

- 數學:GSM8K(少樣本,8個樣本)使用了多數投票法(maj@8),以及MATH(少樣本,4個樣本)同樣采用了多數投票法(maj@4)

- 編程代碼:Humaneval(零樣本)和MBPP(少樣本,3個樣本)

- 綜合性測試:MMLU(少樣本,5個樣本),BBH(少樣本,3個樣本),還有AGI Eval(少樣本,3至5個樣本,僅限英語選擇題)

可以看到,在所有基準測試中,Mixtral的表現都超過,或至少與Llama 2 70B相當。值得一提的是,在數學和代碼生成這兩個領域,Mixtral顯著優于Llama 2 70B。

圖片

Mixtral與不同參數的Llama模型在一系列基準測試中的性能對比

如下表2展示了Mixtral 8x7B、Mistral 7B以及Llama 2 7B/13B/70B和Llama 1 34B的詳細結果。

模型參數規模與效率對比

研究人員將Mixtral模型的性能與Llama 2系列做了對比,目的是要探究Mixtral在成本與性能比上的高效性(圖3)。

作為一種稀疏的混合專家模型(Sparse Mixture-of-Experts model),Mixtral每處理一個token只需激活13B參數。盡管活躍參數減少了5倍,但Mixtral在大部分領域的表現仍然超過了Llama 2 70B。

此外,需要指出的是,這項分析主要關注活躍參數的數量,這個數量直接關聯到推理階段的計算成本,不過并未涉及內存成本和硬件的使用效率。

用于運行Mixtral的內存成本與其稀疏參數的總數有關,總共為47B,這仍然比Llama 2 70B參數要少。

關于硬件的使用率,研究人員注意到由于專家模型的路由機制,SMoEs層會引入額外的計算成本。

而且當每個硬件設備運行多個專家模型時,由于內存需求增加,也會帶來更高的成本。這種模型更適用于可以實現高運算密度的批量處理任務。

與Llama 2 70B和GPT-3.5的性能比較

在表3中,研究人員展示了Mixtral 8x7B與Llama 2 70B、GPT-3.5在性能上的對比結果。

通過對比,研究人員還發現Mixtral在多個方面表現媲美,甚至超越了另外兩個模型。

在多模態學習理解(MMLU)的評測中,Mixtral盡管在模型參數量上較小(47B token對比70B),性能卻更勝一籌。

至于機器翻譯評測(MT Bench),研究人員則是報告了當前最新的GPT-3.5-Turbo模型,即gpt-3.5-turbo-1106版本的性能數據。

可以看到,在所有基準測試中,Mixtral的表現普遍優于Llama 2 70B,唯一的例外是在閱讀理解基準測試中,當其激活參數數量僅為Llama 2 70B的1/5時。

特別是在代碼和數學領域,Mixtral顯著勝過Llama 2 70B。

Mixtral(7B/8x7B)與 Llama 2(7B/13B/70B)在MMLU、常識推理、世界知識、閱讀理解、數學和代碼方面的比較結果

多語言基準

與Mistral 7B相比較,研究人員在模型預訓練階段,顯著提高了多語言數據的比重。

這種增加的模型參數讓Mixtral在多語種的性能評估中表現出色,同時還不損失對英語的準確度。

尤其值得一提的是,Mixtral在處理法語、德語、西班牙語和意大利語的任務上,明顯勝過了Llama 2 70B,具體成績可以參見表4。

長距離性能

為了檢驗Mixtral在處理涉及廣泛信息的情境下的表現,研究人員還提出了一項稱為passkey檢索的任務對其進行測試。

這項任務是專門設計來評估模型在面對一個包含隨機插入的passkey的長篇提示信息時,恢復passkey的能力。

圖4(左)的結果表明,無論上下文有多長或者passkey出現在文本序列的哪個位置,Mixtral都能保持100%的恢復精度。

而圖4(右)則展示了Mixtral在proof-pile數據集的一個子集上的困惑度(perplexity),隨著上下文量的增加,其困惑度呈現出單調下降的趨勢。

圖片

指令微調

此外,研究人員還開發了Mixtral–Instruct模型,首先在一個指令數據集上進行了監督微調(SFT),然后在一個成對的反饋數據集上采用了直接偏好優化(DPO)。

在MT-Bench的評估中,Mixtral–Instruct取得了8.30的高分(表2),成為了截至2023年12月表現最佳的開源權重模型。

LMSys進行的人工評估結果顯示在圖6,結果表明Mixtral–Instruct的表現超越了GPT-3.5-Turbo、Gemini Pro、Claude-2.1以及Llama 2 70B chat模型。

路由分析

最后,研究人員對路由器如何選擇「專家」進行了簡要分析。特別是在訓練期間,是否會有「專家」選擇專攻某些特定的領域(如數學、生物學、哲學等)。

為了探究這一點,研究人員對The Pile驗證數據集的不同子集進行了「專家」選擇分布的測量,結果如圖7所示。涉及模型的第0層、第15層和第31層(最后一層)。

出乎意料的是,這里并沒有發現明顯的基于主題分配「專家」的模式。

比如,在所有層中,無論是arXiv論文(用LaTeX編寫)、生物學領域(PubMed摘要)還是哲學領域(PhilPapers文件),「專家」的分配分布都非常相似。

只有在數學領域(DM Mathematics)中,「專家」的分布略有不同。

研究人員認為,這種差異可能是因為數據集本身是合成的,且對自然語言的覆蓋上有限,尤其是在模型的第一層和最后一層,隱藏狀態分別與輸入和輸出嵌入高度相關。

而這也表明,路由器確實表現出了一些結構化的句法行為。

圖8展示了不同領域(Python 代碼、數學和英語)的文本示例。其中,每個token都用不同的背景色標注,便于查看對應分配到的「專家」。

可以發現,像Python中的「self」和英文中的「Question」這樣的詞語,雖然包含有多個token,但往往被分配給同一個「專家」。同樣,相鄰的token也會被分配給同一位「專家」。

在代碼中,縮進的token也總是被指派給相同的「專家」,這一點在模型的第一層和最后一層尤為顯著,因為這些層的隱藏狀態與模型的輸入和輸出更加緊密相關。

此外,根據The Pile數據集,研究人員還發現了一些位置上的鄰近性(positional locality)。

表5展示了在不同領域和網絡層中,連續token被同一個「專家」選中的比例。

在網絡的上層,這種連續性的重復分配遠高于隨機分配的概率。這一現象對于模型的優化——加速訓練和推理過程,有重要的啟示。

例如,在專家并行(Expert Parallelism)處理中,那些位置上具有高鄰近性的情況更容易導致某些「專家」被過度使用。不過,這種鄰近性也可以用于緩存技術。

關于這些「專家」被選擇的頻率,圖10提供了一個更全面的視角,涵蓋了所有網絡層和不同的數據集。

結論

在這篇論文中,研究人員介紹了第一個性能達到SOTA的開源專家混合網絡——Mixtral 8x7B。

在人類評估基準中,Mixtral 8x7B Instruct的表現超越了Claude-2.1、Gemini Pro以及GPT-3.5-Turbo。

Mixtral的一大特點是,它在處理每個token時,僅激活使用13B參數,而這一數值遠低于Llama 2 70B所使用的70B參數。

現在,研究人員已經把訓練和微調后的模型在Apache 2.0開源許可下公開,以便社區成員可以自由使用。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-10-13 19:58:33

Mistral7B模型

2024-01-16 12:10:33

模型數據

2024-04-09 13:21:00

AI開源

2024-06-03 10:43:34

2023-12-11 09:23:00

AI模型

2024-02-22 10:09:00

開源模型

2024-06-05 08:33:29

2023-12-13 13:29:00

數據訓練

2024-12-13 14:03:44

模型訓練AI

2023-11-18 09:37:49

2024-04-19 08:01:01

Llama 3 8BMeta

2023-02-28 07:03:09

AIMeta大型語言

2024-12-09 07:10:00

Llama 3.3GeminiGPT-4.5

2024-05-30 12:50:05

2024-01-02 09:55:26

AI模型

2024-07-02 09:20:59

2024-09-09 09:20:00

2024-04-30 08:28:44

開源大模型Llama

2025-01-10 14:15:02

2023-12-12 13:16:00

模型訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区国产精品 | 精品一区二区三区四区外站 | 国产亚洲高清视频 | 国产一区二区三区在线 | 久久99精品久久久久久国产越南 | 偷拍亚洲色图 | 本道综合精品 | 日韩精品成人网 | av黄色网 | 国产最新视频在线 | 毛片免费在线 | 国产精品美女久久久久aⅴ国产馆 | 亚洲综合大片69999 | 91电影在线播放 | 二区在线视频 | 国产精品久久久久一区二区三区 | 亚洲精品久久久一区二区三区 | 成年人在线观看 | 亚洲精品成人 | 国产免费一区二区 | 国产精品欧美一区二区三区 | 国产精品成人国产乱一区 | 日韩精品一区二区三区四区 | 亚洲成人一区 | 91大神在线看 | 国产精品久久久久久婷婷天堂 | 最新国产福利在线 | 成人一区二区视频 | 亚洲免费人成在线视频观看 | 精品久久香蕉国产线看观看亚洲 | 69av在线视频| 欧美日韩精品久久久免费观看 | 国产一区二区三区四区在线观看 | 国产精品日韩在线观看一区二区 | 99伊人网| 18av在线播放 | 麻豆av一区二区三区久久 | 黄色一级毛片免费看 | 久日精品 | 久久久久成人精品免费播放动漫 | av福利网站 |