成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

“最強7B模型”論文發布,揭秘如何超越13B版Llama 2

人工智能
而倉庫的總容量是固定的,當倉庫被裝滿時,就會把最先放入的東西移除,讓新的物品繼續進倉。但入倉時間更接近的物品則會留在倉庫中,就能在節約資源的同時保留一定長度的序列。

來自“歐洲OpenAI”的“最強7B開源模型”Mistral最近可謂是圈粉無數。

它各方面的測試指標全面超越了13B的Llama2,甚至讓一眾網友覺得羊駝不香了。

最新消息是,Mistral AI團隊已經發布了相關論文,透露背后的技術細節。

圖片圖片

Mistral不僅全面戰勝了13B Llama2,在數學、代碼和推理方面,34B的Llama1也不是Mistral的對手。

在推理任務上,Mistral的表現更是直逼10倍參數量的Llama2-70B。

但Mistral消耗的資源卻很少,只需要6GB顯存,MacBook就能流暢運行。

為了用更少消耗達到更好的效果,Mistral可謂是使出了渾身解數。

那么關于Mistral的這篇論文都透露了哪些技術信息呢?

多種機制降低運算消耗

基礎結構上,Mistral基于Transformer架構設計,一共有32個n_layer,上下文長度達到了8192 token。

具體的參數如下表所示:

圖片圖片

而Mistral能做到高性能低消耗,則要歸功于所用到的多種優化策略。

首先是最核心的注意力機制,其直接作用是減少計算量,具體包括了兩個方面。

第一種是滑動窗口(Sliding Window)注意力機制。

推理階段中,會設定出一個窗口長度,并在劃分出的注意力層范圍之內進行注意力運算,而不是針對全文。

通過滑動方式,各注意力層之間會有所重疊,從而實現長文本序列的處理。

4096的長度,理論上可以處理13.1萬token。

圖片圖片

這種注意力機制和標準注意力相比,可以將速度提升到兩倍。

另一種則是分組查詢(Grouped-query)注意力機制。

這種機制將查詢(query)拆分成多個組,每個組只與key的一個子集進行注意力運算,然后拼接出結果。

這樣不僅能降低運算量,也能讓組間通信次數減少,并提高查詢吞吐。

除了在注意力機制上下功夫,開發者還引入了滾動緩沖區緩存(Rolling Buffer Cache)。

這種存儲方式固定了緩沖區的大小,從而限定了內存消耗的最大值。

圖片圖片

如果把緩沖區比作一座倉庫,每存進一個新東西,都會占據相應的位置。

而倉庫的總容量是固定的,當倉庫被裝滿時,就會把最先放入的東西移除,讓新的物品繼續進倉。

但入倉時間更接近的物品則會留在倉庫中,就能在節約資源的同時保留一定長度的序列。

利用這種緩存機制,只要緩沖區大小設置得合理,就能實現預算效率與記憶力的平衡。

此外還有一種預填充和分塊機制,它的直接作用是減少重復運算。

圖片圖片

假如需要處理一個很長的句子,那么這個句子將被分割成小塊。

訓練完前面的小塊之后,再加入后面的塊,以此類推……

這樣存儲空間中就有了前面的塊信息,用來建立長序列。

這種方式避免了從頭開始的重復運算,從而使效率得到了提升。

以上就是開發者在Mistral中使用的優化策略,而為了評估模型的泛化能力,開發者使用了HF上的公開數據集進行了指導性微調。

結果Mistral的表現全面超過了13B參數的Llama 2,其中推理技能更是與70B版本十分接近。

圖片圖片

單塊3090即可微調

Mistral的火爆程度,直接讓第三方工作室也推出了微調教程。

圖片圖片

據介紹,用這種方法微調之后,可以進一步提升Mistral的性能并降低消耗。

而這個微調的過程,用一塊3090就能完成。

首先是根據使用目的準備數據集,轉化為prompt形式并劃分出訓練和驗證集。

然后是對模型進行初始化,加載Mistral并設置4-bit量化和Lora等參數。

接著是構建Trainer,輸入數據、模型等信息正式開始訓練,然后測試并保存。

具體的細節可以到教程原文中去了解。

論文地址:https://arxiv.org/abs/2310.06825微調教程:https://wandb.ai/byyoung3/ml-news/reports/Fine-Tuning-Mistral7B-on-Python-Code-With-A-Single-GPU---Vmlldzo1NTg0NzY5

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-06-03 10:43:34

2024-02-22 10:09:00

開源模型

2023-02-28 07:03:09

AIMeta大型語言

2024-09-13 09:14:32

2024-01-10 17:10:53

數據訓練

2023-10-29 22:41:29

模型開源

2023-12-13 13:29:00

數據訓練

2024-03-25 08:00:00

2024-07-23 10:20:57

2024-07-15 08:58:00

2023-08-07 13:40:39

AI模型

2024-10-25 10:57:11

2023-06-28 21:47:54

2024-02-04 08:00:00

Zephyr 7B大語言模型算法

2025-01-10 12:58:37

2023-11-18 09:37:49

2024-03-18 07:01:42

2023-10-12 14:40:10

AI模型

2023-09-18 09:00:59

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产最新精品视频 | 99热在线播放 | 暖暖成人免费视频 | 国产精品一二三区 | 神马久久久久久久久久 | 毛片久久久 | 精品一区二区三区四区在线 | 精品一区二区三 | 亚洲欧美中文日韩在线v日本 | 99久久日韩精品免费热麻豆美女 | 色成人免费网站 | 久久久女女女女999久久 | 一区二区三区在线 | 日韩欧美国产精品一区二区三区 | 午夜精品久久久 | 亚洲 欧美 激情 另类 校园 | 久热国产精品 | 欧美一级黑人aaaaaaa做受 | 狠狠操在线| 欧美日韩久久久 | 亚洲精品电影网在线观看 | 久久99精品久久久久久秒播九色 | 97综合在线 | 国产人免费人成免费视频 | 国产精品久久久久久吹潮 | 日本精品视频一区二区 | 日韩在线一区二区 | 盗摄精品av一区二区三区 | 久久久久一区二区三区 | 日韩国产一区 | 亚洲精品电影 | 久久久久久久久99 | 亚洲精品成人在线 | 欧美视频一区二区三区 | 国产在线小视频 | 久久精品国产一区二区电影 | 日韩欧美国产一区二区三区 | 天堂色 | 日韩伦理一区二区 | 91日韩| 国产亚洲二区 |