譯者 | 朱先忠
審校 | 重樓
簡介
模型合并是一種將兩個或多個LLM合并為單個模型的技術。這是一種相對較新的實驗性方法,可以以低廉的資金投入來創建新模型(不需要GPU)。模型合并工作出奇地好,而且在Open LLM排行榜上先后出現了許多基于模型合并技術的最先進的模型。
在本教程中,我們將使用開源的MergeKit庫來實現模型合并。更具體地說,我們將回顧四種合并方法,并提供相應的配置示例。然后,我們將使用MergeKit創建我們自己的模型——Marcoro14-7B-slerp,它也成為了Open LLM排行榜上表現最好的模型之一(02/01/2023)。
本文相應的示例項目源碼可在GitHub和Google Colab上獲得。當然,我也推薦您使用我本人修改的自動筆記本程序LazyMergekit來更輕松地運行MergeKit。
合并算法
在本節中,我們將重點介紹目前在MergeKit中實現的四種方法。請注意,還有其他一些算法,如線性算法和任務算術算法。如果您對模型合并的論文感興趣,我推薦您閱讀一下Hugging Face上的一組與此相關的優秀論文集。
1.SLERP算法
球面線性插值(SLERP:Spherical Linear Interpolation)是一種用于在兩個矢量之間進行平滑插值的方法。這種算法保持一個恒定的變化率,并保留向量所在的球形空間的幾何特性。
與傳統的線性插值相比,有幾個原因讓我們更喜歡SLERP。例如,在高維空間中,線性插值可能導致插值向量的大小減小(即,它減小了權重的比例)。此外,權重方向的變化通常代表比變化幅度更有意義的信息(如特征學習和表示)。
SLERP算法的實現基于以下步驟:
- 將輸入矢量規范化為單位長度,確保它們表示方向而非幅度。
- 使用它們的點積計算這些矢量之間的角度。
- 如果矢量幾乎共線,則默認為進行線性插值以提高效率。否則,SLERP基于插值因子t(第一個矢量中t=0的情況占100%,對于模型2則t=1的情況占100%)和矢量之間的角度來計算比例因子。
- 這些因子用于對原始向量進行加權,然后對原始向量求和以獲得插值向量。
- SLERP是目前最流行的合并方法,但它一次只能合并兩個模型。不過,仍然有可能分層組合多個模型,如Mistral-7B-Merge-14-v0.1(https://huggingface.co/EmbeddedLLM/Mistral-7B-Merge-14-v0.1)模型中所使用的情形。
一種SLERP的配置示例如下所示:
slices:
- sources:
- model: OpenPipe/mistral-ft-optimized-1218
layer_range: [0, 32]
- model: mlabonne/NeuralHermes-2.5-Mistral-7B
layer_range: [0, 32]
merge_method: slerp
base_model: OpenPipe/mistral-ft-optimized-1218
parameters:
t:
- filter: self_attn
value: [0, 0.5, 0.3, 0.7, 1]
- filter: mlp
value: [1, 0.5, 0.7, 0.3, 0]
- value: 0.5
dtype: bfloat16
這是一個經典的SLERP配置,應用于兩個模型的每一層。請注意,我們為插值因子t輸入值的梯度。自關注層和MLP層的參數將分別使用OpenPipe/mistral-ft-optimized-1218和mlabonne/NeuralHermes-2.5-mistral-7B的不同組合。其他層則是使用了兩個模型的50/50的混合比例。
您可以在Hugging Face Hub上找到此最終模型mlabonne/NeuralPipe-7B-Serrp。
2.TIES算法
Yadav等人在他們的論文中介紹了TIES-Merging算法,它旨在將多個特定于任務的模型有效地合并為一個多任務模型。這種方法解決了模型合并中面臨的兩個主要挑戰:
- 模型參數中的冗余:它識別并消除特定任務模型中的冗余參數。這是通過關注微調過程中所做的更改來實現的,識別前k%最顯著的更改,并丟棄其余的更改。
- 參數符號之間的分歧:當不同的模型建議對同一參數進行相反的調整時,就會出現沖突。TIES合并通過創建一個統一的符號向量來解決這些沖突,該向量表示所有模型中最主要的變化方向。TIES合并共分為以下三個步驟:
- 修剪(Trim):通過只保留一小部分最重要的參數(密度參數)并將其余參數重置為零,減少特定任務模型中的冗余。
- 選擇符號(Elect Sign):通過根據累積幅度的最主要方向(正或負)創建統一的符號向量,解決不同模型之間的符號沖突。
- 不聯合合并(Disjoint Merge):對與統一符號向量對齊的參數值求平均值,不包括零值。
與SLERP算法不同,TIES算法可以一次合并多個模型。
一種TIES的配置示例如下所示:
models:
- model: mistralai/Mistral-7B-v0.1
# 基本模型不需要任何參數
- model: OpenPipe/mistral-ft-optimized-1218
parameters:
density: 0.5
weight: 0.5
- model: mlabonne/NeuralHermes-2.5-Mistral-7B
parameters:
density: 0.5
weight: 0.3
merge_method: ties
base_model: mistralai/Mistral-7B-v0.1
parameters:
normalize: true
dtype: float16
使用此配置,我們使用Mistral-7B模型作為基礎模型來計算增量權重。我們合并了同樣的兩個模型:mistral-ft-optimized-1218(占50%)和NeuralHermes-2.5-mistral-7B(占30%),并進行了規范化。這里,密度(density)參數意味著我們只保留了每個模型50%的參數(另一半來自基本模型)。
請注意,在上面配置中,權重之和并不等于1,但normalize:true參數將在內部自動對它們進行規范化。此配置的靈感來自OpenHermes-2.5-neural-chat-7b-v--7b的作者提供的參數。
您可以在Hugging Face Hub上找到此最終模型mlabonne/NeuralPipe-7B-ties。
3.DARE算法
由Yu等人于2023年引入的DARE算法使用了一種類似于TIES的方法,主要存在兩個方面的區別:
- 修剪(Pruning):DARE隨機將微調后的權重重置為其原始值(基礎模型的值)。
- 重新縮放(Rescaling):DARE重新縮放權重,以保持模型輸出的期望值大致不變。它使用比例因子將兩個(或多個)模型的重新縮放權重添加到基礎模型的權重中。
MergeKit對該方法的實現使用了兩種風格:使用符號選擇步驟的TIES(dare_ties)或不使用符號選擇步驟的TIES(dare_linear)。
一種DARE的配置示例如下所示:
models:
- model: mistralai/Mistral-7B-v0.1
#基本模型不需要任何參數
- model: samir-fama/SamirGPT-v1
parameters:
density: 0.53
weight: 0.4
- model: abacusai/Slerp-CM-mist-dpo
parameters:
density: 0.53
weight: 0.3
- model: EmbeddedLLM/Mistral-7B-Merge-14-v0.2
parameters:
density: 0.53
weight: 0.3
merge_method: dare_ties
base_model: mistralai/Mistral-7B-v0.1
parameters:
int8_mask: true
dtype: bfloat16
在這種配置中,我們使用dare_ties合并了基于Mistral-7B的三種不同模型。這一次,我選擇了總和為1的權重(總和應該在0.9和1.1之間)。密度參數density比論文中建議的略高(<0.5),但看起來它總是能給出更好的結果(請參考鏈接https://github.com/cg123/mergekit/issues/26處的有關討論)。
你可以在Hugging Face Hub上找到mlabonne/Daredevil-7B。這也是本文中最好的合并模型,甚至超過了Marcoro14-7B slerp。
4.Passthrough算法
Passthrough方法與以前的方法有很大不同。通過連接來自不同LLM的層,它可以產生具有極大數量的參數的模型(例如,具有兩個7B參數模型的9B)。這些模型通常被社區稱為“弗蘭肯合并”或“弗蘭肯斯坦模型”。
這項技術是極具實驗性的,但它成功地創建了令人印象深刻的模型,比如使用兩個Llama 2 70B模型的goliath-120b模型。最近發布的SOLAR-10.7B-v1.0模型也使用了同樣的想法,在他們的論文中稱為深度放大。
一種Passthrough方法的配置示例如下所示:
slices:
- sources:
- model: OpenPipe/mistral-ft-optimized-1218
layer_range: [0, 32]
- sources:
- model: mlabonne/NeuralHermes-2.5-Mistral-7B
layer_range: [24, 32]
merge_method: passthrough
dtype: bfloat16
所得到的弗蘭肯合并將具有來自第一個模型的所有32層和來自第二個模型的8個附加層。這就創建了一個總共有40層和8.99B個參數的弗蘭肯合并。此配置的靈感來自GML-Mistral-merged-v1。
你可以在Hugging Face Hub上找到mlabonne/NeuralPipe-9B-merged。
合并自己的模型
在本節中,我們將使用MergeKit加載合并配置,運行它,并將生成的模型上傳到Hugging Face Hub。
首先,我們直接從源代碼安裝MergeKit,如下所示:
!git clone https://github.com/cg123/mergekit.git
!cd mergekit && pip install -q -e .
在下面的代碼塊中,我們以YAML格式加載合并配置。我們還指定合并模型的名稱以供將來使用。您可以復制/粘貼上一節中的任何配置到這里。
這一次,我們將使用兩種不同的模型:Marcroni-7B-v3和Mistral-7B-Merge-14-v0.1,并使用SLRP方法將它們合并。我們將配置保存為yaml文件,用作merge命令中的輸入。
import yaml
MODEL_NAME = "Marcoro14-7B-slerp"
yaml_config = """
slices:
- sources:
- model: AIDC-ai-business/Marcoroni-7B-v3
layer_range: [0, 32]
- model: EmbeddedLLM/Mistral-7B-Merge-14-v0.1
layer_range: [0, 32]
merge_method: slerp
base_model: AIDC-ai-business/Marcoroni-7B-v3
parameters:
t:
- filter: self_attn
value: [0, 0.5, 0.3, 0.7, 1]
- filter: mlp
value: [1, 0.5, 0.7, 0.3, 0]
- value: 0.5
dtype: bfloat16
"""
# 將配置保存為yaml文件
with open('config.yaml', 'w', encoding="utf-8") as f:
f.write(yaml_config)
我們使用以下參數運行merge命令:
- --copy-tokenizer:從基本模型中復制分詞器
- --allow-crimes和--out-shard-size:將模型分割成更小的代碼片斷,這些代碼片斷可以在低RAM的CPU上計算
- --lazy-unpickle:啟用實驗性的惰性拆卸器以降低內存使用率此外,一些模型可能需要使用--trust_remote_code標志(Mistral-7B的情況并非如此)。
此命令將下載合并配置中列出的所有模型的權重,并運行所選的合并方法(大約需要10分鐘)。
# 合并模型
!mergekit-yaml config.yaml merge --copy-tokenizer --allow-crimes --out-shard-size 1B --lazy-unpickl
現在,模型已合并并保存在“merge”目錄中。在上傳之前,我們可以創建一個自述文件,其中包含再現性所需的所有信息。下面的代碼塊定義了一個Jinja模板,并自動使用合并配置中的數據填充它。
!pip install -qU huggingface_hub
from huggingface_hub import ModelCard, ModelCardData
from jinja2 import Template
username = "mlabonne"
template_text = """
---
license: apache-2.0
tags:
- merge
- mergekit
- lazymergekit
{%- for model in models %}
- {{ model }}
{%- endfor %}
---
# {{ model_name }}
{{ model_name }} is a merge of the following models using [mergekit](https://github.com/cg123/mergekit):
{%- for model in models %}
* [{{ model }}](https://huggingface.co/{{ model }})
{%- endfor %}
## ?? Configuration
```yaml
{{- yaml_config -}}
```
"""
#創建一個Jinja 模板對象
jinja_template = Template(template_text.strip())
# 從配置文件中取得一個模型列表
data = yaml.safe_load(yaml_config)
if "models" in data:
models = [data["models"][i]["model"] for i in range(len(data["models"])) if "parameters" in data["models"][i]]
elif "parameters" in data:
models = [data["slices"][0]["sources"][i]["model"] for i in range(len(data["slices"][0]["sources"]))]
elif "slices" in data:
models = [data["slices"][i]["sources"][0]["model"] for i in range(len(data["slices"]))]
else:
raise Exception("No models or slices found in yaml config")
# 填充模板
content = jinja_template.render(
model_name=MODEL_NAME,
models=models,
yaml_cnotallow=yaml_config,
username=username,
)
# 保存模型卡
card = ModelCard(content)
card.save('merge/README.md')
現在,我們已經創建了模型卡ModelCard。接下來,我們可以將整個文件夾推送到Hugging Face Hub上。
from google.colab import userdata
from huggingface_hub import HfApi
username = "mlabonne"
#在Google Colab網頁的secrets面板上定義
api = HfApi(token=userdata.get("HF_TOKEN"))
api.create_repo(
repo_id=f"{username}/{MODEL_NAME}",
repo_type="model"
)
api.upload_folder(
repo_id=f"{username}/{MODEL_NAME}",
folder_path="merge",
)
現在,該模型可從Hugging Face Hub上下載到:mlabonne/Marcoro14-7B-slerp。在另一個筆記本電腦中,我們可以使用以下代碼在免費的T4 GPU上測試該模型:
!pip install -qU transformers accelerate
from transformers import AutoTokenizer
import transformers
import torch
model = "mlabonne/Marcoro14-7B-slerp"
messages = [{"role": "user", "content": "What is a large language model?"}]
tokenizer = AutoTokenizer.from_pretrained(model)
prompt = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
pipeline = transformers.pipeline(
"text-generation",
model=model,
torch_dtype=torch.float16,
device_map="auto",
)
outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
我們提出了一個問題“What is a Large Language Model?(什么是大型語言模型?)”,收到了以下輸出:
“A large language model is a type of artificial intelligence (AI) system that has been trained on vast amounts of text data. It’s designed to understand and generate human-like language, making predictions on what words or phrases might come next in a sentence or document. These models use complex algorithms and neural network architectures to learn from the data and improve their performance over time. Some well-known large language models include GPT-3 from OpenAI and BERT from Google.”
相應的中文意思是:“大型語言模型是一種基于大量文本數據進行訓練的人工智能系統。它旨在理解和生成類似人類的語言,預測句子或文檔中接下來可能出現的單詞或短語。這些模型使用復雜的算法和神經網絡架構從數據中學習,并隨著時間的推移提高其性能。一些著名的大型語言模型包括有OpenAI的GPT-3和谷歌的BERT”。
看起來效果不錯,但我們需要進行一個更全面的評估。目前,對于這種通用模型,已經出現了幾個非常有趣的評估工具:
- Chatbot Arena,它能夠根據人類投票編制出一個基于Elo的LLM排行榜。
- MT-bench(與上面相同的鏈接地址),它使用GPT-4作為判斷,對一組多回合問題的模型回答進行評分。
- NousSearch基準套件,它聚合了四種評估基準:AGIEval、GPT4ALL、TruthfulQA和Bigbench。其中,GPT4ALL本身包括HellaSwag、OpenBookQA、Winogrande、ARC Easy、ARC Challenge、BoolQ和PIQA等工具。
- Open LLM排行榜,共提供了六種評估基準:ARC、HellaSwag、MMLU、Winogrande、GSM8K和TruthfulQA。
不幸的是,我們無法將我們的模型提交給Chatbot Arena基準測試平臺。相反,我選擇使用Open LLM排行榜和NousSearch基準進行評估。
我將我們的模型提交給了Open LLM排行榜(“Submit here!”選項卡)。正如在本文開始所介紹的,它在排行榜上排名為最佳7B參數模型。以下是完整的結果:
圖片由作者本人提供
Open LLM排行榜的問題在于這些基準是公開的。這意味著,人們可以根據測試數據訓練LLM以獲得更好的結果。通過合并最好的模型,我們也“污染”了我們自己的結果。可以肯定地假設Marcoro14-7B-slerp模型也受到了“污染”,并且該合并中使用的一些模型已經在測試集上進行了訓練。如果你想創建最好的模型——而不是破解排行榜的話,我建議你只使用非合并模型來創建自己的合并。
這就是為什么我們不想只依賴OpenLLM排行榜的原因。對于NousSearch基準套件,借助于LLM AutoEval工具,我可以用一個簡單的Colab筆記本來完成自動計算分值。以下是與優秀的OpenHermes-2.5-Mistral-7B模型進行比較的結果:
圖片由作者本人提供
在每個基準測試中,我們都比這個模型有了顯著的改進。請注意,NousSearch基準套件與Open LLM排行榜共享一些任務:ARC Challenge、TruthfulQA、HellaSwag和Winogrande。據我所知,Bigbench是唯一一個100%不同的基準(如果不是這樣,請隨時聯系我)。然而,我們在這次合并中使用的一個模型仍然可以在Bigbench上進行訓練。
結論
在本文中,我們介紹了用四種不同算法合并LLM的概念。其中,我們詳細介紹了SLERP、TIES、DARE和Passthrough是如何工作的,并提供了相應的配置示例。最后,我們在MergeKit中運用SLERP算法,創建了Marcoro14-7B-SLERP模型,并將其上傳到Hugging Face Hub。最終,我們在兩個基準套件上都獲得了出色的性能:Open LLM Leaderboard(性能最佳的7B模型)和NousSearch。如果你也想創建自己的合并,我推薦你使用我的自動筆記本程序LazyMergekit。
組合多個模型的另一種方法是將它們合并到一個混合專家系統(MoE)架構中。在下一篇文章中,我們將詳細討論如何做到這一點,并創建我們自己的類似Mixtral的模型。最后,如果你喜歡這篇文章,請在Medium和Twitter@mlabonne上關注我吧。
譯者介紹
朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。
原文標題:Merge Large Language Models with mergekit,作者:Maxime Labonne