成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

詳解“小而優”的大語言模型Zephyr 7B

譯文
人工智能
Zephyr 7B是由Hugging Face H4團隊創建的一個模型,主要目的是創建一個更小的語言模型,與用戶意圖保持一致,但性能勝過更大的模型。

Zephyr是Hugging Face發布的一系列大語言模型,使用蒸餾監督微調(dSFT)在更龐大的模型上進行訓練,顯著提高了任務準確性。

2023年是屬于大語言模型(LLM)和開源的一年。許多初創公司和企業開放了模型和權重的源代碼,以應對ChatGPT和Claude等專有LLM。2023年的一些重要公司和模型(開源)包括:

  • Meta(Llama和LLamav2)
  • TII(Falcon 7B、40B和180B)
  • Mistral(Mistral 7B和Mixtral8x7B)

然而,部署相對容易和便宜的7B模型無法與70B等更龐大的模型相提并論。最強大的開源模型是Mistral 7B,它勝過許多更龐大的模型。

圖1. Mistral-7B與各大模型的比較

可見,這些小模型仍然不能很好地響應自然提示,需要良好的提示工程。

引言

Zephyr 7B是由Hugging Face H4團隊創建的一個模型,主要目的是創建一個更小的語言模型,與用戶意圖保持一致,但性能勝過更大的模型。

Zephyr是Mistral-7B的校準版本,主要借助蒸餾的優點創建而成,在學術和對話衡量基準方面與70B型號不相上下。

圖2. Zephyr-7B的性能比較

關鍵特性

Zephyr性能出色的原因是H4團隊使用了這幾項關鍵技術。

  • 自我指導數據創建和DSFT(蒸餾監督微調)
  • 反饋收集
  • DSFT模型的DDPO(蒸餾直接偏好優化)

自我指導數據創建和DSFT

傳統上,監督微調(SFT)通過高質量的指令完成針對大語言模型的數據創建。這些數據的構建成本很高,需要人工監督。

其中一個值得關注的方法是使用Teacher模型(已經過訓練的LLM)來生成指令和響應。這項蒸餾技術首先用于Alpaca,證明了借助蒸餾監督微調,小模型的性能可以勝過大模型。

圖3. 自我指導管道

H4團隊使用Zephyr構建用于執行DSFT的高質量監督(指令和完成)數據集。根據生成的指令/完成訓練模型是一種蒸餾形式,名為DSFT(蒸餾監督微調)。

反饋收集

大語言模型通常借助人類反饋強化學習(RLHF)進行對齊。Zephyr則是使用來自更好的教師模型(比如GPT-4)的反饋來對齊模型的偏好,遵循超級反饋(Ultra Feedback)方法。

圖4. 超級反饋構建過程

其工作方式是,來自SFT的每個監督提示被傳遞給4個模型(Claude、Llama和Falcon等),針對單個提示的4個響應中每一個都借助GPT-4來評分。現在我們有了一個數據集,包括輸入(x)、最高評分完成(yw)和表示為低評分完成的隨機提示(yl),即我們有一個三元組(x、yw和yl)。

偏好優化

最后這一步的目標是最大化模型的偏好,偏向yw(最高評分完成)而非yl(低評分完成)。這是使用DPO(直接偏好優化)來完成的。使用DPO比使用普通RLHF來得簡單,直觀上性能優于RLHF。本例中的方法被之所以稱為dDPO,是由于它使用借助教師模型生成的蒸餾數據集。

圖5. DPO vs RLHF

整個算法看起來有點像這樣:

可以轉換成以下步驟:

  • 從dSFT模型(僅向前)計算(x, yw)和(x, yl)的概率。
  • 從dDPO模型計算(x, yw)和(x, yl)的概率。
  • 計算Eq 1,反向傳播以更新。重復步驟。

訓練細節

Zephyr使用的基本型號是Mistral-7B,它在發布時是最先進的開源模型。他們使用TRL庫進行微調和對齊。Deep-Speed Zero 3和Flash-Attention 2用來優化和加速訓練,充分利用GPU。模型使用AdamW優化器進行訓練,不使用權值衰減。所有實驗都在16臺A100s上運行,使用bfloat16精度,通常需要2-4小時才能完成。可以參閱原論文(https://arxiv.org/pdf/2310.16944.pdf),深入了解Zephyr訓練程序的細節。

結果

Zephyr團隊結合了最好的技術來訓練大語言模型,它只需70億個參數就可以媲美400億參數模型的性能,可以媲美700億個參數的聊天模型。

表2:Zephyr與其他LLM的比較

圖6. Zephyr與其他LLM的比較

使用

Zephyr模型在Hugging Face上免費可用,可以像其他語言模型一樣使用。

import torch
from transformers import pipeline
pipe = pipeline("text-generation",
model="HuggingFaceH4/zephyr-7b-alpha", # can also use the beta model
torch_dtype=torch.bfloat16,
device_map="auto")
# We use the tokenizer's chat template to format each message - see 
https://huggingface.co/docs/transformers/main/en/chat_templating
messages = [
{
"role": "system",
"content": "You are a friendly chatbot who always responds in the style of a 
pirate",
},
{"role": "user", "content": "How many helicopters can a human eat in one 
sitting?"},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, 
add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, 
top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])

輸出:

<|system|>
You are a friendly chatbot who always responds in the style of a pirate.
<|user|>
How many helicopters can a human eat in one sitting?
<|assistant|>
Ah, me hearty matey! But yer question be a puzzler! A human cannot eat a 
helicopter in one sitting, as helicopters are not edible. They be made of metal, 
plastic, and other materials, not food!

結論

Zephyr-7B是一個小模型,展示了LLM提煉成小模型的能力。由此生成的模型Zephyr-7B基于Mistral-7B,為70億參數聊天模型奠定了新的先進記錄,甚至在MT-Bench上的性能勝過Llama2-Chat-70B。

參考資料:

  • Zephyr:語言模型對齊直接蒸餾(https://arxiv.org/abs/2310.16944)
  • HuggingFace Zephyr博文(https://huggingface.co/blog/Isamu136/understanding-zephyr)
  • 自我指導:https://arxiv.org/abs/2212.10560
  • 超級反饋:https://arxiv.org/abs/2310.01377

原文標題:Exploring the Zephyr 7B: A Comprehensive Guide to the Latest Large Language Model,作者:Ahmad Anis

鏈接:https://www.kdnuggets.com/exploring-the-zephyr-7b-a-comprehensive-guide-to-the-latest-large-language-model。

責任編輯:姜華 來源: 51CTO
相關推薦

2024-06-03 10:43:34

2024-04-02 09:17:50

AI數據開源

2024-03-25 08:00:00

2024-07-22 09:00:00

2023-04-21 10:37:40

語言模型

2024-09-05 14:25:00

訓練代碼

2023-10-13 19:58:33

Mistral7B模型

2024-06-11 14:30:18

2024-05-09 08:33:33

2024-03-18 07:01:42

2024-08-13 15:40:00

2024-07-17 13:40:01

2023-12-17 13:07:11

訓練數據

2025-03-11 13:07:58

2024-03-08 12:35:41

模型數據

2024-07-17 12:13:11

2023-08-28 00:50:14

模型開源

2025-06-25 08:54:03

模型訓練AI

2023-12-18 13:37:44

天翼云天池大語言模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产一级片 | 国产女人叫床高潮大片免费 | 在线看无码的免费网站 | 免费一级网站 | 做a视频在线观看 | 欧美一区二区黄 | 亚洲精品一 | 一区视频 | 久久久久久蜜桃一区二区 | 国产视频1 | 国产一级久久久久 | 国产成人在线一区二区 | 国产午夜精品久久久久免费视高清 | 国产精品一区一区三区 | 九九综合九九 | 夜久久| 羞羞视频网站在线观看 | 中文一区| 日韩欧美在线视频一区 | 五月天婷婷狠狠 | 国产午夜三级一区二区三 | av片在线免费看 | 国产伦精品一区二区三区在线 | 精品欧美一区二区三区 | 久色| 久久91精品久久久久久9鸭 | 日韩精品一区二 | 国产91黄色 | 亚洲精品国产第一综合99久久 | 亚洲 一区 | 国产精品不卡一区 | 久久91精品国产一区二区 | 香蕉视频1024 | 成人精品在线视频 | 国产三区在线观看视频 | 全免费a级毛片免费看视频免 | 天天操欧美 | av看看| 自拍偷拍第一页 | 精品国产一区二区国模嫣然 | 亚洲高清免费观看 |