成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<output id="zmjch"><option id="zmjch"><optgroup id="zmjch"></optgroup></option></output>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

數據合成方法-讓模型自己說出用了哪些指令對齊數據

發布于 2024-7-1 10:40

瀏覽

0收藏

寫在前面

大家好，我是劉聰NLP。

大模型時代，數據至上，如何利用大模型合成更多高質量數據也備受關注。

今天給大家分享一個有意思的大模型合成數據方法-MAGPIE，在不需要種子數據和額外人工干預的情況下，挖掘出對齊過的模型自身的指令數據。

《MAGPIE: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing》

paper: https://arxiv.org/abs/2406.08464
github: https://github.com/magpie-align/magpie

核心思想：對齊過的大模型本身是經過大量指令數據對齊得來，往往這些對齊后的模型接受的輸入通常由“前置查詢模板”、“查詢內容”、“后置查詢模板”組成（例如：Llama2-Chat模型接受的輸入是"[INST] Hi! [/INST]"，[INST] 是前置查詢模板”，[/INST]則是后置查詢模板）當對模型僅輸入前置模板時，模型會自回歸的合成“查詢內容”；并且當組合完全時，開源獲得模型的回復結果。

這樣就變相地挖掘出對齊模型的指令數據，你以為只開了模型，我直接挖向

方法介紹

數據合成方法-讓模型自己說出用了哪些指令對齊數據-AI.x社區

如上圖所示，合成數據主要涉及兩個步驟：

指令合成：僅給大模型輸入前置查詢模板“<|start_header_id|>user<|end_header_id|>”，大模型會自動續寫出指令內容“What materials should I use to build a nest?”
回復合成：將生成的指令內容與前置查詢模板、后置查詢模板拼接“<|start_header_id|>user<|end_header_id|>What materials should I use to build a nest?<|start_header_id|>assistant<|end_header_id|>”輸入到大模型中，大模型給出回復結果“Other birds collect twigs for their nests. Magpies acquire jewels for theirs.”

注意：在指令合成過程中，Temperature和Top-p都需要開得比較大，保證指令的多樣性；在回復合成過程中，采用貪婪解碼，默認概率最高的Token可能來自模型的訓練語料。

當然直接生成的指令是涉及的場景是廣泛、隨機的，如果需要針對限定任務進行數據生成，可以通過增加系統提示詞來限定場景，比如：增加對數學任務進行指令數據生成，

數據合成方法-讓模型自己說出用了哪些指令對齊數據-AI.x社區

如果想獲取多輪對話數據，只需要在單輪的指令數據后面繼續進行指令和回復的生成即可。但當開源模型本身參數較小時，生成的多輪數據可能出現忘記上下文內容的情況，可以通過增加系統提示的方式，讓模型強制記住上文信息。

數據合成方法-讓模型自己說出用了哪些指令對齊數據-AI.x社區

還可以構造偏好數據，額外利用模型基座生成回復，再通過獎勵模型FsfairX-LLaMA3-RM-v0.1進行打分，保留合成回復分數大于基座回復分數的數據。

數據分析

衡量合成數據好壞，最簡單直接辦法就是SFT一把模型，比較訓練后模型的效果。

MAGPIE方法利用Llama3-8B-Instruct模型和Llama3-70B-Instruct模型分別構造了MAGPIE-Air數據和MAGPIE-Pro數據，詳細分布如下表所示，

數據合成方法-讓模型自己說出用了哪些指令對齊數據-AI.x社區

與ShareGPT、WildChat、Evol Instruct、UltraChat、OpenHermes和Tulu V2 Mix數據分別對Llama3-8B模型進行微調，效果如下表所示，

數據合成方法-讓模型自己說出用了哪些指令對齊數據-AI.x社區

采用MAGPIE-Air和MAGPIE-Pro訓練的模型，要比其他數據集訓練的模型效果要好，甚至在AlpacaEval 2榜單上超過了原始的Llama3-Instruct模型。

Pro數據訓練的模型優于Air數據訓練的模型，主要是Llama3-70B-Instruct模型能力更強，獲得的指令數據質量更高。

經過過濾的數據集訓練的模型效果比原始數據集更優，其中過濾指標包括：

指令長度：指令中的字符總數。
回復長度：響應中的字符總數。
任務類別：指令的類別，分布如下圖所示，

數據合成方法-讓模型自己說出用了哪些指令對齊數據-AI.x社區

指令質量：根據指令的清晰度、特定性和連貫性，分為“非常差”、“差”、“一般”、“好”和“優秀”5個等級。
指令難度：根據指令中描述的任務所需的知識水平，分為“非常容易”、“容易”、“中等”、“困難”和“非常困難”5個等級。
指令相似度：采用all-mpnet-base-v2模型對指令進行向量化表征，計算指令之間的相似程度，篩選出重復或相似的樣本。
獎勵值：采用FsfairX-LLaMA3-RM-v0.1模型對回復內容進行評分，通過過濾低質量的樣本。
獎勵差：利用獎勵模型對基模生成的回復評分，通過獲得更高質量的樣本。

上面每個過濾數據的詳細過濾規則如下表所示，

數據合成方法-讓模型自己說出用了哪些指令對齊數據-AI.x社區

利用MAGPIE-Pro-300K-Filtered數據集，訓練Qwen1.5-4B和Qwen1.5-7B模型的效果要好于Qwen1.5-4B-Chat和Qwen1.5-7B-Chat模型，說明MAGPIE方法獲取的指令數據對其他非同源模型，依然有效。

數據合成方法-讓模型自己說出用了哪些指令對齊數據-AI.x社區

多輪數據的質量要高于單論數據集。

數據合成方法-讓模型自己說出用了哪些指令對齊數據-AI.x社區

其他榜單（MMLU 、ARC、HellaSwag、TruthfulQA、Winogard、GSM8K、MMLU-Redux）上的效果如下，

數據合成方法-讓模型自己說出用了哪些指令對齊數據-AI.x社區

對MAGPIE數據進行安全性分析，利用Llama-Guard-2模型進行預測，有害指令少于1%。

數據合成方法-讓模型自己說出用了哪些指令對齊數據-AI.x社區

寫在最后

MAGPIE方法不用種子數據，不用昂貴的GPT4 API接口，僅靠挖掘開源模型本身，就可以獲取高質量合成數據，是個有趣的研究。

標簽

贊

收藏

回復

舉報

回復

相關推薦

Mol-Instructions: 面向大模型的大規模生物分子指令數據集

mb5f8eba9bdb0af ? 2472瀏覽 ? 0回復
CVPR 2024 | 北航聯合港大發布全新文本引導矢量圖形合成方法SVGDreamer

zhangyannni ? 3496瀏覽 ? 0回復
2024年大模型LLM還有哪些可研究的方向？聽聽大佬怎么說

angel ? 1.1w瀏覽 ? 0回復
EMNLP 2023｜利用LLM合成數據訓練模型有哪些坑？

arnoldzhw ? 3645瀏覽 ? 0回復
GPT神速分析：21個指令讓數據分析更輕松

數師兄 ? 4225瀏覽 ? 0回復
英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o

duhorse ? 3092瀏覽 ? 0回復
沒有標記數據集，如何做大模型指令微調？介紹一款有潛力的標記數據集生成模型

Syrupup ? 5860瀏覽 ? 0回復
數據合成方法-讓模型自己說出用了哪些指令對齊數據

NLP工作站 ? 3010瀏覽 ? 0回復
大模型微調技巧 | 高質量指令數據篩選方法-MoDS

NLP工作站 ? 4065瀏覽 ? 0回復
能訓出SOTA模型的優質數據集發布！復旦最新VidGen-1M: 文生視頻還得靠好數據

angel ? 2797瀏覽 ? 0回復
從弱模型和強模型合成文本到SQL數據

sbf_2000 ? 3721瀏覽 ? 0回復
如何獲取高質量數據進行代碼指令調優？

NLP工作站 ? 2754瀏覽 ? 0回復
谷歌提出視覺記憶方法，讓大模型訓練數據更靈活

Aceryt ? 2218瀏覽 ? 0回復
多模態大模型數據構造方法

shizhi02 ? 3145瀏覽 ? 0回復
探秘大語言模型數據合成能力：AgoraBench基準測試全解析

十一月雨_55 ? 2656瀏覽 ? 0回復
對話數據合成：清華利用多Agent合成大量醫療對話數據顯著提升LLM在醫療場景效果

arnoldzhw ? 2774瀏覽 ? 0回復
怎么自定義一個數據集？自定義數據集面臨哪些問題？

AI探索時代 ? 2122瀏覽 ? 0回復
ZeroHSI-一種零樣本的四維人類-場景交互合成方法

shizhi02 ? 1381瀏覽 ? 0回復
大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？

shizhi02 ? 754瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法 1天前發布
遲來！解讀Qwen開源的Embedding模型中的細節！附實測結果！ 2025-06-13 07:17:37發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：探討 | 大模型在傳統NLP任務的使用姿勢

下一篇：一大堆Chinese Llama3正在襲來

社區精華內容

目錄

主站蜘蛛池模板：亚洲成人av在线 | 欧美一区二不卡视频 | 91影库| 天天操夜夜骑 | 欧美性高潮| 日韩av电影在线观看 | 精品一区av | 精品一级 | 一区二区av在线 | 在线观看视频你懂得 | 日韩影院在线观看 | 中文字幕久久精品 | 成人在线一区二区 | 五月香婷婷 | 91精品国产91久久久久久最新 | 红桃视频一区二区三区免费 | 一二三四在线视频观看社区 | 91社区在线观看播放 | 精品视频一区二区三区在线观看 | 久久高清 | 国产午夜精品视频 | 成人免费精品视频 | 一级毛片视频在线 | 91精品国产麻豆 | 欧美激情精品久久久久久 | 三级在线视频 | 亚洲一区二区视频 | 亚洲欧美日韩成人在线 | 日韩在线国产 | 黄视频国产 | 欧美在线a| 欧美日韩国产一区二区三区 | 黄色片网此 | 91久久精品国产 | 亚洲一区二区三区视频在线 | 欧美日韩国产一区二区三区 | 国产高清无av久久 | 久久九九免费 | 精品一区二区三区中文字幕 | 国产伦精品一区二区三区在线 | 97国产精品 |

<cite id="rbqcl"><style id="rbqcl"></style></cite>

<abbr id="rbqcl"></abbr>