成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

20K合成數據就能讓大模型能力飆升!還能實現模型自我迭代,上海AI Lab數據合成新范式

人工智能 新聞
最近,來自上海AI Lab的研究團隊針對合成數據技術展開研究,提出了SFT數據合成引擎Condor,通過世界知識樹(World Knowledge Tree)和自我反思(Self-Reflection)機制,探索合成海量高質量SFT數據的方案。

僅使用20K合成數據,就能讓Qwen模型能力飆升——

模型主觀對話能力顯著提升,還能實現模型自我迭代。

合成數據大法好!

最近,來自上海AI Lab的研究團隊針對合成數據技術展開研究,提出了SFT數據合成引擎Condor,通過世界知識樹(World Knowledge Tree)和自我反思(Self-Reflection)機制,探索合成海量高質量SFT數據的方案。

結果,他們還意外發現,在增大合成數據量的情況下,模型性能持續提升。

從5K數據量開始,模型主觀對話性能隨著數據量增加而提升,但數據量達到20K后,性能增長變緩——

圖片

LLM數據合成新范式:基于世界知識樹打造高質量對話數據

隨著大模型能力的快速發展,模型訓練對高質量SFT數據的需求日益迫切。數據合成技術作為一種新穎高效的數據生成策略,逐漸成為研究熱點,并在模型迭代過程中扮演著關鍵角色。

上海AI Lab研究團隊的Condor數據合成主要包含兩個階段:Condor Void和Condor Refine。

圖片

整個過程中,研究團隊僅使用一個LLM作為運行模型,同時承擔問題合成、回復合成、回復評價和回復改進的多重角色。

使用世界知識樹進行多樣化指令合成。

具體來說,Condor首先利用模型生成一系列世界知識樹,給定模型一些關鍵詞,讓其自身遞歸生成更多的子關鍵詞,從而形成完整的知識樹。每個節點作為一個Tag,用于后續數據生成。

例如,給定“人工智能”這個關鍵詞,生成一條由粗到細的知識鏈路:

人工智能——深度學習——計算機視覺——自動駕駛——單目目標檢測

Condor以這條知識鏈路作為背景知識,要求模型生成相關問題。為進一步提升合成指令的多樣性,研究團隊引入了任務多樣性和問題難度多樣性的增廣要求。

針對不同類型的主觀任務(如日常聊天、角色扮演、創意創作等),研究人員精心設計了不同的問題模板來引導模型生成對應任務下的問題。在生成問題時,Condor要求模型在一次生成中同時生成三種不同難度的問題。

自我反思提升回復質量

對于每一條知識鏈路,基于Condor可以收集到不同任務類型、不同難度的多個問題。研究人員將這些問題輸入模型,生成初始回復,得到初版的SFT合成數據。

Condor Refine Pipeline引入自我反思策略,使用模型對初版回復進行評價并生成修改意見,引導模型進一步改進回復,從而獲得最終的高質量SFT數據。

使用合成數據提高模型通用對話能力

研究人員使用開源模型Qwen2.5-72B-Instruct進行數據合成,得到Condor Void和Condor Refine兩個版本的合成數據,并基于Qwen2.5-7B進行SFT訓練,測試其主觀對話能力和客觀綜合能力。

圖片
圖片

從實驗結果可以看出,使用Condor合成數據訓練的模型在主觀對話能力上與Qwen2.5-7B-Instruct具有競爭力。

同時,基于Condor合成數據訓練的模型在主流客觀評測基準上保持了性能。Condor相比其他基線方法具有顯著的性能優勢。

圖片

數據規模影響與模型自我迭代

研究團隊進一步探索在增大合成數據量的情況下,模型性能能否持續提升。

從5K數據量開始,逐步增加到200K,觀察不同數據量下訓練出的模型性能。

結果顯示,模型主觀對話性能隨著數據量增加而提升,但數據量達到20K后,性能增長變緩。

圖片

利用合成數據能否實現模型的自我迭代呢?

研究團隊利用Qwen2.5-7B-Instruct和Qwen2.5-72B-Instruct模型經過Condor Pipeline生成兩版數據,并分別訓練7B和72B的Base模型,觀察自我迭代效果。

圖片

從結果可以看出,經過Condor合成數據訓練,模型在7B和72B上均實現了自我迭代,相比基線性能進一步提升。

合成數據為什么有效?

Condor的合成數據如何對模型產生增益作用?研究團隊進行了一系列分析。研究人員將主觀評測集按各個能力維度拆解,統計在各個維度上的增益,發現在所有維度上都產生了增益,在Creation、QA和Chat上的增益尤為明顯。

圖片

進一步的,研究人員對Condor Pipeline合成的問題指令進行分析。使用T-SNE投影與Magpie方法合成的問題進行對比,發現Condor合成的數據和Magpie均能實現廣泛的知識覆蓋。

圖片

再來看看模型在對話回復中的表現,通過和原始模型進行對比我們可以發現,Condor合成的數據訓練后的模型即使和官方模型相比,在回復風格(如幽默,創意)的主觀感受上也要更勝一籌,能更加擬人化并考慮到回答細節的改善。

圖片

合成數據是大模型迭代的重要方案,仍有許多值得探索的研究問題,如高質量推理數據和多輪對話數據的有效合成策略、真實數據和合成數據的協作配比機制、以及如何突破合成數據的Scaling Law等。目前,Condor的合成數據和訓練后的模型均已開源,歡迎社區用戶體驗和探索。

Github: https://github.com/InternLM/Condor
數據集:https://hf.co/datasets/internlm/Condor-SFT-20K
論文:https://arxiv.org/abs/2501.12273

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-06-18 09:03:07

2025-04-08 00:40:00

谷歌合成數據大模型

2023-02-23 07:46:48

學習模型數據倉庫

2025-04-15 09:08:51

系統數據模型

2024-10-15 15:30:00

大模型數據

2022-06-13 15:28:42

人工智能機器學習數據

2024-01-22 08:50:00

AI訓練

2024-01-16 14:23:32

大數據人工智能AI

2023-08-01 15:46:18

數據

2024-10-14 09:25:00

2024-10-21 13:20:00

視頻數據集

2024-04-18 08:38:15

LLM數據訓練模型

2021-10-08 09:29:21

微軟數據人臉分析

2022-08-11 08:00:00

機器學習合成數據深度學習

2023-08-13 14:48:14

OpenAIAI模型

2022-06-13 11:18:08

合成數據AIML

2025-04-25 09:20:00

數據模型AI

2025-05-26 09:00:00

2024-06-11 07:46:23

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品国产青草久久久久福利 | 久久成人一区 | 黄色在线免费观看视频网站 | 国产成人精品网站 | 中文精品视频 | 国产日韩欧美 | 一区二区三区四区在线 | 成人妇女免费播放久久久 | 日本在线免费看最新的电影 | 欧美一区二区三区在线 | 日本一区二区高清不卡 | 欧美精品在欧美一区二区 | 四虎在线视频 | 国产激情视频在线 | 亚洲视频一区二区三区 | 久久综合九色综合欧美狠狠 | 亚洲一区二区三区欧美 | 国产精品成人免费 | 精品欧美久久 | 国产视频一区二区三区四区五区 | 狠狠干美女| 成人精品视频免费 | 亚洲第一视频网站 | 91精品国产高清久久久久久久久 | 国产一区二区三区网站 | 欧美黄色一区 | 日韩国产欧美视频 | 欧美一区二区黄 | 超碰成人在线观看 | 国产一区二区在线免费观看 | 嫩草视频在线看 | 中文一区二区 | 亚洲精品888 | 免费一区二区三区 | a级大毛片 | 欧美精品一区二区三区在线播放 | 中文字幕三区 | 欧美视频一区 | 国产三级精品视频 | 精品无码久久久久久国产 | 精品国产一区二区三区性色av |