成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多代理微調如何克服 LLM 的數據瓶頸

譯文 精選
人工智能
本文介紹了多代理微調的基本概念,框架組成,以及在實際應用中的優勢。

譯者 | 陳峻

審校 | 重樓

最近,麻省理工學院、哈佛大學、斯坦福大學以及 DeepMind 的研究人員聯合提出了一種新技術,它使用多個代理(Multiple Agents)來解決大語言模型 (LLM) 最緊迫的問題之一:缺乏高質量的訓練數據。畢竟頂尖模型已經消耗了互聯網上的大部分可用的內容,并讓AI 實驗室已經用完了適合訓練 LLM 的數據。

解決這一瓶頸問題的一種方案是通過創建合成數據(Synthetic Data)來自我提升,讓LLM 生成高質量的范例來訓練自己。例如,系統會提示 LLM 解決數學、推理或編碼問題。該模型生成推理鏈和響應、評估結果,并將有效的示例添加到訓練數據集中,用于在下一個訓練周期中微調模型。

不同的研究表明,這是一種有效但也有限的方法。該方法在幾次訓練迭代之后會趨于穩定,進而限制了其自我提升方法的適用性。

多代理辯論和微調

為了提高性能,新技術使用了多代理辯論(Multiagent Debate)的概念,即:由多個 LLM 代理一起起草和完善響應。該框架并非微調單個模型,而是使用相同的辯論和改進框架,來生成不同的數據集,并微調多個模型。這些模型往往派生自相同的基本模型,并且每個模型都會得到訓練,以被專門用于目標任務的某些部分。

通常,該框架由生成代理和批評代理所組成。其中:

對于每個問題,第一組 LLM(生成代理)會創建初始響應。而生成模型的作用就是準確地回答輸入的問題。每個模型都以不同的方式,被提示創建一組不同的推理鏈與響應。

接著,批評代理會評估所有生成代理的輸出,并選擇最有效的響應、或生成反饋,以進行改進。在此,批評代理的作用是對 LLM 生成的回答提供準確的批評,并使用這些回答來提供更新的答案。而且,代理可以參與多輪辯論和反饋,以進一步完善答案。

然后,更新的響應和批評被用來創建數據集,以微調生成和批評代理。一旦兩組代理都開啟了訓練,它們就會重復這個循環,以創建更好的響應。為了確保多樣性,每個生成代理和批評代理都會根據其交互生成的一組不同的示例進行微調。當這個循環被重復時,它們就會創建出越來越好的數據集,并且每個代理在任務的特定部分都會變得更好。

多代理微調如何克服 LLM 的數據瓶頸-AI.x社區多代理微調如何克服 LLM 的數據瓶頸-AI.x社區

多代理微調(來源:arXiv)

與經典的自我提升框架不同,基于訓練數據所創造的行為多樣性,會讓訓練數據的質量在多輪迭代中不斷提升。

研究人員曾寫道:“我們發現,多代理微調的迭代應用會促進持續學習和適應,并隨著時間的推移,產生逐漸細化且更為準確的響應。同時,研究人員進一步指出,“通過在不同的數據集和角色上訓練每個模型,我們的方法促進了模型之間的專業化,并增加了模型社會的多樣化。因此,與單一代理的自我提升方法相比,我們的系統可以通過多輪微調實現自主改進。”

多代理微調如何克服 LLM 的數據瓶頸-AI.x社區多代理微調如何克服 LLM 的數據瓶頸-AI.x社區

多代理微調在多次迭代中繼續提高 MATH 基準測試的性能,而單一代理微調則會快速達到平臺期(來源: arXiv)

在推理過程中,該框架可以使用生成代理和批評代理的生態系統,來起草多個響應,并通過多代理辯論對其進行提煉。每個代理都能夠從所有其他代理那里獲取響應,并在每一輪的辯論中生成新的響應。

研究人員還寫道:“我們發現,總結其他代理的回答不但有助于消除冗余的信息,而且可以保留最重要的細節,從而進一步提高性能。

多代理微調的實際應用

如下所示,研究人員在算術、小學數學和競賽級別的數學問題的數個推理基準上,測試了該方法。他們將其與Mistral 7B、Llama 3-8B 和 Phi 3-4B等開源模型,以及 GPT-3.5 一起使用。由于多代理辯論和微調不需要訪問模型的內部權重,因此它同時適用于開放和封閉的模型。

多代理微調如何克服 LLM 的數據瓶頸-AI.x社區多代理微調如何克服 LLM 的數據瓶頸-AI.x社區

結果表明,多代理方法優于包括多數投票(即:模型產生幾個獨立的答案,并從中選擇最佳答案)在內的其他技術,以及那些優化各個代理的答案,而無法經由微調過程的方法。此外,微調后的模型也可以被推廣到看不見的任務上,且勝過直接在目標任務上訓練模型的基線方法。例如,在 MATH 數據集上微調的代理生態系統,就會在 GSM 基準測試中得到非常出色的表現。

更重要的是,多代理在多次迭代中會持續表現出改進的性能,而其他自我提升的方法則會在幾個周期后開始出現退化。

總而言之,由于多代理方法需要多個模型的副本來同時訓練和運行,因此它實際上是一種從成本角度給出的權衡方法。雖然 LoRA 和量化等優化技術也可能實現相似的效果,但是就目前而言,多代理微調似乎能夠更好地解決 AI 社區所面臨的首要問題。

原文標題:How multiagent fine-tuning overcomes the data bottleneck of LLMs,作者:Ben Dickson

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2018-06-07 16:10:08

數據湖客戶互動互動分析

2024-06-05 13:48:04

2024-06-06 08:25:30

2024-11-21 08:22:45

2025-01-26 09:07:46

2016-05-04 16:20:55

多源數據大數據

2011-07-29 09:49:35

2011-08-01 09:25:18

2016-05-03 14:46:54

數據源數據分析數據融合

2024-02-27 16:09:28

數據管理數字化轉型

2010-12-06 15:28:31

2024-04-11 10:02:31

物聯網IOT數據集成

2024-07-11 16:16:27

ChatGPTLLM

2024-10-17 08:10:02

2024-06-25 09:00:00

架構軟件開發

2025-06-09 08:42:23

2024-11-11 13:33:28

2024-06-11 08:21:26

2025-03-25 10:27:14

SFT 指令微調

2025-03-11 08:00:00

LLM開發深度學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久99精品久久久97夜夜嗨 | 免费精品久久久久久中文字幕 | 精区3d动漫一品二品精区 | 欧美不卡一区二区三区 | 午夜寂寞影院在线观看 | 欧美美女爱爱视频 | 在线a视频网站 | 岛国av在线免费观看 | 四虎成人精品永久免费av九九 | 欧美二区三区 | 在线免费观看欧美 | 成人黄色在线观看 | 国产一区二区在线播放 | 国产精品免费看 | 成人av片在线观看 | 台湾av在线 | 欧美婷婷 | 欧美一级电影免费 | 国产激情视频网址 | 国产黄色大片在线免费观看 | 九九精品在线 | 精品一区二区三区在线视频 | 国产成人精品a视频 | 国产一区二区三区免费 | 欧美激情a∨在线视频播放 成人免费共享视频 | 国产综合久久久久久鬼色 | 精品日韩在线观看 | 超碰在线网站 | 国产精品激情在线 | 亚洲欧美中文字幕 | 365夜爽爽欧美性午夜免费视频 | 亚洲精品福利在线 | 888久久久| 天天爽一爽 | 国产综合精品 | 日本在线看片 | 久久网一区二区 | 精品久久一区二区三区 | 精品一区av | 超碰导航| 成人影院一区二区三区 |