多代理微調如何克服 LLM 的數據瓶頸原創

發布于 2025-2-14 08:03

瀏覽

0收藏

本文介紹了多代理微調的基本概念，框架組成，以及在實際應用中的優勢。

最近，麻省理工學院、哈佛大學、斯坦福大學以及 DeepMind 的研究人員聯合提出了一種新技術，它使用?多個代理??（Multiple Agents）來解決大語言模型（LLM）最緊迫的問題之一：缺乏高質量的訓練數據。畢竟頂尖模型已經消耗了互聯網上的大部分可用的內容，并讓AI 實驗室已經用完了適合訓練 LLM 的數據。

解決這一瓶頸問題的一種方案是通過創建合成數據（Synthetic Data）來自我提升，讓LLM 生成高質量的范例來訓練自己。例如，系統會提示 LLM 解決數學、推理或編碼問題。該模型生成推理鏈和響應、評估結果，并將有效的示例添加到訓練數據集中，用于在下一個訓練周期中微調模型。

不同的研究表明，這是一種有效但也有限的方法。該方法在幾次訓練迭代之后會趨于穩定，進而限制了其自我提升方法的適用性。

多代理辯論和微調

為了提高性能，新技術使用了多代理辯論（Multiagent Debate）的概念，即：由多個 LLM 代理一起起草和完善響應。該框架并非微調單個模型，而是使用相同的辯論和改進框架，來生成不同的數據集，并微調多個模型。這些模型往往派生自相同的基本模型，并且每個模型都會得到訓練，以被專門用于目標任務的某些部分。

通常，該框架由生成代理和批評代理所組成。其中：

對于每個問題，第一組 LLM（生成代理）會創建初始響應。而生成模型的作用就是準確地回答輸入的問題。每個模型都以不同的方式，被提示創建一組不同的推理鏈與響應。

接著，批評代理會評估所有生成代理的輸出，并選擇最有效的響應、或生成反饋，以進行改進。在此，批評代理的作用是對 LLM 生成的回答提供準確的批評，并使用這些回答來提供更新的答案。而且，代理可以參與多輪辯論和反饋，以進一步完善答案。

然后，更新的響應和批評被用來創建數據集，以微調生成和批評代理。一旦兩組代理都開啟了訓練，它們就會重復這個循環，以創建更好的響應。為了確保多樣性，每個生成代理和批評代理都會根據其交互生成的一組不同的示例進行微調。當這個循環被重復時，它們就會創建出越來越好的數據集，并且每個代理在任務的特定部分都會變得更好。

多代理微調如何克服 LLM 的數據瓶頸-AI.x社區

多代理微調（來源：arXiv）

與經典的自我提升框架不同，基于訓練數據所創造的行為多樣性，會讓訓練數據的質量在多輪迭代中不斷提升。

研究人員曾寫道：“我們發現，多代理微調的迭代應用會促進持續學習和適應，并隨著時間的推移，產生逐漸細化且更為準確的響應。同時，研究人員進一步指出，“通過在不同的數據集和角色上訓練每個模型，我們的方法促進了模型之間的專業化，并增加了模型社會的多樣化。因此，與單一代理的自我提升方法相比，我們的系統可以通過多輪微調實現自主改進。”

多代理微調如何克服 LLM 的數據瓶頸-AI.x社區

多代理微調在多次迭代中繼續提高 MATH 基準測試的性能，而單一代理微調則會快速達到平臺期（來源： arXiv）

在推理過程中，該框架可以使用生成代理和批評代理的生態系統，來起草多個響應，并通過多代理辯論對其進行提煉。每個代理都能夠從所有其他代理那里獲取響應，并在每一輪的辯論中生成新的響應。

研究人員還寫道：“我們發現，總結其他代理的回答不但有助于消除冗余的信息，而且可以保留最重要的細節，從而進一步提高性能。

多代理微調的實際應用

如下所示，研究人員在算術、小學數學和競賽級別的數學問題的數個推理基準上，測試了該方法。他們將其與Mistral 7B、Llama 3-8B 和 Phi 3-4B等??開源模型??，以及 ?GPT-3.5?? 一起使用。由于多代理辯論和微調不需要訪問模型的內部權重，因此它同時適用于開放和封閉的模型。

多代理微調如何克服 LLM 的數據瓶頸-AI.x社區

結果表明，多代理方法優于包括多數投票（即：模型產生幾個獨立的答案，并從中選擇最佳答案）在內的其他技術，以及那些優化各個代理的答案，而無法經由微調過程的方法。此外，微調后的模型也可以被推廣到看不見的任務上，且勝過直接在目標任務上訓練模型的基線方法。例如，在 MATH 數據集上微調的代理生態系統，就會在 GSM 基準測試中得到非常出色的表現。

更重要的是，多代理在多次迭代中會持續表現出改進的性能，而其他自我提升的方法則會在幾個周期后開始出現退化。

總而言之，由于多代理方法需要多個模型的副本來同時訓練和運行，因此它實際上是一種從成本角度給出的權衡方法。雖然 LoRA 和量化等優化技術也可能實現相似的效果，但是就目前而言，多代理微調似乎能夠更好地解決 AI 社區所面臨的首要問題。

原文標題：?How multiagent fine-tuning overcomes the data bottleneck of LLMs??，作者：Ben Dickson

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

LLM

大語言模型

多代理微調

贊

回復