多智能體微調:用多樣化推理鏈實現語言模型的自我提升
圖片
1. 問題:單一模型自我提升的瓶頸
近年來,大語言模型(LLMs)如GPT-4取得了顯著進展,但這些模型的性能仍然受限于已有的訓練數據。盡管通過生成合成數據進行自我微調成為提升模型的主流方法,但隨著微調輪次的增加,性能提升會迅速進入“收益遞減”狀態,模型的多樣性和推理能力難以進一步提高。這種瓶頸限制了語言模型在復雜推理任務中的表現。
圖片
2. 方法:多智能體協作微調(Multiagent Finetuning)
論文提出了一種全新框架——多智能體微調(Multiagent Finetuning),通過組建由多個語言模型組成的“智能體社會”,實現協作與自我提升:
智能體角色分工:將模型分為“生成智能體”和“評論智能體”。生成智能體負責提供初步答案,評論智能體對其進行批判性評估和改進,形成高質量反饋閉環。
數據獨立性與多樣性:每個智能體基于獨立的數據子集進行微調,從而在推理鏈中實現角色的專業化與結果的多樣化。
多智能體辯論機制:智能體間進行“辯論”以協同優化最終答案,確保整體推理鏈的邏輯性和準確性。
通過這一分級協作的方法,模型能夠持續改進,克服單一模型方法中的多樣性喪失問題。
圖片
3. 結果:性能顯著提升
實驗表明,多智能體微調在多種推理任務上顯著超越現有基線方法,包括單一模型微調、基于投票的多智能體方法和其他辯論機制:
在開源模型(Phi-3、Mistral、LLaMA-3)和專有模型(GPT-3.5)上均實現了大幅性能提升。
在復雜任務如數學推理(MATH)和通用問題求解(GSM)中,多智能體微調方法不僅增強了準確性,還保留了豐富的推理鏈條和內容多樣性。
即便在僅使用500個微調樣本的情況下,效果仍超越了多輪單一模型微調方法。
圖片
4. 意義:為語言模型的未來開辟新路徑
多智能體微調為語言模型的自我提升提供了全新的思路,不僅解決了單一模型在微調過程中性能瓶頸的問題,還展示了多智能體協作在復雜推理任務中的強大潛力。未來,這一方法可與人類反饋強化學習(RLHF)等技術結合,用于進一步優化語言模型的泛化能力和實用性。
圖片
總結:從“單兵作戰”到“團隊協作”,多智能體微調讓語言模型自我提升的邊界更加廣闊,為復雜推理任務帶來了新可能。
論文標題:Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains
論文鏈接:???https://arxiv.org/abs/2501.05707??
本文轉載自 ??AI帝國??,作者: 無影寺
