數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好

發布于 2024-3-27 16:57

瀏覽

0收藏

來自騰訊的研究者們做了一個關于 agent 的scaling property（可拓展性）的工作。發現：通過簡單的采樣投票，大語言模型（LLM）的性能，會隨著實例化agent數量的增加而增強。其第一次在廣泛的場景下驗證了該現象的普遍性，與其他復雜方法的正交性，以及研究了其背后的原因，并提出進一步促成scaling發揮威力的辦法。

數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好-AI.x社區

論文標題：

More Agents Is All You Need

論文地址：

??https://arxiv.org/abs/2402.05120???

代碼地址：

??https://github.com/MoreAgentsIsAllYouNeed/More-Agents-Is-All-You-Need??

本文中，來自騰訊的研究者發現：只需通過一種簡單的采樣投票法，大語言模型的性能就會隨著實例化 agent 的數量的增大而增強，呈現 scaling property（可拓展性），無需復雜的多 LLM agents 協作框架以及prompt工程方法的加持。此外，該方法與現有的復雜方法正交，結合之后，可進一步增強 LLM，其增強程度與任務難度相關。

該論文做了第一個關于 raw agent（指不依賴復雜的prompt工程和協作框架的LLM agent）的 scaling property 的研究，其對各種 LLM 基準進行了全面的實驗，以驗證此發現的普遍性，并研究了可以促進其發生的策略。目前代碼已開源。

數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好-AI.x社區 ▲ 多個小模型超過大模型

論文討論了諸多集成 LLM 的相關工作，包括 LLM 自集成、異構 LLM 集成、還有關于多個 LLM Agents 協作框架的工作，并與提出的方法進行了對比，可以看出論文進行了更全面的研究和分析：

數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好-AI.x社區

為了研究大型語言模型的性能如何隨著實例化 agents 數量的增加而提升。論文使用了一種簡單的采樣和投票方法（作者用了 simple (st) 的說法，可見他們認為這個方法也許是最簡單的方法之一）。值得注意的是，此方法可與現有的復雜方法正交結合。它可以被分為兩個階段：

將任務 query 輸入到單個 LLM 或多個 LLM Agents 協作框架中，生成多個輸出；
通過多數投票確定最終結果

數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好-AI.x社區

論文從 Llama2 和 GPT 系列選擇不同規模的語言模型進行評估，任務數據集涵蓋推理和生成等多個領域。實驗結果表明，在所有任務和不同種類、規模的 LLM 上，發現 LLM 的性能隨著實例化 agent 的數量而增加。

數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好-AI.x社區

例如，在 GSM8K 任務上提升了 12% 至 24%，在 MATH 上提升了 6% 至 10%。有趣的是，多個小 LLM 集成可以達到甚至超越較大 LLM 的性能。例如，多個 Llama2-13B 的集成在 GSM8K 上達到了 59% 準確率，超過了單一 Llama2-70B 的 54% 的準確率。

數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好-AI.x社區

進一步地，作者還探索了與其他方法的兼容性。盡管這些方法實現各不相同，但是在與之結合使用時，性能可以進一步提升，并同樣符合實例化 agent 越多，性能增益越強的現象。實驗結果顯示增益范圍從 1% 到 27% 不等，說明這個簡單的方法通過和其他方法正交使用可以進一步增強 LLM 的性能。

數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好-AI.x社區

數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好-AI.x社區 ▲ 基于 LLama13B

數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好-AI.x社區 ▲ 基于 LLama70B

數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好-AI.x社區 ▲ 基于 GPT-3.5-Turbo

此外，論文還分析了性能提升與問題難度之間的關系。

固有難度：隨著任務固有難度的增加，性能提升（即相對性能增益）也會增加，但當難度達到一定程度后，增益會逐漸減少。這表明在任務過于復雜時，模型的推理能力可能無法跟上，導致性能提升的邊際效應遞減。
步驟數量：隨著解決任務所需的步驟數量增加，性能提升也會增加。這表明在多步驟任務中，通過增加 agent 數量可以幫助模型更好地處理每一步，從而整體提高任務的解決性能。
先驗概率：正確答案的先驗概率越高，性能提升越大。這意味著在正確答案更有可能的情況下，增加 agent 數量更有可能帶來顯著的性能提升。

數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好-AI.x社區

▲ 節點：步驟，虛線：可能的替代步驟。節點的深度：步驟的數量，顏色的強度：固有難度的水平。圖示幫助讀者理解任務的復雜性是如何通過這些維度來衡量的。

基于此，論文提出了兩種優化策略來進一步提升方法的有效性：

逐步采樣和投票（Step-wise Sampling-and-Voting）：這種方法將任務分解為多個步驟，并在每個步驟中應用采樣和投票，以減少累積錯誤并提高整體性能。
分層采樣和投票（Hierarchical Sampling-and-Voting）：這種方法將低概率任務分解為多個高概率子任務，并分層解決，同時可以使用不同模型來處理不同概率的子任務以降低成本。

數量即力量！騰訊揭秘：Agent數量越多，大語言模型效果越好-AI.x社區