告別“單打獨(dú)斗”!AI 協(xié)作新范式 MoA,如何集結(jié)大模型“夢之隊(duì)”?
大模型浪潮下,你的 AI 應(yīng)用遇到瓶頸了嗎?
當(dāng) GPT、Claude、文心一言等各類強(qiáng)大模型如繁星般涌現(xiàn),我們驚喜于它們令人驚嘆的能力。然而,在實(shí)際落地中,我們常常發(fā)現(xiàn),即使是最頂尖的單一模型,也難以完美應(yīng)對所有復(fù)雜場景的需求。
為什么呢?因?yàn)楝F(xiàn)實(shí)世界的任務(wù)往往是多模態(tài)、跨領(lǐng)域的。解決一個(gè)問題可能既需要強(qiáng)大的邏輯推理,又需要豐富的知識(shí)儲(chǔ)備,甚至還需要調(diào)用外部工具或API。讓一個(gè)模型包攬一切,就像要求一位數(shù)學(xué)家同時(shí)成為詩人、程序員和歷史學(xué)家一樣,效率和效果都難以保證。
那么,未來的方向在哪里?答案或許在于協(xié)作。
不同于讓模型內(nèi)部的模塊分工(比如 MoE),我們正在見證一種更靈活、更強(qiáng)大的協(xié)作模式崛起:讓多個(gè)獨(dú)立的、各有所長的大模型或 AI Agent 組成一個(gè)“夢之隊(duì)”,共同解決難題。
今天,我們要聚焦的,就是這一前沿領(lǐng)域的一個(gè)重要探索——混合 Agent(Mixture of Agents),簡稱 MoA。它不再是模型內(nèi)部的“分身”,而是系統(tǒng)層面的“集結(jié)號”,讓不同的強(qiáng)大模型為了同一個(gè)目標(biāo)而協(xié)同作戰(zhàn)!
你可能聽說過 MoE (Mixture of Experts),它是一種提高模型效率和容量的內(nèi)部技術(shù),像是模型自己搭建了一個(gè)內(nèi)部“專家團(tuán)”,根據(jù)任務(wù)把計(jì)算分配給不同的內(nèi)部子網(wǎng)絡(luò)。
而 MoA (Mixture of Agents) 則是一種更高維度的協(xié)作。它不是在模型內(nèi)部做文章,而是把多個(gè)已經(jīng)訓(xùn)練好的獨(dú)立大模型(就像一個(gè)個(gè)具備特定技能的“智能體”Agent)拉到一個(gè)協(xié)作框架里。
你可以把 MoE 理解為一個(gè)公司內(nèi)部的不同部門協(xié)同完成一個(gè)大項(xiàng)目;而 MoA 更像是一個(gè)跨公司的戰(zhàn)略聯(lián)盟,每個(gè)公司(Agent)都有自己的核心優(yōu)勢和技術(shù)棧,為了一個(gè)共同的商業(yè)目標(biāo)(用戶查詢/復(fù)雜任務(wù))而緊密合作。
在 MoA 框架下,當(dāng)一個(gè)復(fù)雜任務(wù)來臨時(shí),它不是直接扔給一個(gè)“全能選手”。相反,它會(huì)被分發(fā)給聯(lián)盟中的多個(gè)“智能體”。
MoA 系統(tǒng)通常采用一種巧妙的分層結(jié)構(gòu),核心是兩種角色:提議者 (Proposers) 和 聚合者 (Aggregators)。
啟動(dòng)階段(第一層)
收到用戶任務(wù)后,系統(tǒng)會(huì)把任務(wù)發(fā)給第一層的多個(gè)“提議者”(它們是不同的、獨(dú)立的 LLM)。這些提議者就像接到同一個(gè)咨詢需求的多個(gè)專家,各自獨(dú)立思考并提出自己的初步“方案”。
迭代優(yōu)化(中間層)
接下來,前一層所有提議者的“方案”會(huì)被收集起來,作為新的參考信息,傳遞給下一層的提議者。這些下一層的提議者在參考了前人的智慧結(jié)晶后,再生成自己的、可能更精進(jìn)的“方案”。這個(gè)過程可以重復(fù)多次,形成多層結(jié)構(gòu)。
智慧融合(最后一層與聚合)
當(dāng)達(dá)到最后一層時(shí),所有提議者生成的“方案”會(huì)被提交給一位特殊的成員——“聚合者”。聚合者就像一位經(jīng)驗(yàn)豐富的總編輯或項(xiàng)目經(jīng)理,它會(huì)審閱所有提交的方案,從中吸收精華、整合信息,最終形成一個(gè)結(jié)構(gòu)完整、內(nèi)容豐富、質(zhì)量最高的最終回復(fù)呈現(xiàn)給用戶。
MoA 的強(qiáng)大之處在于,它不是簡單地從多個(gè)回復(fù)中“挑一個(gè)最好的”,而是通過聚合者的綜合能力,將不同提議者在不同側(cè)面的優(yōu)勢整合起來,形成一個(gè)超越任何單個(gè)提議者能力的答案。
而且,這個(gè)協(xié)作框架是基于提示詞(Prompt-based)實(shí)現(xiàn)的!這意味著你不需要去修改或微調(diào)底層的 LLM,只需設(shè)計(jì)好如何組織和傳遞信息給它們即可。如果未來出現(xiàn)了更強(qiáng)的模型,你可以輕松地將其加入這個(gè)“智能體聯(lián)盟”中,即插即用,大大提高了系統(tǒng)的靈活性和可升級性。
MoA 在多個(gè)公開基準(zhǔn)測試中展現(xiàn)出了令人印象深刻的性能。在 AlpacaEval 2.0 和 MT-Bench 這類考驗(yàn)?zāi)P屯ㄓ脤υ捘芰Φ陌駟紊希捎?MoA 結(jié)構(gòu)的系統(tǒng),通過匯聚多個(gè)頂尖 LLM 的智慧,在某些配置下甚至超越了當(dāng)時(shí)最先進(jìn)的單一模型!
特別是在 FLASK 這樣的細(xì)粒度評估數(shù)據(jù)集上,MoA 在正確性、信息完整度、問題理解深度等多個(gè)關(guān)鍵維度上表現(xiàn)出色,證明了“集思廣益”在提升回復(fù)質(zhì)量方面的有效性。
對比簡單的“選優(yōu)”策略(比如只從多個(gè)提議者中挑一個(gè)最佳回復(fù)),MoA 的“融合”策略被證明能帶來更穩(wěn)定的性能提升,因?yàn)樗軌?/span>博采眾長,彌補(bǔ)單個(gè)模型的不足。
想嘗試 MoA?一些研究和實(shí)踐經(jīng)驗(yàn)或許能幫到你:
在構(gòu)建一個(gè)高效的語言模型協(xié)同工作系統(tǒng)時(shí),成員的多樣性至關(guān)重要,就像組建團(tuán)隊(duì)需要不同背景和技能的人一樣,選擇不同架構(gòu)和訓(xùn)練偏向的語言模型(LLM)作為提議者,其效果往往優(yōu)于使用多個(gè)相同的模型。
增加提議者的數(shù)量通常能提升整體性能,因?yàn)樗鼛砹烁嘣囊暯呛托畔碓垂┚酆险邊⒖迹@需遵循適度原則,平衡性能提升與成本效率。系統(tǒng)的“隊(duì)長”——聚合者的能力至關(guān)重要,一個(gè)強(qiáng)大的、擅長信息整合和文本生成的LLM能更好地發(fā)揮提議者集群的優(yōu)勢。
研究表明,即使是層數(shù)較少的配置(如雙層MoA-lite),通過合理的模型搭配,也能在性能上接近甚至超越一些頂級模型,同時(shí)顯著降低運(yùn)行成本,體現(xiàn)了性價(jià)比的優(yōu)勢。
當(dāng)然,這種多模型協(xié)作并非沒有代價(jià)。最主要的挑戰(zhàn)在于延遲。等待多個(gè)提議者生成回復(fù),再由聚合者進(jìn)行處理,這個(gè)流程顯然會(huì)比單個(gè)模型直接輸出要耗時(shí)。如何優(yōu)化響應(yīng)速度,尤其縮短用戶感知到的首字生成時(shí)間(TTFT),是未來 MoA 發(fā)展需要解決的關(guān)鍵問題。一些潛在方案包括并行處理、流式聚合等。
寫在最后
MoA 為我們展示了一個(gè)充滿想象力的 AI 協(xié)作新范式。它突破了單一模型的局限,通過有機(jī)地組合和協(xié)同多個(gè)具備不同能力的智能體,去攻克那些復(fù)雜多變、需要綜合智慧的任務(wù)。
這不僅僅是一種技術(shù)架構(gòu)的創(chuàng)新,更代表著一種理念的轉(zhuǎn)變:未來的 AI 不會(huì)是少數(shù)幾個(gè)“超級英雄”統(tǒng)治世界,而更可能是一個(gè)由各種專業(yè)智能體構(gòu)成的、高效協(xié)作的“聯(lián)盟”。
2025年的今天,AI創(chuàng)新已經(jīng)噴井,幾乎每天都有新的技術(shù)出現(xiàn)。作為親歷三次AI浪潮的技術(shù)人,我堅(jiān)信AI不是替代人類,而是讓我們從重復(fù)工作中解放出來,專注于更有創(chuàng)造性的事情,關(guān)注我們公眾號口袋大數(shù)據(jù),一起探索大模型落地的無限可能!