10個小模型并聯(lián)跑贏GPT-4.1!無額外訓(xùn)練,方法僅四步
近年來,語言模型技術(shù)迅速發(fā)展,然而代表性成果如Gemini 2.5Pro和GPT-4.1,逐漸被谷歌、OpenAI等科技巨頭所壟斷。
與此同時,開源社區(qū)的小規(guī)模模型正面臨日益嚴(yán)峻的挑戰(zhàn)——
他們參數(shù)規(guī)模通常僅在7B左右,難以在多任務(wù)、多領(lǐng)域場景中與大型閉源模型相抗衡,尚未形成真正意義上的通用人工智能能力。
在此背景下,上海人工智能實(shí)驗(yàn)室聯(lián)合東北大學(xué)、西北工業(yè)大學(xué)等機(jī)構(gòu),提出了Avengers框架,旨在探索開源小模型群體智能的新路徑。
實(shí)驗(yàn)表明,Avengers框架在15個涵蓋數(shù)學(xué)、代碼、邏輯、知識和情感任務(wù)的數(shù)據(jù)集上,平均得分超越了GPT-4.1(OpenAI 4月發(fā)布的旗艦?zāi)P停?,并在其?個數(shù)據(jù)集上顯著更優(yōu)。
△模型路由分布圖與部分任務(wù)性能對比
Avengers框架:構(gòu)建小型語言模型的協(xié)同智能
Avengers框架的設(shè)計(jì)核心是簡潔、高效且無需額外訓(xùn)練,通過四個輕量的步驟,集結(jié)多個小模型的優(yōu)勢:
- Embedding:通過嵌入理解問題
無論是系統(tǒng)準(zhǔn)備階段用作學(xué)習(xí)的驗(yàn)證問題,還是用戶實(shí)時提出的新問題,框架都會首先利用文本嵌入模型將這些問題“翻譯”成語義信息向量。 - Clustering:通過聚類構(gòu)建“任務(wù)地圖”
在系統(tǒng)準(zhǔn)備階段,Avengers通過計(jì)算這些向量間的相似性,將問題劃分為不同的簇(cluster),其中每個簇都代表著一種具備相似性的問題,例如“數(shù)學(xué)計(jì)算區(qū)”、“代碼生成區(qū)”或“邏輯推理區(qū)”。 - Scoring:為每個模型建立“能力檔案”
Avengers利用各個簇的代表性驗(yàn)證問題(驗(yàn)證集)去“考核”模型池中的每一個小模型,并記錄下它們在每個問題類別上的表現(xiàn)得分。 - Routing & Voting:通過動態(tài)路由與投票決策,實(shí)現(xiàn)人盡其才,擇優(yōu)輸出
當(dāng)一個新問題進(jìn)入Avengers后,框架會實(shí)時進(jìn)行處理:
首先,通過語義嵌入理解新問題。
然后,在“任務(wù)地圖”上迅速定位該問題所屬的簇。
接著,系統(tǒng)查閱各模型的“能力檔案”,動態(tài)選擇(路由)在該問題類別中表現(xiàn)最好的一個或多個“專家模型”來生成答案。
最后,通過投票機(jī)制(如Self-Consistency),從所有候選答案中選出一致性最高的作為最終輸出。
實(shí)驗(yàn)驗(yàn)證:Avengers框架的有效性與潛力
為了全面評估Avengers框架的性能,研究團(tuán)隊(duì)選取了覆蓋數(shù)學(xué)推理(如AIME, Math500,LiveMathBench)、代碼生成(MBPP, HumanEval)、邏輯推理(如KORBench, BBH,Knights and Knaves)、知識問答(ARC Challenge, MMLUPro,GPQA,FinQA,MedQA)和情感分析(如EmoryNLP, MELD)等五個領(lǐng)域的15個公開數(shù)據(jù)集。
實(shí)驗(yàn)中,Avengers框架集成了10個參數(shù)量在7B左右的開源小型語言模型。
此外,為了進(jìn)行更加充分的對比,研究團(tuán)隊(duì)還對基線方法進(jìn)行了增強(qiáng)。
具體而言,對于路由方法(RouterDC, EmbedLLM, MODEL-SAT),統(tǒng)一使用gte-qwen2-7B-instruct作為文本嵌入模型,推理時統(tǒng)一使用Self-Consistency策略(采樣10次)。訓(xùn)練路由時,研究人員人為選取了路由模型的測試集最高性能點(diǎn)作為訓(xùn)練終止點(diǎn)。對于混合方法(MoA, Symbolic-MoE),研究團(tuán)隊(duì)統(tǒng)一使用32K上下文的Qwen2.5-7B-Instruct作為聚合模型(aggregator)。為了避免模型過多帶來的上下文窗口過長問題,研究團(tuán)隊(duì)還設(shè)計(jì)了MoA(Oracle)——推理時使用在當(dāng)前任務(wù)最強(qiáng)的3個模型,而不是全部模型。
核心實(shí)驗(yàn)結(jié)果表明:
- 整體性能優(yōu)越:
- 在15個數(shù)據(jù)集中,Avengers框架在其中9個數(shù)據(jù)集上的表現(xiàn)超越了強(qiáng)大的專有模型GPT-4.1。
- 特定領(lǐng)域優(yōu)勢顯著:
在數(shù)學(xué)任務(wù)上,Avengers的平均性能比GPT-4.1高出18.21%。
在代碼任務(wù)上,Avengers的平均性能比GPT-4.1高出7.46%。
超越其他路由與集成方法:
與需要訓(xùn)練的先進(jìn)路由方法(如RouterDC, EmbedLLM, MODEL-SAT)相比,Avengers在無需額外訓(xùn)練的情況下,平均性能最高,并且在分布外泛化(Out-of-Distribution Generalization)任務(wù)上表現(xiàn)出更強(qiáng)的魯棒性,在OOD測試中平均得分比EmbedLLM高出8.14%。
與混合式方法(如Mixture-of-Agents)相比,Avengers更適應(yīng)小模型上下文窗口有限和指令遵循能力相對較弱的特點(diǎn),展現(xiàn)出更好的性能,相比于MoA(Oracle)方法平均得分高出17.16%。
這些結(jié)果清晰地證明,通過Avengers框架的有效組織和調(diào)度,多個小型模型的“集體智慧”能夠達(dá)到甚至在某些方面超越頂尖大型模型的水平,相比于混合式方法,性能優(yōu)勢明顯,相比于路由方法,無需訓(xùn)練且OOD性能優(yōu)秀。
要素解析:Avengers框架為何有效?
通過細(xì)致的消融實(shí)驗(yàn),研究團(tuán)隊(duì)探究各組成部分對整體性能的貢獻(xiàn):
- 對嵌入模型和聚類算法的魯棒性:實(shí)驗(yàn)表明,Avengers框架的性能對于所選用的具體嵌入模型(測試了從0.56B到7B參數(shù)不等的多種模型)和聚類算法(測試了K-Means、層次聚類、GMM等多種經(jīng)典算法)并不敏感。這意味著Avengers具有良好的普適性和易用性,不強(qiáng)依賴于特定的組件。
- 模型數(shù)量與性能的權(quán)衡:研究發(fā)現(xiàn),隨著集成的小模型數(shù)量增加,Avengers的整體性能也隨之提升。值得注意的是,僅需3個小模型,其性能便可與GPT-4.1持平(根據(jù)簇排名自動選擇)。當(dāng)模型數(shù)量達(dá)到約10個時,性能趨于飽和,尤其在知識、代碼和情感等任務(wù)上展現(xiàn)出良好的互補(bǔ)效應(yīng)。這說明Avengers能夠有效地利用模型的異質(zhì)性,實(shí)現(xiàn)“1+1>2”的效果,而無需盲目堆砌模型數(shù)量。
- 集成策略的有效性:在多種輸出集成策略中,基于投票的策略被證明是一種簡單且高效的選擇,它通過對單個或多個模型進(jìn)行重復(fù)采樣及投票,顯著提升了最終答案的質(zhì)量和穩(wěn)定性。
- 對超參數(shù)的低敏感度:以聚類數(shù)量K為例,實(shí)驗(yàn)顯示在一個相當(dāng)寬泛的K值范圍內(nèi)(約14至140),Avengers均能保持穩(wěn)定且優(yōu)于GPT-4.1的性能。這降低了超參數(shù)調(diào)優(yōu)的難度,增強(qiáng)了框架的實(shí)用性。
這些特性共同構(gòu)成了Avengers框架的核心優(yōu)勢:它是一個輕量級、適應(yīng)性強(qiáng)、且對具體組件選擇和超參數(shù)調(diào)整不敏感的協(xié)同解決方案。
意義與展望:為開源AI生態(tài)注入新活力
Avengers框架的提出和驗(yàn)證,對于當(dāng)前的AI研究和開源社區(qū)具有多重意義:
- 為小型模型開辟新路徑它證明了通過有效的協(xié)同策略,參數(shù)量相對較小、資源要求較低的開源模型也能夠在復(fù)雜任務(wù)上取得良好表現(xiàn),為提升開源模型實(shí)用性提供了參考路徑。
- 推動AI技術(shù)的普惠化作為一個無需訓(xùn)練、易于實(shí)現(xiàn)的框架,Avengers簡化了高性能AI系統(tǒng)的構(gòu)建流程,有助于更多開發(fā)者和研究人員開展相關(guān)實(shí)驗(yàn)與應(yīng)用探索。
- 促進(jìn)模型生態(tài)的多樣性通過發(fā)掘和利用不同模型的獨(dú)特優(yōu)勢,Avengers展示了模型在特定任務(wù)中互補(bǔ)使用的潛力,有助于構(gòu)建一個更加豐富和多元的AI模型生態(tài)。
未來工作將聚焦于以下幾個方面:
- 降低初始校準(zhǔn)成本探索更高效的聚類和模型能力評估方法,以減少框架在引入新模型或新任務(wù)時的前置計(jì)算。
- 擴(kuò)展應(yīng)用范圍將Avengers框架應(yīng)用于更廣泛的任務(wù)類型(如對話系統(tǒng)、多模態(tài)任務(wù))和更多樣化的模型(包括更小規(guī)模的模型)。
- 動態(tài)適應(yīng)與進(jìn)化研究在線學(xué)習(xí)和動態(tài)調(diào)整機(jī)制,使Avengers框架能夠根據(jù)實(shí)時反饋和環(huán)境變化,持續(xù)優(yōu)化其模型選擇和集成策略。
本文第一作者張逸群(東北大學(xué)博士三年級)和李昊(西北工業(yè)大學(xué)博士二年級)均為上海人工智能實(shí)驗(yàn)室實(shí)習(xí)生。通訊作者為上海人工智能實(shí)驗(yàn)室研究員胡舒悅和東北大學(xué)副教授馮時。團(tuán)隊(duì)其他成員還有實(shí)驗(yàn)室實(shí)習(xí)生王晨旭、陳林堯,以及實(shí)驗(yàn)室研究員張喬生、葉鵬、徐甲、白磊、歐陽萬里等。
論文鏈接:https://arxiv.org/abs/2505.19797
代碼鏈接:https://github.com/ZhangYiqun018/Avengers