融合、集成與協作!大語言模型時代的協作策略綜述 原創 精華
摘要:
大語言模型(LLMs)的顯著成功將自然語言處理(NLP)研究帶入了一個新時代。盡管其功能多樣,但基于不同語料庫訓練的LLMs表現出各自的優勢與劣勢,這對提升其整體效率與多功能性提出了挑戰。為了解決這些挑戰,近期的研究探索了LLMs的協作策略。本文對這一新興研究領域進行了全面綜述,闡述了協作研究的動機。具體而言,我們將協作策略分為三種主要方法:融合、集成與合作。融合涉及在參數空間內整合多個LLMs;集成結合了不同LLMs的輸出;合作利用不同LLMs的多樣化能力以完成特定任務。本文從多個角度深入介紹了這些方法,并討論了它們的潛在應用。此外,我們還概述了未來的研究方向,希望本工作能夠催化更多關于LLMs協作的研究,并為先進的NLP應用鋪平道路。
1.引言
“眾人拾柴火焰高。”——約翰·海伍德
人類自古以來就深刻理解協作的力量。當個體結合其多樣化的技能與努力時,能夠實現遠超單獨行動的成果。這種集體協作的原則,在機器學習領域再次煥發了新生命(Dietterich, 2000; Panait和Luke, 2005; Sagi和Rokach, 2018),極大地推動了人工智能的發展。
圖1:最近,許多大型語言模型被發布,每個模型都具有其獨特的優勢。這種多樣性推動了關于這些模型協作的研究。
近年來,大語言模型(LLMs)(Brown等, 2020; Chowdhery等, 2023)成為人工智能中發展最快、最有前景的方向之一。這些模型顯著改變了自然語言處理(NLP)的范式(Min等, 2023a; Chang等, 2024; Zhao等, 2023),并對其他領域產生了深遠影響(Wu等, 2023a; Zhang等, 2024a)。這場革命性的變革激勵了眾多大學、研究機構和公司預訓練并發布了各自的LLM模型。目前,HuggingFace模型平臺上已提供超過74,000個預訓練模型。這些模型通過多樣化的數據、架構和方法訓練,展現出獨特的能力:一些擅長多語言任務(Le Scao等, 2023; Lin等, 2022),一些專注于醫學(Yang等, 2024b)或金融領域(Wu等, 2023b),另一些則擅長處理長上下文窗口(Chen等, 2023e,f),還有一些經過微調以更好地與人類互動(Ouyang等, 2022)。然而,沒有單一模型在所有任務上表現始終優于其他模型(Jiang等, 2023a)。這種差異性激發了關于不同LLM之間協作的研究,旨在釋放其聯合潛力,就像打造一個“六邊形戰士”一樣。
盡管LLM協作研究取得了一些進展,但現有方法之間的關系和上下文仍不夠清晰。本綜述旨在填補這一空白,通過將協作技術歸類為三種主要方法:融合(Merging)、集成(Ensemble)和合作(Cooperation)。具體而言,LLM的融合與集成方法源于機器學習中常見的傳統融合技術(Li等, 2023a)。這些方法經過調整后,更適合LLMs,能夠有效利用多樣化LLM的協作優勢。融合涉及將多個LLM的參數整合為單一、統一的模型,這要求參數在線性空間中具有兼容性。相比之下,集成方法聚焦于組合不同LLM生成的輸出,以產生連貫的結果,而對單個模型參數的關注較少。合作方法超越了融合與集成,專注于利用LLM的多樣化優勢以實現特定目標。這些技術總體上擴展了模型協作的方法,對于LLM研究具有重要意義。
本研究的結構如下:我們首先在第2節中提供LLM的背景信息,并定義其協作技術。接下來,我們在第3、4和5節中分別介紹三大關鍵類別:融合、集成和合作。每一類方法都經過詳細分類和深入描述,提供對其框架及應用的清晰理解。最后,我們在第6節中進行綜合討論,強調研究面臨的挑戰與未來方向。
2.背景
2.1 大語言模型(LLMs)
語言建模一直是自然語言處理(NLP)的基石。最近,許多研究通過擴展基于Transformer的語言模型(Vaswani等, 2017;Radford等, 2018),實現了數十億以上參數的顯著增長,例如GPT-3(Brown等, 2020)、PaLM(Chowdhery等, 2023;Anil等, 2023)和LLaMA(Touvron等, 2023a,b)。由于其巨大的參數量,這些模型通常被視為大語言模型(LLMs)(Zhao等, 2023)。本節將討論LLMs的架構與擴展、其訓練目標以及所展現的涌現能力。
架構與擴展
與預訓練語言模型(PLMs)(Radford等, 2018;Devlin等, 2019)相似,LLMs主要采用Transformer架構(Vaswani等, 2017)作為其骨干架構,由多頭注意力和前饋層堆疊而成。與PLMs不同,目前發布的大多數LLMs基于僅解碼架構進行訓練,以提高訓練效率并支持少樣本能力。這種方法在參數數量增加時也展現了潛力(Zhang等, 2022)。最近的研究還探討了模型容量、訓練數據量和模型規模之間的量化關系,即擴展定律(Kaplan等, 2020;Hoffmann等, 2022)。
訓練目標
在PLMs的早期研究中,提出了各種語言建模任務,例如BERT(Devlin等, 2019)的掩碼語言建模、BART(Lewis等, 2020)和T5(Raffel等, 2020)的去噪語言建模。然而,目前的LLMs通常采用標準的因果語言建模作為其訓練目標,旨在基于序列中的前序詞預測下一個詞。這一訓練目標非常適合僅解碼架構。
除了預訓練目標,近期研究還致力于建模人類偏好,以更好地使LLMs與人類期望保持一致。例如,著名的InstructGPT(Ouyang等, 2022)引入了來自人類反饋的強化學習(RLHF),將偏好獎勵作為附加訓練目標。盡管RLHF在使LLMs對用戶更有幫助方面非常有效,但不可避免地會導致“對齊成本”,即RLHF后性能的下降。最近的研究探索了各種技術以緩解對齊成本問題(Lin等, 2023;Lu等, 2024b;Fu等, 2024b)。
涌現能力
語言模型的基本能力是文本生成,利用貪婪搜索或核采樣方法(Holtzman等, 2020a)基于前序詞遞歸生成詞語:yi~p(yi∣y<i)
令人驚訝的是,LLMs不僅能夠生成逼真的文本,還能在不需要對特定下游任務進行微調的情況下,通過提供特定任務提示來執行特定任務(Brown等, 2020)。這一現象是LLMs與以前的PLMs之間最重要的區別之一。Wei等(2022b)將涌現能力定義為“在較小的模型中不存在但在較大模型中出現的能力”。在這些涌現能力中,情境學習(ICL)(Brown等, 2020;Dong等, 2022)和指令遵循是常用的,并顯著增強了LLMs處理各種任務的能力。
情境學習通過使用一些任務示例作為示范幫助LLMs理解任務。當將這些示范作為提示提供時,LLMs可以自動生成給定測試示例的合理輸出,其公式化如下:p(y∣x)=p(y∣x,demonstration({(xi,yi)}i=1k))
指令遵循能力通常出現在已經針對多任務指令示例進行了微調的LLMs中。生成過程可以公式化為:p(y∣x)=p(y∣x,I)
其中 I表示給定示例x的指令。指令微調技術(Sanh等, 2021;Ouyang等, 2022;Wei等, 2022a)能夠增強LLMs的泛化能力,使其能夠在多種任務上表現良好,包括未見任務(Thoppilan等, 2022)。
2.2 對LLMs的協作
對于以前的任務依賴型NLP模型,協作策略通常旨在提高特定任務的性能(Jia等, 2023)。最近,LLMs通過在廣泛任務中的顯著多功能性徹底改變了NLP。這一轉變也將LLMs協作策略的重點轉向增強多功能性和實現更通用的目標。因此,最近提出的一些協作策略變得更加靈活,并專門為LLMs量身定制。
LLMs協作的必要性
盡管幾乎所有LLMs都通過情境學習和指令遵循表現出在各種任務中的強大多功能性,但不同的LLMs仍然具有不同的優勢和劣勢(Jiang等, 2023a)。
不同LLMs家族(例如LLaMA、GLM(Zeng等, 2023)和QWen(Bai等, 2023))之間的訓練語料和模型架構差異導致了其能力的顯著差異。即使在同一家族內,針對特定語料庫(例如數學(Azerbayev等, 2023)、代碼(Roziere等, 2023)或醫學領域(Wu等, 2024))的微調也會帶來顯著的性能差異。通過有效的協作,可以釋放這些LLMs的潛力,顯著增強其整體性能和多功能性。
此外,大語言模型(LLMs)不可避免地存在計算效率低下(Zhou等, 2024c)、幻覺現象(Rawte等, 2023;Ji等, 2023;Huang等, 2023)以及隱私泄露(Fan等, 2024)等問題。最近的研究探索了LLMs之間的協作策略,這為緩解這些問題和彌補其缺陷提供了潛在的解決方案。
LLM協作方法的分類
LLMs之間的協作是指多個LLMs協同工作,利用其各自的優勢和能力以實現共同目標。在本綜述中,我們將LLMs協作方法分為三個方面:融合(Merging)、集成(Ensemble)和合作(Cooperation)。如圖2所示:
- 融合:通過在模型參數空間內進行算術操作,將多個LLMs整合為一個統一且更強大的模型。
- 集成:結合不同模型的輸出以獲得連貫的結果。近期的研究提出了多種專為LLMs設計的集成方法。
- 合作:這是一個相對廣泛的概念。本綜述重點介紹合作方法,這些方法利用不同LLMs的多樣化能力來完成特定目標,例如高效計算或知識轉移。
需要注意的是,從融合到集成再到合作,對LLMs的要求逐漸放寬,使得所提出的方法越來越靈活。具體而言:
- 融合方法僅在LLMs具有兼容的參數空間時有效,從而實現無縫整合。
- 集成方法要求LLMs具備多樣化但可比較的能力;如果缺乏這種平衡,集成可能效果較差。
- 合作方法則更加靈活,重點在于利用LLMs的多種能力,這些能力是專門設計用于實現特定目標的。
對于每個類別,我們根據其重點或實施階段進一步分類具體方法。全面的分類如圖3所示。
3.融合
單個模型固有的局限性,如可能遺漏重要信息(Sagi和Rokach,2018)以及容易陷入局部最優或缺乏多任務能力,促使研究人員探索在參數空間中融合多個模型以創建統一、更強大的模型的方法。近年來,模型融合取得了顯著進展,各種技術在現有綜述(Li等,2023a)中有所記錄。在LLMs時代,模型融合已成為模型合作的重要解決方案,通常采用基本的融合方法并證明其有效性。本節重點介紹對LLMs有效的融合技術。當前對模型融合的研究通常關注兩個關鍵問題:融合以接近相對最優解(M-ROS)和融合以增強多任務能力(M-MTC)。M-ROS的研究基于以下發現:梯度優化的解通常在寬平坦區域的邊界附近收斂,而不是在中心點(Izmailov等,2018)。模型融合提供了一種接近這一相對最優點的方法,從而產生更強大的模型。另一方面,M-MTC旨在利用模型融合技術使單個模型具備跨多個任務的能力(Ilharco等,2023;Yadav等,2023)。在接下來的小節中,我們將介紹每個目標的技術及其在LLMs中的應用。重要的是,對于M-ROS和M-MTC,當前的模型融合方法僅適用于具有相同架構且參數在同一空間內的模型。因此,大多數候選模型M={M1,M2, · · · ,Mk}應從相同的預訓練模型M0進行微調。這一要求確保了模型參數的兼容性和一致性,促進了成功的融合。不幸的是,對于參數不兼容的模型,如LLaMA和QWen,當前的融合技術無效。
3.1融合以接近相對最優解(M-ROS)
機器學習模型,尤其是深度學習模型,在訓練過程中往往無法達到精確的最優解(Li等,2023a)。研究者們發現,現代深度神經網絡的局部最優解通過簡單的曲線相連,這些曲線上的路徑能夠保持較低的損失。這表明,權重空間中的不同局部最優解并非孤立存在,而是可以通過低損失路徑相互連接(Garipov等,2018)。通過加權平均方法獲得的模型可以視為低損失路徑上的一個點。參數平均通過平均不同的局部最優解,整合了各種模型的優勢,從而減少了單個模型的偏差和方差(Rame等,2022)。為了提升模型性能,提出了M-ROS方法,這些方法旨在通過融合多個模型的參數,將相對優化的點融合成一個更優的模型。我們將這些方法分為兩類:簡單平均和加權平均。盡管這些技術最初是為小型深度模型開發的,但它們對LLMs同樣有效。接下來,我們將首先介紹基本的M-ROS方法,然后討論它們如何應用于LLMs。
3.1.1 基本的 M-ROS 方法
簡單平均
簡單參數平均是一種將多個微調模型的參數以相等的系數進行組合的方法,從而創建一個更強大的模型(Guo等,2023)。實證證據表明,這些融合后的模型在準確性、魯棒性和穩定性方面通常優于單個模型。對于k個候選模型\( M = \{M_1, M_2, \cdots, M_k\} \),簡單參數平均可以形式化為:
其中\( \theta_{M_i} \)表示第i個模型的參數,\( \theta^ \)是融合后的參數。為了最大化多個模型的優勢,Model Soup(Wortsman等,2022)引入了Uniform Soup和Greedy Soup。Uniform Soup簡單地平均模型參數,而Greedy Soup一次添加一個模型到池中,確保每個新模型要么提高要么保持在驗證集上的性能。同樣,DiWA(Rame等,2022)根據候選模型在驗證集上的性能進行排名,并僅在它們增強性能時添加新模型。通常,Greedy Soup和DiWA通過選擇的模型參數平均來進行推理。
加權平均
加權平均允許根據模型的重要性或質量為不同模型分配不同的系數,以實現更優的融合效果。對于經過顯著不同權重微調的訓練網絡,簡單的平均方法通常表現不佳(Singh和Jaggi,2020)。因此,為不同模型選擇合適的融合系數成為關鍵因素。加權平均可以形式化為:
其中,\( \alpha_i \)是候選模型\( M_i \)的歸一化系數。目前,有幾種方法可用于找到最優的融合系數。例如,Learned Soup(Wortsman等,2022)在驗證集上優化混合系數,以最小化損失函數,從而結合多個模型的優勢,提升整體性能。Matena和Raffel(2022)提出利用Fisher信息矩陣來衡量經過不同隨機種子微調的模型的參數重要性,并使用這些重要性分數作為系數進行融合。此外,Jang等(2024)提出了一種基于幾何關系的方法,根據參數之間的角度發散對微調模型進行插值。
3.1.2 適應 LLMs
上述模型融合技術已成功應用于LLMs,以實現獲得更強的LLMs和增強RLHF的目標。
獲得更強的LLMs
為了獲得更強的LLMs,一些研究提出了針對LLMs的新方法。Wan等(2024b)建議根據微調前后參數矩陣的變化率來計算融合系數。同樣,Liu等(2024b)提出利用LLMs在預訓練過程中保存的檢查點,結合貝葉斯優化來導航廣泛的搜索空間并識別最優的融合系數。為了解決梯度不匹配問題,Lin等(2023)引入了一種自適應方法,為模型的不同層分配不同的組合比例,優化這些組合以平衡人類偏好對齊和預訓練能力。其他研究采用現有的模型融合技術,為特定目標創建更強的LLMs。例如,Fu等(2024a)提出了一個分散-融合框架,首先使用不同的指令微調數據部分訓練多個子模型,然后通過加權融合將它們融合成一個具有多方面能力的單LLM。
增強RLHF
模型融合技術還有助于提升LLMs與人類偏好的對齊。Lin等(2023)提出了一種自適應方法,為模型的不同層分配不同的組合比例,優化這些組合以平衡人類偏好對齊和預訓練能力。Ram’e等(2024)提出微調多個獎勵模型,然后通過平均它們的參數來創建一個與人類偏好對齊更好的高級獎勵模型。同樣,Fu等(2024b)使用加權平均方法在監督微調(SFT)期間改進LLMs的對齊,有效減少數據偏差的影響。Lu等(2024b)提出使用模型融合技術在RLHF訓練期間減少對齊稅。
3.2 通過 M-MTC 增強多任務能力
最近,一些研究嘗試通過融合具有不同能力的模型來構建一個具有多任務能力的統一模型。這些模型通常從相同的預訓練模型出發,但使用不同的任務特定數據進行微調,導致它們的參數空間出現分歧。M-MTC方法旨在緩解這種分歧,實現模型的平衡融合,從而產生一個能夠處理多個任務的單一模型。早期研究通過為不同模型分配不同的融合系數來解決分歧問題(第3.2.1節,加權平均),而當前研究更傾向于從分歧中提取任務屬性,以實現更靈活的融合(第3.2.2節,任務屬性)。此外,最近的工作開始采用增量學習技術來增強模型融合性能(第3.2.3節,增量學習)。我們將在以下小節中分別介紹這些方法。
3.2.1 基于加權平均的方法
一些研究采用加權平均策略(見第3.1.1節)來調整不同模型的重要性。Jin等人(2022)提出了一種名為RegMean的方法,該方法選擇性地整合Transformer模型的線性層,同時對其他層使用簡單的平均方法,從而最小化融合模型與在不同數據集上微調的多個模型之間的偏差。Daheim等人(2023)建議利用從Hessian矩陣導出的估計值來優化模型融合,實現對模型參數的更精確調整。Nathan等人(2024)將Fisher加權平均與模型剪枝相結合,以高效地進行模型融合。
3.2.2 基于任務屬性的融合方法
基于加權平均的融合方法強調參數的重要性,但忽略了它們的任務特定屬性,這在某些任務上可能導致顯著的性能下降。Ilharco等人(2023)發現,“簡單平均會導致10%的性能下降”。為了解決這一問題,最近的研究引入了一種稱為任務向量的新范式。Ilharco等人(2023)定義任務向量τt 為“一個向量,指定了預訓練模型參數空間中的一個方向,沿此方向移動可以提高任務\( t \)的性能”,形式化為:
其中,\( \theta_{\text{ft}_t} \)是在任務t的特定數據上微調的參數,而\( \theta_{\text{pre}} \)是預訓練模型的原始參數。
任務向量可以更有效地解決模型融合期間的參數沖突。如圖4所示,以預訓練模型為參考,微調模型的任務向量方向的變化表明了參數空間中的沖突。為了應對參數沖突問題,最近的研究旨在探索方法以減輕沖突,并在不同模型之間取得平衡。參數沖突方法在相同位置的參數上進行沖突解決,而較少參數方法通過識別和剪枝冗余參數來減少沖突。此外,我們介紹了一個包含一些方法的工具包。
解決參數沖突
TASK ARITHMETIC(Ilharco等人,2023)最初通過微調參數和預訓練參數之間的算術運算推導任務向量,如公式(6)所示。這些任務向量隨后用于通過增強目標任務的性能來融合模型。為了進一步解決模型融合中的參數沖突問題,TIES-MERGING(Yadav等人,2023)確定了干擾的兩個主要原因:冗余參數值和模型之間的符號不一致。基于這些進展,ADAMERGING(Yang等人,2023)通過考慮不同模型參數的重要性進一步減少了沖突。METAGPT(Zhou等人,2024a)提出了基于ADAMERGING和TASK ARITHMETIC的高效方法。Akiba等人(2024)提出了一種適用于LLMs的融合方法,不僅在參數空間中采用TIES-MERGING進行融合,還采用進化算法優化融合模型內的數據推理路徑。上述方法已成功應用于LLMs。Kim等人(2024)將這些方法應用于融合LLMs以獲得更強的LLM評估器。Hammoud等人(2024)研究了這些方法對LLM安全對齊的影響。與上述基于任務向量的方法不同,Stoica等人(2024)提出了ZIPIT,該方法從另一個角度保留相似參數。ZIPIT首先識別不同模型之間高度相關的參數,然后在保留顯著不同的層的同時融合這些參數,從而提高融合的靈活性。
3.2.3 基于增量訓練的方法
盡管上述方法在一定程度上緩解了性能下降的問題,但仍存在一些不足。因此,一些研究提出了涉及增量訓練的方法,以恢復其原始性能。具體而言,Concrete TA/AM(Tang等人,2023)旨在模型參數空間內找到一個共享的低維子空間,以最小化任務干擾,同時不影響性能。Surgery(Yang等人,2024a)引入了一種表示手術技術,以減輕多任務模型融合中的表示偏差。
4. 集成
集成學習是另一種有效的合作策略,與模型融合方法不同,它側重于模型輸出的組合。傳統的技術如Adaboost(Freund和Schapire,1997)、Bagging(Breiman,1996)和Stacking(Wolpert,1992)在機器學習研究中取得了顯著進展。在LLMs時代,集成學習依然至關重要,能夠提升各種LLMs的整體性能。
然而,LLMs通常通過文本生成來解決各種任務,產生更靈活和自然表達的輸出。因此,為分類任務設計的傳統集成方法不能直接應用于LLMs。為了解決這個問題,許多研究探索了針對各種LLMs的特定集成方法。此外,集成學習的好處激發了對這些技術在各種應用中的研究。在以下部分中,我們將詳細介紹LLM集成方法和應用。
4.1 LLM 集成方法
對于不同的輸入,表現最佳的LLM并不總是相同的,這促使人們廣泛研究LLM的集成方法。與基于分類的機器學習模型不同,LLMs通常生成一系列離散的令牌作為輸出,這使得直接集成具有挑戰性。此外,不同LLMs之間的結構差異導致詞匯表和輸出分布難以統一,進一步復雜化了集成策略(Xu等人,2024b)。由于集成通常發生在推理期間,我們根據集成發生的時間將現有方法分類為推理前(BEFORE)、推理中(DURING)和推理后(AFTER)的集成方法。如圖5所示,推理前的集成方法選擇最合適的LLM來處理不同的輸入示例,推理中的集成方法在每個解碼步驟結合輸出,而推理后的集成方法旨在從多個LLM生成的多個輸出中選擇最佳響應。
4.1.1 推理前集成
這些方法旨在在推理前為特定示例選擇最佳的LLM。與從頭開始學習稀疏網絡的各種專家混合(MOE)方法(Jacobs等人,1991;Collobert等人,2003;Eigen等人,2013;Fedus等人,2022;Jiang等人,2024)不同,推理前的集成重點在于訓練多個預訓練LLMs的外部路由器(Rosenbaum等人,2017),以實現LLM的最優選擇。
Shnitzer等人(2023)率先探索了使用各種基準數據集學習路由器的可行性和局限性。Lu等人(2023)引入了ZOOTER,一個系統,首先使用獎勵模型根據訓練集計算查詢-輸出對的分數。這些分數隨后用于使用知識蒸餾策略訓練路由器,使其能夠僅根據輸入查詢選擇最優的LLM。Ding等人(2024)采用了一個路由器,根據預測的查詢難度和所需的質量水平,將查詢分配給小型模型或LLMs,顯著降低了推理成本。Srivatsa等人(2024)研究了LLMs的分類器基和聚類基路由方法的可行性。受強化學習中自我博弈的啟發,Mohammadshahi等人(2024)通過循環使用自我生成的三元組(查詢,響應,分數)來訓練路由器。與之前的研究不同,Lu等人(2024c)通過在對話中隨機選擇LLM來集成多個聊天LLMs,而不是學習路由器。為了有效評估路由器的能力和局限性,Hu等人(2024)提出了一個新的基準ROUTERBENCH,主要關注性能和經濟成本。
4.1.2 推理期間集成
在推理期間,LLMs以自回歸方式生成標記。這一過程通常會導致早期錯誤隨著時間的推移而累積,導致后續標記偏離預期的含義(Ranzato等人,2016),從而產生幻覺(Zhang等人,2023a)。為了解決這個問題,一些研究在每個解碼步驟對LLMs進行集成。Li等人(2024c)通過加權平均不可信的LLMs和一個良性的較小LLM的輸出分布,結合它們以減輕版權侵權、數據投毒和隱私違反等問題。Hoang等人(2023)通過插值機器翻譯模型和LLM的輸出分布,提高了翻譯性能。Wang等人(2024b)將專家融合問題表述為圖最短路徑問題,并提出了一種高效的融合方法。
這些方法要求在至少具有相同詞匯表的LLMs之間進行集成,以確保輸出分布對齊并可以有效插值。然而,大多數開源LLMs是異構的,具有不同的詞匯表,這阻礙了直接集成。
為了解決這一問題,Fu等人(2023)采用動態規劃遞歸最小化通過編輯一個標記序列以匹配另一個序列的總成本,使用精確匹配得分。為了進一步提高標記對齊的成功率,Wan等人(2024a)將精確匹配約束替換為最小編輯距離策略。Mavromatis等人(2024)在上述標記對齊的基礎上,提出使用困惑度來計算不同LLMs輸出的系數。Xu等人(2024b)、Huang等人(2024c)和Yu等人(2024)考慮使用重疊標記作為錨點,將異構LLMs產生的輸出分布投影到同一空間。具體而言,Xu等人(2024b)提出直接使用錨點作為橋梁學習不同詞匯表之間的投影矩陣,而Huang等人(2024c)和Yu等人(2024)則計算從錨點到不同詞匯表的相對表示,從而間接實現詞匯表投影。
4.1.3 推理后集成
最終的LLM集成方法在推理后結合生成的輸出。一種實現LLM集成的方法是構建LLM級聯,以減少僅使用大型LLM的推理成本。Chen等人(2023d)采用按參數數量排序的LLM序列來生成輸出,一旦前面的小型LLM產生足夠高質量的輸出,即停止并返回結果。Yue等人(2024)提出先驗證小型LLM生成的答案的正確性,如果初始答案不正確,則利用LLM來解決問題。另一條研究路線集中在從多個LLM生成的多個候選中選擇最佳候選。Lee等人(2023)從LLMs生成的多個候選中選擇最佳指令,以構建指令調整數據。Jiang等人(2023a)探索了各種無監督指標進行選擇,包括BERTScore(Zhang等人,2020)、BLEURT(Sellam等人,2020)、BARTScore(Yuan等人,2021)和ChatGPT分數。然而,他們發現選擇的有效性受到候選池質量的限制。為了解決這一問題,Jiang等人(2023a)采用了一個額外的融合模型,使用排名靠前的候選作為輸入來生成最終輸出。
4.1.4 關于 LLM 集成方法的討論
上述方法側重于在推理的不同階段進行集成,各有優勢和劣勢。我們從推理速度、集成粒度和局限性方面進行討論。
推理速度
幾乎所有的集成方法都會降低推理速度。推理前的集成由于涉及通過額外的路由器選擇最優的LLM,會略微減慢過程。推理中的集成要求每個LLM對測試示例進行前向計算。如果有k個LLMs,推理速度會降低k倍,盡管這可以通過使用k倍的GPU來緩解。推理后的集成不僅需要k倍的計算成本,還需要額外的時間進行輸出選擇或融合(Jiang等人,2023a),導致推理速度最低。
集成粒度
上述集成方法在不同的粒度上操作。推理前和推理后的集成通常在示例級別工作,提供粗粒度的集成。推理中的集成在標記級別進行,提供細粒度的集成。由于前面的標記會影響后面的標記,這種細粒度的集成可以減少LLMs中的暴露偏差(Ranzato等人,2015;Xu等人,2020),從而更好地提高性能。
局限性
每個類別的集成方法都有特定的局限性,如表1所示。盡管推理前的集成速度較快,但需要額外訓練路由器。用于路由器訓練的數據會限制這些集成方法的泛化和性能(Shnitzer等人,2023)。推理中的集 成通常受LLMs架構異構性的限制。例如,詞匯表的差異會導致輸出分布不對應,從而阻礙直接集成(Huang等人,2024c;Yu等人,2024)。推理后的集成通常需要多個LLMs生成多個候選,構建候選池,然后選擇或重組最終輸出。因此,候選池的準確性和選擇策略是主要的局限性。
表1:不同推理階段的LLM集成方法的特性。
4.2 LLM 集成應用
除了方法論研究外,許多研究還將LLM集成應用于特定場景。這歸因于集成學習在特定任務、領域和強校準方面的能力。我們根據目標對相關研究進行分類。
針對特定任務或領域的LLM集成
針對特定任務的LLM集成通常用于提高特定任務的性能。Si等人(2023)通過訓練分類器選擇不同推理專家生成的最佳答案,提升了LLM的推理性能。Gundabathula和Kolar(2024)將LLM集成用于SQL生成。一些研究將LLM集成應用于醫學任務。Gundabathula和Kolar(2024)采用LLM集成來增強臨床文本錯誤檢測和糾正。Oniani等人(2023)和Barabucci等人(2024)分別使用多數投票和平均加權方法,選擇最常見的候選疾病。
緩解RLHF過估計的LLM集成
集成學習可以緩解LLMs的校準不良和不可靠預測問題。因此,Eisenstein等人(2023)、Coste等人(2024)和Ramé等人(2024)通過集成多個獎勵LLMs來緩解RLHF中的過樂觀問題。考慮到基于LLM的獎勵模型的微調計算成本較高,Zhang等人(2024c)和Zhai等人(2023)分別使用輕量級的LoRA(Hu等人,2022)來適應LLM到多個獎勵模型。Ahmed等人(2024)提出使用共享的LLM但獨立的線性層來集成獎勵。這些方法成功減少了RLHF中的過估計并提高了對齊性能。
本文轉載自公眾號AIRoobt ,作者:AIRoobt
