11個LLM一起上,性能爆炸提升!AI2聯合USC開源LLM-Blender集成學習框架:先排序再融合
隨著Alpaca, Vicuna, Baize, Koala等諸多大型語言模型的問世,研究人員發現雖然一些模型比如Vicuna的整體的平均表現最優,但是針對每個單獨的輸入,其最優模型的分布實際上是非常分散的,比如最好的Vicuna也只在20%的任務里比其他模型有優勢。
有沒有可能通過集成學習來綜合諸多開源的「弱」LLM的能力,來使得他們整體成為一個「強」LLM呢?
AI2,USC,和浙大的研究員由此提出了一個集成學習框架,LLM-Blender,它通過排序和融合來對各個LLM的輸出進行集成,從而達到了較為穩定的提升。
論文鏈接:https://arxiv.org/abs/2306.02561
代碼鏈接:https://github.com/yuchenlin/LLM-Blender
對于同一條指令來自不同LLMs的回答,LLM-Blender框架可以有效選擇出其中質量更高的回答,再基于這些回答融合生成一個新的質量更高的回答。
為了促進集成學習在LLM社區的發展和測試LLM-Blender的能力,論文作者們構建了一個新的指令數據集MixInstrcut。
數據采樣于Aplapa-GPT-4, Laion, ShareGPT等流行的指令數據集。對于每個指令,MixInstruct還包括了11個包括Vicuna, Baize, Open Asssistant等當前流行的開源大型語言模型的回答。
論文的進行了一系列實驗評估了不同LLMs在MixInstruct數據集上的差異性,并測試了LLM-Blender在集成多個LLMs回答的能力。
實驗證明了LLM-Blender集成得到的回答在所有LLM回答中平均排名為3.01,其中68.59%都排名在前三,這遠超平均排名最好為3.90的單個模型Open Assistant,以及Vicuna(只有有52.88%的回答被排到前三)。
主要貢獻
1. 提出了一個新的針對大型語言模型的集成學習框架LLM-Blender,用于對多個LLMs的回答進行排序與融合。LLM-Blender由兩個簡單有效的模塊PairRanker與GenFuser組成。
2. 一個新的指令數據集MixInstruct。其中的每一條指令都包含了來自Vicuna等數十個當前流行的開源LLMs的回答,用來訓練與評估集成學習框架LLM-Blender。
3. 首次證明了集成學習在LLM社區的顯著效果與其應用價值。
4. 開源LLM-Blender工具包,方便LLM社區研究人員使用與進一步研究。
大型語言模型的集成學習
LLM-Blender: 排序+融合
LLM-Blender主要包含兩個模塊,PairRanker和GenFuser,分別對應框架運行的兩個階段:排序(Rank)與融合(Fuse)。
在排序階段,論文首先通過PairRanker對不同的LLMs回答進行成對比較,得到這些回答的排名。
在融合階段,論文選擇其中的排名中的前k(如k=3)個回答,將其于原指令一起打包送到GenFuser模塊作為輸入,再重新生成一個融合回答。
對于第一個模塊PairRanker,論文認為基于雙向注意力的成對比較在候選回答較為相似的情況下十分重要。
以往的排序模型均采用將源文本和單個候選序列連接編碼,并在推導時直接輸出一個絕對分數作為對候選序列排序的依據。
而LLM-Blender的第一個模塊PairRanker將源文本與一組(兩個)候選序列同時連接進行編碼,利用雙向注意力來提高排序模型的表現,作者認為這種方法可以更好的捕捉不同候選回答之間的微小差異,從而提高比較的正確率。
此外,與傳統的成對排序方法僅僅在訓練過程中采用成對比較的損失函數不同的是,PairRanker在推導過程中同樣采用成對比較。
論文提出了三種簡單的聚合方法,MaxLogits, MaxWins, 與Bubble Sort來完成從比較矩陣到單個候選序列分數的計算,這三種方法在后續實驗中均被證明有效。其中MaxLogits效果最好。
與現有的部分文本融合方法不同,GenFuser并未直接將所有候選序列(即數十個LLMs的回答)作為一起送入這一模塊,而是在PairRanker的排序結果上選擇最好的前k個,與源文本一起送入GenFuser進行融合。
這是因為論文認為部分未經篩選的低質量的候選序列可能會影響GenFuser模塊的融合質量。
MixInstruct: 新的LLMs集成學習基準
為了更好地評估LLM-Blender地能力,論文構建了MixInstruct數據集。指令來源包括Alpaca-GPT4 等四種流行的大型指令數據集,標準回答來源于GPT-4, ChatGPT和人類標注。
其中每一條指令都包含Vicuna等數十個當前流行的大型語言模型的回答。
論文還使用ChatGPT對在測試集(5K)這些回答進行成對比較,并統計每個回答在比較中獲勝的次數,將不同LLMs獲勝次數排名第一的比例在圖中進行了總結??梢悦黠@看到不同LLM回答的質量各有千秋,并非一家獨大。
此結果證明了不同LLMs之間能力的多樣性,而這也正是集成學習框架LLM-Blender能夠成功的原因之一。
實驗
實驗設置
論文實驗中,LLM-Blender的兩個模塊PairRanker與GenFuser分別采用Deberta-v3-Large(400m)和Flan-T5-XL(3b)作為各自的骨架模型(backbone)。兩個模型均在MixInstruct大小為100k的訓練集上進行訓練(更多細節見論文)。
為了更好地評估不同各種生成模型在MixInstruct上的能力,論文不僅采用了一些傳統自動度量指標BERTScore, BLEURT和BARTScore, 并將ChatGPT的比較結果按照比較中獲勝的次數歸并為整體排名值(GPT-Rank)。
由于Vicuna與Open Assistant在LLM社區的顯著表現,論文還特別將所有模型的結果與這兩個模型進行了比較,給出了對應的獲勝比例。此外,實驗還統計了不同模型在與其他所有模型比較的過程中被排名為前3的比例(Top-3)。
LLMs:各有千秋
在這些模型中,Open Assistant、Vicuna和Alpaca是表現最好的三個模型,繼它們之后,Baize、Moss和ChatGLM也在MixInstruction上表現出色。
而Mosaic MPT、StableLM和Flan-T5在評估中排名較為靠后。盡管如此,他們的GPT-Rank也并非一個接近最低排名(11)的數字,再次說明每個LLM的回答都有他們自己的優勢。
此外,同樣可以注意的是,盡管Open Assistant和Vicuna綜合表現最為出色,在其他模型與這兩個模型的比較中,仍舊有部分比例的回答被認為要優于他們。
Rankers:PairRanker優勢明顯
而在諸多排序模型的比較中,PairRanker作為成對比較的排序模型,表現明顯要優于SummaReranker和SimCLS等非成對比較的模型。
尤其在GPT-Rank,BARTScore,BLEURT和Top-3的比例上,PairRanker取得了所有排序模型中最好的效果,并且要優于任意一個LLM。
除了對排序模型得到的Top-1選擇進行分析外,論文還對排序模型的整體排序質量通過Pearson相關系數,Spearman相關系數和Searman’s Footrule距離進行了評估。
正如表中所示,在所有的自動度量指標的排序中,BartScore的排序結果與GPT-Rank相關性最高。而PairRanker的排序結果在所有排序模型中取得的相關性最高,甚至超過BARTScore。
GenFuser進一步提高PairRanker效果
論文最后比較了整個LLM-Blender框架生成的回答的質量。LLM-Blender將PairRanker排序得到的前3個回答送入到GenFuser中進行融合生成。
最終發現,融合生成的回答不僅在三個自動度量指標BARTScore等上取得了巨大的提升,還在GPT-Rank和Top-3比例上取得了最佳的結果,LLM-Blender在實驗的評估中展現了預期中的卓越性能。
結語
LLM-Blender是一個簡單的集成學習框架,適用于任何LLMs和任務。它通過學習通過成對比較的方式來排序每個回答的質量,再通過融合生成的方式來決定最后的輸出。在MixInstruct的測試集上取得了最優的效果。
作者簡介
Dongfu Jiang 姜東甫, 本科畢業于浙江大學[1] 計算機學院,南加州大學INK Research Lab科研實習生,將前往加拿大滑鐵盧大學攻讀計算機科學博士學位。他在本科期間曾獲國家獎學金等榮譽。
Xiang Ren 任翔(USC)南加州大學副教授,領導INK Research Lab。曾獲得Forbes' Asia 30 Under 30,NAACL Outstanding Paper Award 2022,Google Research Scholar, 2022,Facebook Sponsored Research Award, 2021,NSF CAREER Award, 2021等榮譽。
Yuchen Lin 林禹臣(AI2)現任Allen Institute for AI(AI2)研究員。他本科畢業于上海交通大學IEEE試點班(2018),博士畢業于USC南加州大學 (2022)。曾獲得WWW 2020 Best Paper Runner-Up,TrustNLP Best Paper Award。他多次擔任NLP和ML領域頂級會議審稿人,Area Chair (ACL2023; EMNLP 2023),多次參與組織workshop和tutorials。他目前的研究興趣在將大語言模型的分析和增強,以及如何利用常識知識構建通用的智能體。