三個臭皮匠頂個諸葛亮?可能是真的,已證實混合多個小模型性能比肩GPT3.5
在對話型人工智能(AI)研究中,存在趨勢即朝著開發參數更多的模型方向發展,如 ChatGPT 等為代表的模型。盡管這些龐大的模型能夠生成越來越好的對話響應,但它們同時也需要大量的計算資源和內存。本文研究探討的問題是:一組小模型是否能夠協同達到與單一大模型相當或更好的性能?
本文介紹了一種創新而簡單的方法:混合。
作者展示了如果從一組小規模的對話型人工智能中隨機選擇回復,生成的對話型人工智能具有很強的性能和吸引力,可以勝過參數數量級大很多的系統。作者觀察到混合模型似乎具有 “最優” 的特征,通過在對話歷史上進行條件化響應,一個具有特定屬性的單一模型能夠學習其他系統的能力。可以為用戶提供更引人入勝和多樣化的回復和使用體驗。
作者通過在 CHAI 平臺上進行大規模 A/B 測試,證明了混合模型的有效性。在真實用戶的測試中,包含三個 6-13B 參數 LLM 的混合模型,勝過了 OpenAI 的 175B + 參數 ChatGPT。并且混合模型的用戶留存率顯著高于基于 ChatGPT 的對話型人工智能,說明用戶認為混合對話型人工智能更具吸引力、娛樂性和實用性,盡管混合模型僅需要消耗少量的推理成本和內存開銷。
- 論文:Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
- 論文鏈接:https://arxiv.org/pdf/2401.02994.pdf
- 模型鏈接:https://huggingface.co/ChaiML
混合模型
對話型 AI
對話型人工智能的目標是設計一個能夠生成引人入勝、富有娛樂性的對話系統,供人們進行交互。設 uk 表示用戶的第 k 輪對話,其中每個用戶輪次是一個單詞序列,uk = (w (k) 1 . . . , w (k) |uk| )。同樣地,設 rk 表示系統生成的第 k 個響應,也是一個單詞序列,rk = (w (k) 1 , . . . , w (k) |rk| )。作為一種隱式語言模型,一個特定的對話型人工智能,參數化為 θ,在給定先前對話歷史的情況下,建模預測下一個響應出現的概率。
在訓練過程中,系統隱式學習將更高的概率分配給流暢、引人入勝和高質量的響應。因此,可以通過從其分布中隨機采樣輸出,無論是通過隨機方法,還是通過像波束搜索這樣的近似搜索過程。
受 InstructGPT 的啟發,最先進的對話型人工智能通常遵循三階段的流程。首先,對預訓練語言模型 (PrLM) 進行微調,該模型在相關的文本領域進行訓練,例如,在設計引人入勝的聊天機器人時使用有趣的文學作品。其次,使用明確的人類反饋來訓練獎勵模型。最后,使用獎勵模型改進原始的 PrLM,可以采用近端策略優化或者采用簡單的拒絕抽樣策略。
在開發特定的對話型人工智能時,存在許多設計選擇,如基礎 PrLM、用于微調的對話數據以及用于更新系統的人類反饋。人們可能期望不同的方法和訓練數據能產生高度多樣的系統,每個系統都展示出獨特的優勢和特征。然后,可以考慮如何將一組對話型人工智能組合起來,形成具有總體更好特性的系統。
集成
根據貝葉斯統計原理,分配給特定響應的概率可以被概念化為對所有合理的對話型人工智能參數取邊際期望,
在實踐中,當只能訪問有限的一組對話型人工智能系統 {θ1, θ2...θN} 時,可以將連續積分近似為離散求和。此外可以假設 PΘ(θ) 在這些系統上均勻分布,即 PΘ(θn) = 1/N,如果該集合包含性能相似的模型,這是一個有效的假設,可以得到下面的近似式:
混合
作者提出的方法目標是從真實的集成分布 (方程 8) 中近似抽樣。為了實現這種近似,在每一輪對話混合模型都會隨機 (均勻地) 選擇生成當前響應的對話型人工智能 θ。這個過程在下面的算法 1 中有詳細描述。需要注意的是,在對話過程中,特定對話型人工智能生成的響應是在先前選擇的對話型人工智能生成的所有先前響應的條件下進行的。這意味著不同的對話型人工智能能夠隱式地影響當前響應的輸出。因此當前響應是個體對話型人工智能優勢的混合,它們共同合作以創建整體更吸引人的對話。
實驗
對于在 Chai Research 平臺上部署的每個對話型人工智能,作者根據 A/B 測試設置中的 (文章 4.2 節的公式 15) 計算每一天 k 的用戶參與度。通過考慮第 20 天 (k=20),圖 1 顯示了混合模型、其組成的對話型人工智能以及 OpenAI 的 GPT-3.5 的參與度比例。作者觀察到中等大小的對話型人工智能 (Pygmillion、Vicuna 和 ChaiLLM) 的參與度明顯低于 GPT3.5,這是在預期內的,因為 GPT3.5 的參數數量要高一個數量級。然而,混合這三個基本對話型人工智能,混合模型的結果不僅比每個組成系統都具有更高的參與度,而且性能提升顯著,以至于混合模型可以勝過 OpenAI 的 GPT3.5。與其他對話型人工智能相比,混合模型的成功也可以通過比較 k=20 的用戶留存比 (文章 4.1 節的公式 10) 來計算,結果如圖 1 所示。
混合模型總共有 25 億參數,而 OpenAI 有 1750 億參數。此外,由于混合模型的響應是從單個對話型人工智能中隨機抽樣的,因此推理成本等同于單個 6B/13B 系統的成本。在圖 2 和圖 3 中,可以看出推理速度的顯著差異,可以觀察到混合模型在參與度和用戶留存方面有顯著的性能提升,而速度與小型對話型人工智能相當。這具有重要意義:與其擴大系統規模以提高質量,不如簡單地混合多個較小的開源系統,而且在不增加任何推理成本的情況下,可以極大地改善用戶的對話體驗。這證明了在設計引人入勝且成功的對話型人工智能時,模型協作比簡單的模型參數擴展更為重要。
作為客觀比較,表 1 報告了單一指標摘要 (論文 3.3 節)。以 Pygmillion 為控制組,作者提供了測試相對于控制組的參與度比率指標?α 和?γ,以及測試相對于控制組的留存比率指標?ζ 和?β。混合模型具有最高的相對初始參與度,?α,以及最佳的參與度比率衰減率,?γ。盡管 Vicuna 的留存比率衰減率?β 優于混合模型,但 Vicuna 的初始留存比率?ζ 明顯較低,說明 Vicuna 需要更長的時間來達到混合模型的留存分數 6,如前面圖 2 和 3 所示??傮w而言,很明顯,混合模型通過協作多個較小的對話型人工智能,在提供比單個更大的對話型人工智能 (OpenAI 的 GPT3.5) 更高質量的對話方面是有效的。