離職谷歌的Transformer作者創業，連發3個模型（附技術報告）

作者：機器之心 2024-03-25 12:39:00

為了測試其方法的有效性，研究團隊用 Evolutionary Model Merge 方法演化出能夠進行數學推理的日語大語言模型（LLM）和日語視覺語言模型（VLM）。

去年 8 月，兩位著名的前谷歌研究人員 David Ha、Llion Jones 宣布創立一家人工智能公司 Sakana AI，總部位于日本東京。其中，Llion Jones 是谷歌 2017 年經典研究論文《Attention is all you need》的第五作者，該論文提出了深度學習架構 transformer。transformer 對整個機器學習領域產生了重要影響，并且是 ChatGPT 等生成式 AI 模型的基礎。

論文于 2017 年 6 月首次發表后，隨著全球對生成人工智能人才競爭不斷升溫，論文作者陸續離開谷歌，自立門戶創業。Llion Jones 是八位作者中最后一個退出谷歌的人。

David Ha、Llion Jones 成立的初創公司 Sakana AI 致力于構建生成式 AI 模型。最近，Sakana AI 宣布推出一種通用方法 ——Evolutionary Model Merge。該方法使用進化算法來有效地發現組合不同開源模型的最佳方法，這些開源模型具有不同功能。Evolutionary Model Merge 方法能夠自動創建具有用戶指定功能的新基礎模型。

為了測試其方法的有效性，研究團隊用 Evolutionary Model Merge 方法演化出能夠進行數學推理的日語大語言模型（LLM）和日語視覺語言模型（VLM）。實驗結果表明這兩個模型在沒有經過明確優化的情況下，在多個 LLM 和視覺基準上都取得了 SOTA 結果。

特別是，其中進行數學推理的日語 LLM 是一個 7B 參數模型，它在大量日語 LLM 基準上取得了頂級性能，甚至超過了一些 SOTA 70B 參數 LLM。

最終，研究團隊應用 Evolutionary Model Merge 方法演化出 3 個強大的基礎模型：

1. 大語言模型（EvoLLM-JP）

2. 視覺語言模型（EvoVLM-JP）

3. 圖像生成模型（EvoSDXL-JP）

值得注意的是，Evolutionary Model Merge 方法能夠自動生成新的基礎模型，而不需要任何基于梯度的訓練，因此需要相對較少的計算資源。

Sakana AI 團隊認為：受自然選擇啟發的進化算法可以解鎖有效的開源方法合并解決方案，以探索廣闊的可能性空間，發現傳統方法和人類直覺可能錯過的新穎且不直觀的組合。

技術詳解

技術報告介紹了 Evolutionary Model Merge 這種通用進化方法。

報告地址：https://arxiv.org/pdf/2403.13187.pdf

本文的目標是創建一個統一的框架，能夠從選定的基礎模型中自動生成合并模型，以確保該合并模型的性能超過集合中任何個體的性能，方法的核心是進化算法。研究者首先將合并過程剖析成兩個不同的、正交的配置空間，并分析它們各自的影響。基于此分析，他們隨后引入了一個無縫集成這些空間的內聚框架。圖 1 為示意圖。

Evolutionary Model Merge 結合了：（1）合并數據流空間（Data Flow Space）中的模型，以及（2）合并參數空間（權重）中的模型。

數據流空間：是通過進化來發現不同模型各層的最佳組合以形成新模型。

參數空間：第二種方法是開發混合多個模型權重的新方法，混合不同模型的權重以形成新的模型。

數據流空間和參數空間這兩種方法也可以結合在一起來開發新的基礎模型

該研究希望通過進化的方法來幫助找到更好的模型合并方法，通過實驗，研究者證明了該方法能夠創建具有以前不存在的、新的、具有新興組合功能的新模型。實驗中，研究者使用這種自動化方法生成了兩個新模型：一個日語數學 LLM 和一個支持日語的 VLM，它們都是使用這種方法演化而來的。

具有 SOTA 性能的基礎模型

該研究提出了三種模型：大型語言模型（EvoLLM-JP）、視覺語言模型（EvoVLM-JP）以及圖像生成模型（EvoSDXL-JP）。

EvoLLM-JP

EvoLLM-JP 是一個可以用日語解決數學問題的 LLM。為了構建這樣的模型，該研究使用進化算法來合并日語 LLM（Shisa-Gamma）和特定于數學的 LLM（WizardMath 和 Abel）。

實驗過程中，研究者允許模型不斷的進化迭代，最終模型采用的是在 100-150 次的進化中表現最好的模型。研究者在 MGSM 數據集上進行了評估，以下是評估結果：該表格比較了不同 LLM 用日語解決數學問題的表現，MGSM-JA 列顯示正確答案的百分比。模型 1-3 為原始模型，模型 4-6 為優化后的合并模型。模型 7-10 是用于比較的 LLM 得分。