離職谷歌的Transformer作者創業,連發3個模型(附技術報告)
去年 8 月,兩位著名的前谷歌研究人員 David Ha、Llion Jones 宣布創立一家人工智能公司 Sakana AI,總部位于日本東京。其中,Llion Jones 是谷歌 2017 年經典研究論文《Attention is all you need》的第五作者,該論文提出了深度學習架構 transformer。transformer 對整個機器學習領域產生了重要影響,并且是 ChatGPT 等生成式 AI 模型的基礎。
論文于 2017 年 6 月首次發表后,隨著全球對生成人工智能人才競爭不斷升溫,論文作者陸續離開谷歌,自立門戶創業。Llion Jones 是八位作者中最后一個退出谷歌的人。
David Ha、Llion Jones 成立的初創公司 Sakana AI 致力于構建生成式 AI 模型。最近,Sakana AI 宣布推出一種通用方法 ——Evolutionary Model Merge。該方法使用進化算法來有效地發現組合不同開源模型的最佳方法,這些開源模型具有不同功能。Evolutionary Model Merge 方法能夠自動創建具有用戶指定功能的新基礎模型。
為了測試其方法的有效性,研究團隊用 Evolutionary Model Merge 方法演化出能夠進行數學推理的日語大語言模型(LLM)和日語視覺語言模型(VLM)。實驗結果表明這兩個模型在沒有經過明確優化的情況下,在多個 LLM 和視覺基準上都取得了 SOTA 結果。
特別是,其中進行數學推理的日語 LLM 是一個 7B 參數模型,它在大量日語 LLM 基準上取得了頂級性能,甚至超過了一些 SOTA 70B 參數 LLM。
最終,研究團隊應用 Evolutionary Model Merge 方法演化出 3 個強大的基礎模型:
1. 大語言模型(EvoLLM-JP)
2. 視覺語言模型(EvoVLM-JP)
3. 圖像生成模型(EvoSDXL-JP)
值得注意的是,Evolutionary Model Merge 方法能夠自動生成新的基礎模型,而不需要任何基于梯度的訓練,因此需要相對較少的計算資源。
Sakana AI 團隊認為:受自然選擇啟發的進化算法可以解鎖有效的開源方法合并解決方案,以探索廣闊的可能性空間,發現傳統方法和人類直覺可能錯過的新穎且不直觀的組合。
技術詳解
技術報告介紹了 Evolutionary Model Merge 這種通用進化方法。
報告地址:https://arxiv.org/pdf/2403.13187.pdf
本文的目標是創建一個統一的框架,能夠從選定的基礎模型中自動生成合并模型,以確保該合并模型的性能超過集合中任何個體的性能,方法的核心是進化算法。研究者首先將合并過程剖析成兩個不同的、正交的配置空間,并分析它們各自的影響。基于此分析,他們隨后引入了一個無縫集成這些空間的內聚框架。圖 1 為示意圖。
Evolutionary Model Merge 結合了:(1)合并數據流空間(Data Flow Space)中的模型,以及(2)合并參數空間(權重)中的模型。
數據流空間:是通過進化來發現不同模型各層的最佳組合以形成新模型。
參數空間:第二種方法是開發混合多個模型權重的新方法,混合不同模型的權重以形成新的模型。
數據流空間和參數空間這兩種方法也可以結合在一起來開發新的基礎模型
該研究希望通過進化的方法來幫助找到更好的模型合并方法,通過實驗,研究者證明了該方法能夠創建具有以前不存在的、新的、具有新興組合功能的新模型。實驗中,研究者使用這種自動化方法生成了兩個新模型:一個日語數學 LLM 和一個支持日語的 VLM,它們都是使用這種方法演化而來的。
具有 SOTA 性能的基礎模型
該研究提出了三種模型:大型語言模型(EvoLLM-JP)、視覺語言模型(EvoVLM-JP)以及圖像生成模型(EvoSDXL-JP)。
EvoLLM-JP
EvoLLM-JP 是一個可以用日語解決數學問題的 LLM。為了構建這樣的模型,該研究使用進化算法來合并日語 LLM(Shisa-Gamma)和特定于數學的 LLM(WizardMath 和 Abel)。
實驗過程中,研究者允許模型不斷的進化迭代,最終模型采用的是在 100-150 次的進化中表現最好的模型。研究者在 MGSM 數據集上進行了評估,以下是評估結果:該表格比較了不同 LLM 用日語解決數學問題的表現,MGSM-JA 列顯示正確答案的百分比。模型 1-3 為原始模型,模型 4-6 為優化后的合并模型。模型 7-10 是用于比較的 LLM 得分。
上表為進化后的 LLM 結果。其中模型 4 在參數空間中進行了優化,模型 6 使用模型 4 在數據流空間中進行了進一步優化。這些模型的正確響應率明顯高于三個源模型的正確響應率。
不過研究者表示根據以往的經驗,手動將日語 LLM 與數學 LLM 結合起來非常困難。但經過迭代努力,進化算法能夠有效地找到一種將日語 LLM 與數學 LLM 結合起來的方法,成功地構建了一個兼具日語和數學能力的模型。
除了數學能力外,研究者還評估了模型的日語能力。令人驚訝的是,該研究發現這些模型在一些與數學無關的任務上也取得了高分。值得注意的是,模型并沒有經過特定優化,但實際效果還不錯。
LLM 日語整體能力比較,其中 Avg 欄是 9 個任務得分的平均值,數值越高,代表 LLM 日語整體能力越高。
EvoVLM-JP
該研究發現,進化算法還可以進化成不同架構的模型。他們通過應用進化模型合并生成了一個日語視覺語言模型 (VLM)。
在構建日語 VLM 時,該研究使用了流行的開源 VLM (LLaVa-1.6-Mistral-7B) 和功能強大的日語 LLM (Shisa Gamma 7B v1)。研究者表示,這是合并 VLM 和 LLM 的第一次努力,其證明了進化算法可以在合并模型中發揮重要作用。以下是評估結果。
VLM 性能比較。
上表中,JA-VG-VQA-500 和 JA-VLM-Bench-In-the-Wild 都是關于圖像問答的基準。分數越高,表示用日語回答的答案越準確。
以下為模型在回答有關圖像問題的示例展示。兩種基線模型經常給出錯誤的答案,而 EvoVLM-JP 給出正確的答案。
例如用戶詢問交通信號燈現在是什么顏色時,通常來講,正確答案是綠色,但是在日語習慣中,都會說成藍色。可以看出 EvoVLM-JP 比較貼合日語習慣。
EvoSDXL-JP
該研究發現,進化也可以自動發現合并不同擴散模型的方法。
EvoSDXL-JP 根據提示生成圖片。