Google開源大模型新成員CodeGemma、RecurrentGemma,繼Transformer后新架構Griffin誕生 原創
2024年2月,Google推出了 Gemma,一系列輕量級、先進的開源大模型,這些模型是使用創建 Gemini 模型時所使用的相同研究和技術構建的。
近日,Google宣布了 Gemma 家族的首批新增成員,為機器學習開發者擴展了創新責任的可能性:CodeGemma 用于代碼補全和生成任務以及指令跟隨,以及 RecurrentGemma,用于研究實驗的效率優化架構。
新成員之CodeGemma
為開發者和企業提供的代碼補全、生成和聊天 利用 Gemma 模型的基礎,CodeGemma 為社區帶來了強大而輕量級的編碼能力。CodeGemma 模型提供了幾個優勢:
- 智能代碼補全和生成:無論您是在本地工作還是利用云資源,都可以完成代碼行、函數,甚至生成整個代碼塊。
- 增強的準確性:CodeGemma 模型在主要來自網絡文檔、數學和代碼的 5000 億標記的英語語言數據上進行訓練,生成的代碼不僅在語法上更加正確,而且在語義上更有意義,有助于減少錯誤和調試時間。
- 多語言熟練:您寶貴的編碼助手,可用于 Python、JavaScript、Java 和其他流行的語言。
- 流程優化:將 CodeGemma 模型集成到您的開發環境中,減少樣板代碼編寫,并專注于更重要和不同的代碼——更快地完成工作。
這張表比較了 CodeGemma 在單行和多行代碼補全任務上與其他類似模型的性能。在技術報告中了解更多信息。
新成員之RecurrentGemma
為研究人員提供高效、更快速的推斷,在更高的批次大小下 RecurrentGemma 是一個在技術上獨特的模型,利用循環神經網絡和本地注意力來提高內存效率。雖然 RecurrentGemma 達到了與 Gemma 2B 模型相似的基準分數性能,但其獨特的架構帶來了幾個優勢:
- 降低的內存使用:較低的內存需求使得在內存有限的設備上(如單個 GPU 或 CPU)生成更長的樣本成為可能。
- 更高的吞吐量:由于其較低的內存使用,RecurrentGemma 可以以顯著更高的批次大小執行推斷,從而每秒生成更多的標記(特別是在生成長序列時)。
- 研究創新:RecurrentGemma 展示了一個非Transformer模型,實現了高性能,突顯了深度學習研究的進步。
這張圖展示了 RecurrentGemma 如何在序列長度增加時保持其采樣速度,而像 Gemma 這樣基于 Transformer 的模型則隨著序列變得更長而減慢。
RecurrentGemma基于新架構Griffin
RecurrentGemma是基于一種全新 Griffin 架構的模型,其性能優于 Transformers。
在多個規模上,Griffin 在控制測試中的基準得分均優于 Transformers 基線,無論是在不同參數規模下的 MMLU 得分,還是在許多基準測試中的平均得分。該架構在推斷長文本時還提供了效率優勢,具有更快的推斷速度和更低的內存使用率。以下是 Huggingface 上發布了這個模型的 2B 版本的性能:
參考:??https://developers.googleblog.com/2024/04/gemma-family-expands.html??
Griffin論文:??https://arxiv.org/abs/2402.19427??
本文轉載自公眾號AIGC最前線
