Google開源大模型新成員CodeGemma、RecurrentGemma，繼Transformer后新架構Griffin誕生原創

AIGC最前線

發布于 2024-4-11 13:25

瀏覽

0收藏

2024年2月，Google推出了 Gemma，一系列輕量級、先進的開源大模型，這些模型是使用創建 Gemini 模型時所使用的相同研究和技術構建的。

近日，Google宣布了 Gemma 家族的首批新增成員，為機器學習開發者擴展了創新責任的可能性：CodeGemma 用于代碼補全和生成任務以及指令跟隨，以及 RecurrentGemma，用于研究實驗的效率優化架構。

新成員之CodeGemma

為開發者和企業提供的代碼補全、生成和聊天利用 Gemma 模型的基礎，CodeGemma 為社區帶來了強大而輕量級的編碼能力。CodeGemma 模型提供了幾個優勢：

智能代碼補全和生成：無論您是在本地工作還是利用云資源，都可以完成代碼行、函數，甚至生成整個代碼塊。
增強的準確性：CodeGemma 模型在主要來自網絡文檔、數學和代碼的 5000 億標記的英語語言數據上進行訓練，生成的代碼不僅在語法上更加正確，而且在語義上更有意義，有助于減少錯誤和調試時間。
多語言熟練：您寶貴的編碼助手，可用于 Python、JavaScript、Java 和其他流行的語言。
流程優化：將 CodeGemma 模型集成到您的開發環境中，減少樣板代碼編寫，并專注于更重要和不同的代碼——更快地完成工作。

Google開源大模型新成員CodeGemma、RecurrentGemma，繼Transformer后新架構Griffin誕生 -AI.x社區

這張表比較了 CodeGemma 在單行和多行代碼補全任務上與其他類似模型的性能。在技術報告中了解更多信息。

新成員之RecurrentGemma

為研究人員提供高效、更快速的推斷，在更高的批次大小下 RecurrentGemma 是一個在技術上獨特的模型，利用循環神經網絡和本地注意力來提高內存效率。雖然 RecurrentGemma 達到了與 Gemma 2B 模型相似的基準分數性能，但其獨特的架構帶來了幾個優勢：

降低的內存使用：較低的內存需求使得在內存有限的設備上（如單個 GPU 或 CPU）生成更長的樣本成為可能。
更高的吞吐量：由于其較低的內存使用，RecurrentGemma 可以以顯著更高的批次大小執行推斷，從而每秒生成更多的標記（特別是在生成長序列時）。
研究創新：RecurrentGemma 展示了一個非Transformer模型，實現了高性能，突顯了深度學習研究的進步。

Google開源大模型新成員CodeGemma、RecurrentGemma，繼Transformer后新架構Griffin誕生 -AI.x社區

這張圖展示了 RecurrentGemma 如何在序列長度增加時保持其采樣速度，而像 Gemma 這樣基于 Transformer 的模型則隨著序列變得更長而減慢。

RecurrentGemma基于新架構Griffin

RecurrentGemma是基于一種全新 Griffin 架構的模型，其性能優于 Transformers。

在多個規模上，Griffin 在控制測試中的基準得分均優于 Transformers 基線，無論是在不同參數規模下的 MMLU 得分，還是在許多基準測試中的平均得分。該架構在推斷長文本時還提供了效率優勢，具有更快的推斷速度和更低的內存使用率。以下是 Huggingface 上發布了這個模型的 2B 版本的性能：

Google開源大模型新成員CodeGemma、RecurrentGemma，繼Transformer后新架構Griffin誕生 -AI.x社區