谷歌Gemma 3上線!單GPU最強多模態手機可跑,27B完勝o3-mini
谷歌Gemma 3全家桶來了!
剛剛,在巴黎開發者日上,開源Gemma系模型正式迭代到第三代,原生支持多模態,128k上下文。
此次,Gemma 3一共開源了四種參數,1B、4B、12B和27B。最最最關鍵的是,一塊GPU/TPU就能跑模型。
在LMArena競技場中,Gemma 3拿下了1339 ELO高分,僅以27B參數擊敗了o1-preview、o3-mini high、DeepSeek V3,堪稱僅次于DeepSeek R1最優開源模型。
Gemma3系1B、4B、12B、27B分別基于2T、4T、12T、14T token數據完成訓練。
它們可以理解140+語言,支持視覺輸入和文本輸出,以及結構化輸出和函數調用。
在多項基準測試中,Gemma 3全家桶相較于上一代實現了全面提升,27B模型在數學性能暴漲33-45分。
而且,與閉源Gemini 1.5和2.0相比,Gemma 3-27B基本上略遜色于Flash版本。
與此同時,Gemma 3的26技術報告解禁。
論文地址:https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
項目地址:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d
Gemma系模型誕生一年以來,下載量已超1億次,超6萬個Gemma衍生模型爆發。
Gemma 3全新系列到來,成為谷歌在AI開源社區邁出的又一個里程碑。
27B打進全球Top 10,手機筆記本輕松跑
Gemma 3是谷歌迄今最先進、最便攜的開源模型,采用與Gemini 2.0模型相同的研究和技術打造。
專為在端側設備上直接運行而設計——從手機和筆記本電腦到工作站,幫助開發者在需要的地方創建AI應用。
- 使用世界最佳單設備加速模型進行開發:Gemma 3在LMArena排行榜的初步人類偏好評估中超越了Llama-405B、DeepSeek-V3和o3-mini,能在單個GPU或TPU主機上運行,開發獨特的用戶體驗。
- 支持140種語言,走向全球:Gemma 3為超過35種語言提供開箱即用的支持,并為超過140種語言提供預訓練支持。
- 創建具有高級文本和視覺推理能力的AI:輕松開發可以分析圖像、文本和短視頻的應用程序,為交互式和智能應用開創新的可能性。
- 通過擴展的上下文窗口處理復雜任務:Gemma 3提供128k token的上下文窗口,讓應用程序能夠處理和理解海量信息。
- 使用函數調用創建AI驅動的工作流:Gemma 3支持函數調用和結構化輸出,幫助你實現任務自動化并構建智能體驗。
- 使用量化模型更快實現高性能:Gemma 3推出官方量化版本,在保持高精度的同時減少模型大小和計算需求。
按照Chatbot Arena Elo評分對AI模型進行排名;更高的分數(頂部數字)表示更受用戶青睞。點狀標記顯示了估計所需的H100數量。Gemma 3 27B 獲得了很高的排名,注意,其他模型需要多達32個GPU,但它只需要1個
如何訓出?
在預訓練和后訓練過程中,Gemma 3使用了蒸餾技術,并通過強化學習和模型合并的組合,進行了優化。
這種方法可以提升數學、編碼、指令跟隨方面的性能。
而且,Gemma 3使用了一個全新的分詞器(tokenizer),為140多種語言提供支持,并使用JAX框架在Google TPU對1B的2T token,4B的4T token,12B的12Ttoken和27B的14Ttoken進行了訓練。
在后訓練階段,Gemma 3主要使用了4個組件:
- 從更大的指令模型中提取到Gemma 3預訓練檢查點
- 基于人類反饋的強化學習(RLHF),使模型預測與人類偏好保持一致。
- 機器反饋強化學習(RLMF),增強數學推理。
- 強化學習執行反饋(RLEF),提高編碼能力。
這些更新顯著提升了模型數學、編程、指令跟隨能力,使Gemma 3能在LMArena拿下1338得分。
Gemma 3指令微調版本使用了與Gemma 2相同對話框格式,因此,開發者不需要更新工具,直接可以進行純文本輸入。
對于圖像輸入,Gemma 3可以支持指定與文本交錯的圖像。
多模態
Gemma 3集成基于SigLIP集成視覺編碼器,在訓練過程中,視覺模型保持凍結狀態,并在不同規模(4B、12B 和 27B)之間保持一致。
借助這一特性,Gemma 3能夠處理圖像和視頻作為輸入,使其能夠分析圖像、回答與圖像相關的問題、對比圖像、識別物體,甚至讀取和解析圖像中的文本。
盡管該模型最初設計用于處理896×896像素的圖像,但通過一種新的自適應窗口算法,該模型可以對輸入圖像進行分割,使Gemma 3能夠處理高分辨率和非正方形圖像。
比如,上傳一張日語空調遙控器圖,問如何調高室內溫度。
Gemma 3根據圖像中「暖房」文字,分析出在日語中,「暖房」意為「加熱」,這是用于開啟空調或氣候控制系統的加熱功能的按鈕。
而帶有加號(+)的按鈕可能用于在選擇加熱模式后調整溫度。
下圖上傳超市購物清單后,Gemma 3準確回答了一片肉需要支付的金額。
LLM競技場
LMSYS聊天機器人競技場是讓真人評委一對一匿名地對比IT 27B模型和其他頂尖模型。
在表下5里列出了Elo分數。
Gemma 3 27B IT拿到了1338分,擠進了前十名,分數比其他不會「思考」的開源模型要高,比如 DeepSeek-V3(1318 分)、LLaMA 3 405B(1257 分)和Qwen2.5-70B(1257 分),這些模型的規模還比它大不少。
最后,Gemma 3的Elo分數比Gemma 2(1220分)高出一大截。需要注意的是,Elo分數不考慮視覺能力,而且上面提到的這些模型都沒有這方面的功能。
基于Elo評級系統在Chatbot Arena中對Grok-3-Preview-02-24、Gemini系列、Gemma系列等AI模型的排名和性能,其中Grok-3-Preview-02-24以1412分位居榜首,Gemma-3-27B-IT的排名為第9
標準基準測試
在下表6里,展示了最終模型在各種基準測試上的表現,這里只對比了之前的模型版本和Gemini 1.5。
他們沒有直接拿外部模型來比,因為各家報的分數是用他們各家自己的測試條件跑出來的,再跑一遍不一定公平。
Gemini 1.5、Gemini 2.0以及Gemma 2和Gemma 3不同參數版本在各種零樣本基準測試中的性能表現,包括MMLU-Pro、LiveCodeBench、Bird-SQL (dev)、MATH和HiddenMath等任務
預訓練能力探測
團隊在預訓練過程中使用了幾個標準的基準測試作為「探針」,來確保模型能夠掌握一般的技能。
在下圖2中,他們比較了Gemma 2和Gemma 3預訓練模型在這些通用能力上的表現,包括科學、代碼、事實性、多語言能力、推理和視覺能力。
總的來說,盡管增加了視覺能力,新的版本在大多數類別上都有了提升。研究團隊特別關注了多語言能力,這直接影響了模型的質量。
然而,盡管使用了去污染技術,但這些「探針」始終存在污染風險,這使得更明確的結論變得難以評估。
無縫集成,工具生態全面升級
Gemma 3帶來的不僅僅是模型本身性能提升,還伴隨著強大工具無縫集成,ShieldGemma 2可以完美集成到現有的工作流程中。
不僅如此,它還支持靈活的開發工具。
比如Hugging Face Transformers、Ollama、JAX、Keras、PyTorch、Google AI Edge、UnSloth、vLLM和Gemma.cpp。
開發者們可以在Google AI Studio中,立即體驗Gemma 3全部功能,或通過Kaggle、Hugging Face下載模型。
此外,開發者還能根據具體需求定制Gemma 3。
改進的代碼庫支持高效微調和推理,無論是Google Colab、Vertex AI,甚至消費級GPU,都能輕松訓練和微調模型。
Gemma 3還提供多種部署環境,包括Vertex AI、Cloud Run、Google GenAI API、本地環境和其他平臺,可以根據應用和基礎設施選擇最佳方案。
值得一提的是,英偉達針對Gemma 3進行了深度優化,從Jetson Nano到最新的Blackwell芯片,都能獲得極致性能體驗。
NVIDIA API中已推出Gemma 3,只需一個API調用即可快速原型開發。
除此之外,Gemma 3也針對Google Cloud TPU進行了優化,并通過開源ROCm堆棧與AMD GPU集成。對于CPU執行,Gemma.cpp能夠提供直接解決方案。
Gemma 3技術報告
模型架構
Gemma 3模型沿用了與前代版本相同的解碼器Transformer 結構,其大部分架構元素與前兩代Gemma版本類似。
研究采用了分組查詢注意力(Grouped-Query Attention, GQA),并結合了 RMSNorm的后歸一化(post-norm)和前歸一化(pre-norm)。
受其他團隊的啟發,他們用QK-norm替換了Gemma 2的軟上限(soft-capping)。
Gemma 3相較于前代版本的一些關鍵區別是:
5:1的局部/全局層交錯設計
研究者在自注意力機制中交替使用局部滑動窗口自注意力和全局自注意力,按照5層局部層對應1層全局層的模式排列,模型的第一層為局部層。
長上下文支持
Gemma 3模型支持最長128K個token的上下文長度,但1B規模的模型例外,僅支持32K token。
在全局自注意力層上,研究者將RoPE的基準頻率從10K提高到1M,而局部層的頻率保持在10K。此外,他們采用了位置插值方法,以擴展全局自注意力層的適用范圍。
視覺模態
視覺編碼器
研究采用了一種400M規模的SigLIP編碼器變體,這是一種基于Vision Transformer的模型,并使用CLIP損失的變體進行訓練。Gemma視覺編碼器的輸入為調整尺寸后的896 × 896像素的方形圖像,并在視覺助手任務的數據上進行微調。
Pan & Scan機制
Gemma視覺編碼器的固定分辨率為896 × 896像素,這在處理非方形比例或高分辨率圖像時可能會引發問題,例如文本變得不可讀,或小物體消失。
為了解決這一問題,研究者在推理階段引入了一種自適應窗口算法將圖像劃分為大小相等且不重疊的裁剪區域,以覆蓋整個圖像,并將每個裁剪區域調整至896 × 896像素后再輸入編碼器。
預訓練
研究者在預訓練過程中采用了與Gemma 2相似的知識蒸餾方法。
訓練數據
相比Gemma 2,研究者為Gemma 3預訓練模型分配了更大的token預算。其中,Gemma 3 27B規模的模型在14萬億個token上進行訓練,12B 規模的模型使用12T個token,4B 規模的模型使用4T個token,而1B規模的模型使用 2T個token。
知識蒸餾
在知識蒸餾過程中,研究者為每個token采樣256個logit,并按照教師模型的概率分布進行加權。學生模型通過交叉熵損失函數學習教師模型的分布。
計算基礎設施
研究者使用TPUv4、TPUv5e和TPUv5p訓練模型,具體配置如表2所示。每種模型配置都經過優化,以最大程度減少訓練步驟的執行時間。
指令微調
預訓練模型通過改進的后訓練方法轉變為指令微調模型,相較于之前的方法有所提升。
后訓練方法依賴于一種改進版的知識蒸餾技術,該技術來自一個大型的IT教師模型,并結合了基于改進版本的BOND、WARM和WARP算法的強化學習微調階段。
強化學習目標
使用多種獎勵函數來提升模型在幫助性、數學、編程、推理、遵循指令和多語言能力方面的表現,同時最小化模型的有害性。
包括通過人類反饋數據訓練的加權平均獎勵模型,代碼執行反饋,以及解數學問題的真實獎勵。
數據過濾
研究人員對后訓練階段使用的數據進行了精細優化,以最大化模型的性能。
研究中會過濾掉包含特定個人信息、不安全或有害內容、錯誤的自我識別數據以及重復樣本的示例。
此外,包含鼓勵更準確的上下文歸因、謹慎表述(hedging)和適當拒答的數據子集,有助于減少幻覺現象,同時提升事實性指標的表現,而不會影響模型在其他指標上的性能。
[BOS] token
預訓練(PT)和指令微調(IT)模型,文本都以[BOS] token開頭。
需要注意的是,文本字符串「[BOS]」并不會自動映射到[BOS] token,因此必須顯式添加。
表4展示了IT模型的具體格式示例。