最低僅需2G顯存，谷歌開源端側模型刷新競技場紀錄，原生支持圖像視頻

2025-06-27 15:50:36

今天凌晨，谷歌正式官宣了Gemma 3n，原生支持文本、圖像和音視頻等多種模態。在大模型競技場中，Gemma 3n取得了1303分，成為了第一個超過1300分的10B以下模型。

谷歌開源模型，又上新了。

今天凌晨，谷歌正式官宣了Gemma 3n，原生支持文本、圖像和音視頻等多種模態。

在大模型競技場中，Gemma 3n取得了1303分，成為了第一個超過1300分的10B以下模型。

圖片

Gemma 3n一共有5B（E2B）和8B（E4B）兩種型號，但通過架構創新，其VRAM占用與2B和4B相當，最低只要2GB。

圖片

有網友表示，Gemma 3n能夠用低內存占用實現這樣的表現，對端側設備意義重大。

圖片

目前，Gemma 3n已在谷歌AI Studio或Ollama、llama.cpp等第三方工具中可用，模型權重也可在Hugging Face上下載。

同時谷歌也公開了Gemma 3n的一些技術細節，接下來就一起來了解。

在Gemma 3n的兩種型號——E2B和E4B中，谷歌提出了“有效參數”的概念，這里的“E”指的就是effective（有效的）。

Gemma 3n的核心是MatFormer （Matryoshka Transformer）架構，這是一種專為彈性推理而構建的嵌套式Transformer結構。

它的結構就如同它的名字一樣，像俄羅斯套娃（Matryoshka）——一個較大的模型當中，包含了自身更小、功能齊全的版本。

MatFormer將“俄羅斯套娃表征學習”的概念從單純的嵌入擴展到所有Transformer組件。

圖片

在這種結構下，MatFormer在訓練E4B模型時，可以同時優化E2B子模型。

為了根據特定硬件限制進行更精細的控制，谷歌還提出了Mix-n-Match方法，通過調整每層的前饋網絡隱藏層維度（從 8192 到 16384）并選擇性地跳過某些層，可以實現對E4B模型參數的切片，從而在E2B和E4B之間創建一系列自定義尺寸的模型。

針對這一功能，谷歌還會發布工具MatFormer Lab，用于檢索最佳的模型配置。

Gemma 3n的E2B和E4B兩個型號的原始參數量，分別是5B和8B，但消耗與2B和4B相當。這種低內存消耗設計，目的就是能夠更好地適配端側設備。

為此，Gemma 3n模型采用了逐層嵌入（PLE）技術，可顯著提高模型質量，而不會增加內存占用。

PLE允許很大一部分參數（與每層相關的嵌入）在CPU上加載并高效計算，這樣就只有核心Transformer權重需要存儲在加速器內存（VRAM）中。

圖片

此外，為了縮短首個Token生成時間，以便更好處理長序列輸入，Gemma 3n引入了KV緩存共享。

具體來說，Gemma 3n優化了模型預填充的處理方式，將來自局部和全局注意力機制的中間層的Key和Value直接與所有頂層共享，與Gemma 3-4B相比，預填充性能提升了2倍。

Gemma 3n原生支持圖像、音視頻等多種輸入模態。

語音部分，Gemma 3n采用基于USM的高級音頻編碼器，USM會將每160毫秒的音頻轉化成一個Token，然后將其作為語言模型的輸入進行集成。

它支持自動語音識別（ASR）和自動語音翻譯（AST），可以直接在設備上實現高質量的語音-文本轉錄，還可將口語翻譯成另一種語言的文本。

Gemma 3n的音頻編碼器在發布時已支持處理30秒的音頻片段，但底層音頻編碼器是一個流式編碼器，能夠通過額外的長音頻訓練處理任意長度的音頻。

視覺方面，Gemma 3n則采用了全新的高效視覺編碼器MobileNet-V5-300M。

它支持在端側處理256x256、512x512和768x768像素的分辨率，在Google Pixel上的處理速度達到了每秒60幀，并且在各種圖像和視頻理解任務中表現出色。

MobileNet-V5以MobileNet-V4為基礎，但架構顯著擴大，并采用混合深度金字塔模型，比最大的MobileNet-V4變體大10倍，同時還引入了一種新穎的多尺度融合VLM適配器。

針對MobileNet-V5背后的技術細節，谷歌后續還會發布技術報告，介紹模型架構、數據擴展策略以及背后的數據蒸餾技術。

責任編輯：武曉燕來源：量子位

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看