谷歌“Wi-Fi密碼”式的最瘦大模型

作者：文摘菌 2025-04-24 16:55:45

人工智能

Google 這次玩的是 QAT —— 訓(xùn)練過程直接讓模型在低精度環(huán)境下“吃苦頭”，提前適應(yīng)精度損失。Google 自己也說了：“因為 QAT，這些模型對量化魯棒，性能和原版近乎持平。”

Gemma 3 的“低門檻 AI”計劃露面了，谷歌這次直接把 Gemma 3 做成了“跑得動的”AI。

—Gemma-3-27b-it-qat-q4_0-gguf 聽上去像個 Wi-Fi 密碼，其實卻是谷歌迄今為止最精簡的大模型

是的，不再只屬于高端服務(wù)器和土豪顯卡，普通玩家的游戲卡，甚至手機，都能一試身手。

這波操作的核心是三個字：量化訓(xùn)練（Quantization-Aware Training, QAT）。

為什么量化訓(xùn)練讓 AI 變“親民”？

以前的 Gemma 3需要“天花板配置”：NVIDIA H100，BFloat16 精度，普通人家根本用不起。

而這次，Google 把量化訓(xùn)練用到了極致。簡單說，就是讓模型在訓(xùn)練階段就習(xí)慣低精度（比如 int4、int8），以后部署時直接“瘦身”，幾乎不掉智商。

圖片

顯存節(jié)省效果非常明顯。以 27B 參數(shù)的模型為例，原本需要 54 GB 的顯存，在 int4（4 位整型）格式下只需 14.1 GB；12B 版本從 24 GB 降到了 6.6 GB。即便是小尺寸模型也受益明顯：4B 版本僅需 2.6 GB，1B 版本甚至只要 0.5 GB 顯存。

量化訓(xùn)練的“魔法”到底在哪里？

普通的量化是什么？后處理。模型訓(xùn)完了，直接把參數(shù)壓縮成低精度，代價就是：掉分，掉智商。

當(dāng)然，benchmark 數(shù)據(jù)沒公開，多少有點賣關(guān)子，但社區(qū)已經(jīng)開始實測和玩梗。

不過，僅看顯存和推理速度的變化，這次量化訓(xùn)練確實把大模型帶進了“民用領(lǐng)域”。

責(zé)任編輯：武曉燕來源：大數(shù)據(jù)文摘

Wi-Fi 密碼大模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌“Wi-Fi密碼”式的最瘦大模型

為什么量化訓(xùn)練讓 AI 變“親民”？

量化訓(xùn)練的“魔法”到底在哪里？