谷歌開源Gemma Scope，更好解釋大模型工作原理

Aceryt

發布于 2024-8-2 10:39

瀏覽

0收藏

隨著多模態大模型的出現，內部神經網絡參數少則幾百億，多則上千億甚至過萬億，使得開發人員很難控制其輸出內容經常會出現各種“幻覺”，就是一本正經的胡說八道。

雖然稀疏自編碼器（簡稱“SAE”）是解決這些難題的主流方法，可以學習神經網絡潛在表示的稀疏分解，將其分解為可解釋的詞、短語等特征，能有效解釋大模型的工作原理與機制。但普通的SAE質量難以保證，并且訓練成本非常高。

所以，谷歌DeepMind針對其開源的Gemma 2模型訓練了特定的SAE——Gemma Scope。

谷歌開源Gemma Scope，更好解釋大模型工作原理-AI.x社區

Gemma Scope開源地址：https://huggingface.co/google/gemma-scope

Gemma 2 2B開源地址：https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

Gemma-2-9b開源地址：https://huggingface.co/google/gemma-2-9b/tree/main

SAE是一種無監督學習方法，能幫助我們理解大模型內部的表示，并且這些特征往往與人類可理解的概念相關聯。例如，在處理文本數據時，SAE能學會識別“狗”這個詞背后的抽象概念，而不僅僅是字面上的字符組合。

這就好比在一堆混亂的線條中，SAE能幫我們找到那些構成“狗”的特征線條，能讓我們更直觀地理解模型是如何認識和生成“狗”這個字的。

谷歌開源Gemma Scope，更好解釋大模型工作原理-AI.x社區

與其他SAE相比，Gemma Scope通過強制學習過程中的稀疏性，使得模型的內部表示中只有少數幾個關鍵特征被激活，而其余特征則保持為零。這種稀疏性不僅減少了模型的復雜度，還提高了其可解釋性，讓我們能夠更容易地識別和理解模型決策背后的關鍵因素。

Gemma Scope另外一大技術特點是其規模和全面性，研究人員在訓練的過程涉使用了海量的文本數據，每個SAE都是在4—160億個文本標記上進行訓練覆蓋了Gemma 2模型的所有層和子層。學習了超過3000萬個特征，一共訓練了超過400個SAE。

此外，Gemma Scope在訓練SAE時采用了一種特殊的激活函數JumpReLU。這種激活函數專為SAE設計，通過引入一個可學習的閾值來促進稀疏性，同時保持特征學習的效率和質量。

谷歌開源Gemma Scope，更好解釋大模型工作原理-AI.x社區

傳統ReLU函數的特點是在輸入小于零時輸出零，而在輸入大于零時保持線性。而JumpReLU在此基礎上引入了一個非線性的跳躍閾值，允許神經元在達到一定閾值后產生較大的跳躍響應，而不是簡單的線性響應。

這種跳躍響應機制增強了自編碼器對于關鍵稀疏特征的敏感度，使得模型能夠更加精準地捕捉那些在數據集中出現頻率低但信息含量高的特征。

谷歌開源Gemma Scope，更好解釋大模型工作原理-AI.x社區

此外，研究人員在訓練Gemma Scope的過程中，使用了大量優質數據來確保SAE的有效性。例如，在數據方面使用了與Gemma預訓練文本數據相同分布的文本，來訓練Gemma 2模型的激活。

在參數設置上，精心調整了學習率、帶寬、稀疏性系數等參數，以提升訓練效果。在基礎設施方面，使用了TPUv3、TPUv5p等加速器，并優化了數據管道，以提高訓練效率。

谷歌DeepMind表示，希望通過開源的Gemma Scope可以幫助開發人員更好地利用和了解SAE技術，有助于擴展到更多、更大的模型上，從而用在解釋思維鏈等更復雜的功能上，幫助更大參數的大模型解決幻覺、越獄攻擊等難題。

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/p6gGdyXde-WQVdy7MMr_-Q??

標簽

開源

模型

贊

回復

舉報

回復

相關推薦

Gemma：我們最先進的開放模型

lazihuman ? 2993瀏覽 ? 0回復
LLM CoT的工作原理

ceesoft ? 3143瀏覽 ? 0回復
吳恩達：四個步驟，讓大模型變得更好

輕薄滴假象 ? 2575瀏覽 ? 0回復
Agent四大范式 | 綜述：全面理解Agent工作原理

大語言模型論文跟蹤 ? 7729瀏覽 ? 0回復
深入剖析時序Prophet模型：工作原理與源碼解析

卓勝微wjp ? 3733瀏覽 ? 0回復
OpenAI開源GPT-4 SAE，提供1600萬個解釋模式

Aceryt ? 4242瀏覽 ? 0回復
一文徹底理解大模型 Agent 智能體原理和案例

玄姐聊AGI ? 4585瀏覽 ? 0回復
深度學習中生成模型的工作原理：解析用于數據增強的生成模型

51CTO內容精選 ? 3965瀏覽 ? 0回復
Google發表的ShieldGemma：基于Gemma的內容安全審核模型

sbf_2000 ? 4048瀏覽 ? 0回復
多模態大模型的實現原理，以及技術難點

AI探索時代 ? 5555瀏覽 ? 0回復
視頻生成類大模型實現原理以及應用和難點

AI探索時代 ? 4293瀏覽 ? 0回復
Llama-4使用10萬塊GPU訓練、更好開源，扎克伯格親口確認！

Aceryt ? 3644瀏覽 ? 0回復
微調谷歌開源Gemini Flash模型實現PII脫敏實戰

51CTO內容精選 ? 3070瀏覽 ? 0回復
大模型底座之向量化，以及向量化的原理

AI探索時代 ? 5435瀏覽 ? 0回復
用Ray觀測和監控大語言模型工作負載

51CTO內容精選 ? 2749瀏覽 ? 0回復
谷歌開源Gemma-3：媲美DeepSeek，算力暴降10倍

Aceryt ? 2738瀏覽 ? 0回復
新模型Gemma 3號稱“單 GPU 模型王”，Gemma 3讓AI更輕便、更高效、更觸手可及！

Halo咯咯 ? 3643瀏覽 ? 0回復
Small 3.1開源發布，性能完勝Gemma 3，RTX 4090就能跑

老蛀蟲 ? 2608瀏覽 ? 0回復
AI Agents-5 | AI工作流與代理的深度剖析：從原理到實戰應用

Halo咯咯 ? 1882瀏覽 ? 0回復

Aceryt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

谷歌開源Gemma Scope，更好解釋大模型工作原理

目錄