成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

知名AI研究者深挖谷歌Gemma:參數不止70億,設計原則很獨特

人工智能 新聞
想要了解谷歌 Gemma 與 Llama 2、Mistral 有哪些異同嗎?這篇文章值得一讀。

就在幾天前,開源大模型領域迎來了重磅新玩家:谷歌推出了全新的開源模型系列「Gemma」。相比 Gemini,Gemma 更加輕量,同時保持免費可用,模型權重也一并開源了,且允許商用。

谷歌發布了包含兩種權重規模的模型:Gemma 2B 和 Gemma 7B。盡管體量較小,但 Gemma 已經「在關鍵基準測試中明顯超越了更大的模型」,包括 Llama-2 7B 和 13B,以及風頭正勁的 Mistral 7B。與此同時,關于 Gemma 的技術報告也一并放出。

相信大家已經對 Gemma 的相關內容進行了系統研究,本文知名機器學習與 AI 研究者 Sebastian Raschka 向我們介紹了 Gemma 相比于其他 LLM 的一些獨特設計原則。

Raschka 首先從模型性能展開,他表示看過技術報告的小伙伴可能都有一個疑問,是什么讓 Gemma 表現如此出色?論文中沒有明確說明原因,Sebastian Raschka 認為可以從下面兩點得出結論:

  • 首先是詞匯量大,Gemma 詞匯量達到 256000 個單詞,相比之下,Llama 的詞匯量為 32000 個單詞;
  • 其次是訓練數據集達 6 萬億 token,作為對比,Llama 僅接受了其中三分之一的訓練。

在架構方面,Raschka 列舉了 Gemma 與 LLama 2 7B 和 OLMo 7B 的架構概覽。

在模型大小上,Raschka 表示 Gemma 2B 有多查詢注意力,而 Gemma 7B 沒有。另外,與 Llama 2 相比,Gemma 7B 具有相對較大的前饋層,盡管其層數較少(28 VS 32),但 Gemma 中的參數數量卻相當大。

Raschka 猜測 Gemma 7B 實際上總共有 93 億個參數,如果考慮到權重共享(Weight tying)的話,則有 85 億個參數。權重共享意味著模型在輸入嵌入和輸出投影層中共享相同的權重,類似于 GPT-2 和 OLMo 1B(OLMO 7B 的訓練沒有權重共享)。

歸一化層

另一個引人注目的細節是以下出自 Gemma 論文中的段落。

歸一化位置。谷歌對每個 transformer 子層的輸入和輸出進行歸一化,這與單獨歸一化輸入或輸出的標準做法不同。谷歌使用 RMSNorm 作為歸一化層。

乍一看,看起來像 Gemma 在每個 transformer 塊之后都有一個額外的 RMSNorm 層。但是,通過查看「keras-nlp」項目的官方代碼實現,原來 Gemma 僅僅使用了 GPT-2、Llama 2 等其他 LLM 使用的常規預歸一化方案,具體如下圖所示。

圖片

GPT、Llama 2 和其他 LLM 中典型的層歸一化位置,Gemma 中沒有什么新東西。來源:https://github.com/rasbt/LLMs-from-scratch

GeGLU 激活

Gemma 與其他架構之間的一大區別是它使用了 GeGLU 激活,而 GeGLU 激活是在 2020 年的谷歌論文《GLU Variants Improve Transformer》中提出的。

論文地址:https://arxiv.org/pdf/2002.05202.pdf

GeLU 全稱為高斯誤差線性單元(Gaussian Error Linear Unit),它是一個激活函數,越來越多地被作為傳統 ReLU 的替代方案。GeLU 的流行得益于它有能力引入非線性特征,并允許為負輸入值執行梯度傳播,這解決了 ReLU 的一大局限,完全阻斷了負值。

現在,作為 GeLU 的門線性單元變體,GeGLU 的激活被分割為兩部分,分別是 sigmoid 單元和線性映射單元(它與 sigmoid 單元的輸出逐元素相乘),具體如下圖所示。

GeLU 與 ReLU 激活函數圖示比較,來源:https://github.com/rasbt/LLMs-from-scratch

同時,GeGLU 與 Llama 2、Mistral 等其他 LLM 使用的 SwiGLU 激活類似。唯一的區別是 GeGLU 使用的基礎激活是 GeLU 而不是 Swish。

圖片

下圖展示了 GeLU(GPT-2)、SwiGLU(Llama 2)和 GeGLU(Gemma)的偽代碼。

需要注意,與使用 GeLU(僅線性)的常規前饋模塊相比,使用 SwiGLU 和 GeGLU 的前饋模塊各多了一個線性層(分別是 linear_1 和 linear_2)。不過,在 SwiGLU 和 GeGLU 前饋模塊中,linear_1 和 linear_2 通常通過將單個線性層分割為兩部分而獲得,因此不會增加參數規模。

那是否 GeGLU 就比 SwiGLU 強呢?并沒有消融實驗來證實這一點。Raschka 猜測谷歌選擇使用 GeGLU,只是為了讓 Gemma 與 Llama 2 略有不同。

舉例而言,Gemma 為 RMSNorm 層添加了 + 1 的偏移量,并通過隱藏層維數的開立方根來歸一化嵌入。Gemma 論文中沒有提及或討論這些細節,所以它們的重要性也不清楚。

結論

對于開源 LLM 而言,Gemma 做出了非常棒的貢獻,展示了 7B 參數規模也能成就強大的模型,并有潛力在真實世界的用例中取代 Llama 2 和 Mistral。

此外,目前 7B 大小規模的開源模型已經有很多了,因此 Gemma 2B 更加有趣,它可以輕松地在單個 GPU 上運行。當然,Gemma 2B 與 2.7B 大小的 phi-2 之間的對比也將會很有趣。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-02-16 13:38:33

谷歌模型

2024-02-22 16:19:20

2024-03-28 13:18:47

AI訓練

2024-09-04 14:13:59

2024-03-04 00:00:00

GemmaAI模型

2025-03-20 08:34:14

2016-02-24 22:26:04

2020-08-14 08:03:29

人工智能深度學習技術

2015-03-02 10:35:25

百度專利經費

2013-10-09 09:27:58

2024-04-23 15:01:48

2024-06-24 00:20:00

AI人工智能獎勵篡改

2024-08-29 13:30:00

2010-04-13 16:09:43

谷歌70天最后

2025-06-27 10:08:19

2020-02-18 10:11:11

機器學習技術人工智能

2021-02-26 01:01:51

影子攻擊漏洞攻擊

2022-10-13 10:01:12

AI模型

2024-09-09 12:19:31

2016-10-08 11:28:40

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产视频黄色 | 久久免费精品 | 天天天操 | 精品一区二区三区四区在线 | 美国av毛片| 一区二区高清在线观看 | 亚洲黄色在线 | 国产男女视频网站 | 欧美日韩在线国产 | 亚洲视频一区二区三区四区 | 国产午夜精品久久久 | 久久蜜桃资源一区二区老牛 | 国产视频中文字幕在线观看 | 日韩高清一区 | 毛片视频免费 | 久久国产精品视频 | 日韩在线不卡 | 日本免费视频在线观看 | 国产又爽又黄的视频 | 91嫩草精品| 在线观看中文字幕一区二区 | 国产精品高清在线 | 一区二区成人 | 免费久久99精品国产婷婷六月 | 国产精品一区二区三 | 亚洲高清视频一区二区 | 久久久精品久久 | 欧美一级二级在线观看 | 亚洲色图综合 | 涩涩视频大全 | 久久久久久久国产 | 91影院在线观看 | 一区二区三区免费 | 蜜桃av一区二区三区 | 国产精品久久久久久二区 | 国产精品久久久久久久久久免费看 | 亚洲丝袜天堂 | 中文字幕在线电影观看 | 亚洲+变态+欧美+另类+精品 | 国产精品自拍一区 | 日日操夜夜操天天操 |