成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

1.2萬億參數:谷歌通用稀疏語言模型GLaM,小樣本學習打敗GPT-3

新聞 人工智能
大規模語言模型性能固然好,但計算和資源成本太高了,有沒有方法可以更有效地訓練和使用 ML 模型呢?

 [[439859]]

近幾年,我們已經看到模型規模越來越大,例如 2018 年誕生的 GPT 具有 1.17 億參數,時隔一年,2019 年 GPT-2 參數量達到 15 億,2020 年更是將其擴展到 1750 億參數的 GPT-3。據了解,OpenAI 打造的超級計算機擁有 285000 個 CPU 核以及 10000 個 GPU,供 OpenAI 在上面訓練所有的 AI 模型。

大型語言模型雖然訓練昂貴,但也有其重要的一面,例如可以在各種任務中執行小樣本學習,包括閱讀理解、問答。雖然這些模型可以通過簡單地使用更多參數來獲得更好的性能。但是有沒有方法可以更有效地訓練和使用這些模型呢?

為了回答這個問題,谷歌推出了具有萬億權重的通用語言模型 (Generalist Language Model,GLaM),該模型的一大特點就是具有稀疏性,可以高效地進行訓練和服務(在計算和資源使用方面),并在多個小樣本學習任務上取得有競爭力的性能。

我們來看一下 GLaM 模型的具體情況。

數據集

谷歌首先構建了一個高質量的、具有 1.6 萬億 token 的數據集,該無標簽數據集很大一部分來自 Web 頁面,其范圍從專業寫作到低質量的評論和論壇頁面。此外,谷歌還開發了一個文本質量過濾器,該過濾器是在維基百科和書籍文本數據集上訓練而成,由于過濾器訓練的數據集質量很高,所以谷歌將其過濾 Web 網頁內容的質量。最后,谷歌應用這個過濾器來生成 Web 網頁的最終子集,并將其與書籍和維基百科數據相結合來創建最終的訓練數據集。

GLaM 模型架構

GLaM 是混合專家模型 (MoE) ,這種模型可以被認為具有不同的子模型(或專家),每個子模型都專門用于不同的輸入。每一層的專家由一個門控網絡控制,該門控網絡根據輸入數據激活專家。對于每個 token(通常是一個詞或詞的一部分),門控網絡選擇兩個最合適的專家來處理數據。完整的 GLaM 總共有 1.2T 參數,每個 MoE 包含 64 個專家,總共 32 個 MoE 層,但在推理期間,模型只會激活 97B 的參數,占總參數的 8%。

GLaM 的體系架構,每個輸入 token 都被動態路由到從 64 個專家網絡中選擇的兩個專家網絡中進行預測。

與 GShard MoE Transformer 類似,谷歌用 MoE 層替換其他 transformer 層的單個前饋網絡(人工神經網絡最簡單的一層,如上圖藍色方框中的 Feedforward 或 FFN)。MoE 層有多個專家,每個專家都是具有相同架構但不同權重參數的前饋網絡。

盡管 MoE 層有很多參數,但專家是稀疏激活的,這意味著對于給定的輸入 token,只使用兩個專家,這樣做的優勢是在限制計算的同時給模型提供更多的容量。在訓練期間,每個 MoE 層門控網絡都經過訓練,使用它的輸入來激活每個 token 的最佳兩位專家,然后將其用于推理。對于 MoE 層的 E 專家來說,這本質上提供了 E×(E-1) 個不同前饋網絡組合的集合,而不是經典 Transformer 中的一個組合,從而帶來更大的計算靈活性。

最終學習到的 token 表示來自兩個專家輸出的加權組合,這使得不同的專家可以激活不同類型的輸入。為了能夠擴展到更大的模型,GLaM 架構中的每個專家都可以跨越多個計算設備。谷歌使用 GSPMD 編譯器后端來解決擴展專家的挑戰,并訓練了多個變體(基于專家規模和專家數量)來了解稀疏激活語言模型的擴展效果。

評估設置

谷歌使用 zero-shot 和 one-shot 兩種設置,其中訓練中使用的是未見過的任務。評估基準包括如下:

  • 完形填空和完成任務;
  • 開放域問答;
  • Winograd-style 任務;
  • 常識推理;
  • 上下文閱讀理解;
  • SuperGLUE 任務;
  • 自然語言推理。

谷歌一共使用了 8 項自然語言生成(NLG)任務,其中生成的短語基于真值目標進行評估(以 Exact Match 和 F1 measure 為指標),以及 21 項自然語言理解(NLU)任務,其中幾個 options 中的預測通過條件對數似然來選擇。

實驗結果

當每個 MoE 層只有一個專家時,GLaM 縮減為一個基于 Transformer 的基礎密集模型架構。在所有試驗中,谷歌使用「基礎密集模型大小 / 每個 MoE 層的專家數量」來描述 GLaM 模型。比如,1B/64E 表示是 1B 參數的密集模型架構,每隔一層由 64 個專家 MoE 層代替。

谷歌測試了 GLaM 的性能和擴展屬性,包括在相同數據集上訓練的基線密集模型。與最近微軟聯合英偉達推出的 Megatron-Turing 相比,GLaM 使用 5% margin 時在 7 項不同的任務上實現了不相上下的性能,同時推理過程中使用的算力減少了 4/5。

此外,在推理過程中使用算力更少的情況下,1.2T 參數的稀疏激活模型(GLaM)在更多任務上實現了比 1.75B 參數的密集 GPT-3 模型更好的平均結果。

1.2萬億參數:谷歌通用稀疏語言模型GLaM,小樣本學習打敗GPT-3

NLG(左)和 NLU(右)任務上,GLaM 和 GPT-3 的平均得分(越高越好)。

谷歌總結了 29 個基準上,GLaM 與 GPT-3 的性能比較結果。結果顯示,GLaM 在 80% 左右的 zero-shot 任務和 90% 左右的 one-shot 任務上超越或持平 GPT-3 的性能。

1.2萬億參數:谷歌通用稀疏語言模型GLaM,小樣本學習打敗GPT-3

此外,雖然完整版 GLaM 有 1.2T 的總參數,但在推理過程中每個 token 僅激活 97B 參數(1.2T 的 8%)的子網。

1.2萬億參數:谷歌通用稀疏語言模型GLaM,小樣本學習打敗GPT-3

擴展

GLaM 有兩種擴展方式:1) 擴展每層的專家數量,其中每個專家都托管在一個計算設備中;2) 擴展每個專家的大小以超出單個設備的限制。為了評估擴展屬性,該研究在推理時比較每個 token 的 FLOPS 相似的相應密集模型。

1.2萬億參數:谷歌通用稀疏語言模型GLaM,小樣本學習打敗GPT-3

通過增加每個專家的大小,zero-shot 和 one-shot 的平均性能。隨著專家大小的增長,推理時每個 token 預測的 FLOPS 也會增加。

如上圖所示,跨任務的性能與專家的大小成比例。在生成任務的推理過程中,GLaM 稀疏激活模型的性能也優于 FLOP 類似的密集模型。對于理解任務,研究者觀察到它們在較小的規模上性能相似,但稀疏激活模型在較大的規模上性能更好。

數據效率

訓練大型語言模型計算密集,因此提高效率有助于降低能耗。該研究展示了完整版 GLaM 的計算成本。

1.2萬億參數:谷歌通用稀疏語言模型GLaM,小樣本學習打敗GPT-3

模型推理(左)和訓練(右)的計算成本(GFLOPS)。

這些計算成本表明 GLaM 在訓練期間使用了更多的計算,因為它在更多的 token 上訓練,但在推理期間使用的計算卻少得多。下圖展示了使用不同數量的 token 進行訓練的比較結果,并評估了該模型的學習曲線。

1.2萬億參數:谷歌通用稀疏語言模型GLaM,小樣本學習打敗GPT-3

隨著訓練中處理了更多的 token,稀疏激活型和密集模型在 8 項生成任務上的平均 zero-shot 和 one-shot 性能。

1.2萬億參數:谷歌通用稀疏語言模型GLaM,小樣本學習打敗GPT-3

隨著訓練中處理了更多的 token,稀疏激活型和密集模型在 21 項理解任務上的平均 zero-shot 和 one-shot 性能。

結果表明,稀疏激活模型在達到與密集模型相似的 zero-shot 和 one-shot 性能時,訓練時使用的數據顯著減少。并且,如果適用的數據量相同,稀疏型模型的表現明顯更好。

最后,谷歌對 GLam 的能效進行了評估:

1.2萬億參數:谷歌通用稀疏語言模型GLaM,小樣本學習打敗GPT-3

訓練期間,GLaM 與 GPT-3 的能耗比較。

雖然 GLaM 在訓練期間使用了更多算力,但得益于 GSPMD(谷歌 5 月推出的用于常見機器學習計算圖的基于編譯器的自動化并行系統)賦能的更高效軟件實現和 TPUv4 的優勢,它在訓練時耗能要少于其他模型。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2021-09-08 17:23:33

谷歌模型開發

2021-08-12 16:27:04

模型人工智能深度學習

2022-03-24 10:35:38

人工智能模型代碼

2022-12-27 13:36:09

2022-08-25 15:05:23

AI論文

2021-07-13 17:38:49

算法語言模型GPT-4

2021-03-23 15:21:00

人工智能機器學習技術

2023-02-25 21:45:55

模型AI

2021-08-19 15:48:05

增量攻擊網絡安全網絡攻擊

2025-01-27 00:57:43

2021-01-13 15:16:45

谷歌架構開發者

2023-04-07 09:53:02

量子AI

2022-04-01 15:30:18

語言模型自然語言AI

2020-06-15 10:42:42

谷歌Android開發者

2022-03-14 09:33:56

神經網絡模型人工智能

2021-07-19 10:56:36

GPE-3OpenAI微軟

2023-03-01 16:15:16

2023-07-13 12:54:42

GPT-4OpenAI

2024-10-18 11:12:44

2021-09-30 11:20:01

AI 數據人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91久久精品国产免费一区 | 第四色影音先锋 | 欧美 日韩 国产 成人 | 国产成人99久久亚洲综合精品 | 伊人网一区 | 亚洲精品一区在线 | 日韩欧美中文字幕在线观看 | 久久伊人免费视频 | 在线第一页 | 亚洲福利在线观看 | 日本超碰 | 国产一二区视频 | 美美女高清毛片视频免费观看 | 成人在线精品视频 | 国产精品国产亚洲精品看不卡15 | 一级a性色生活片久久毛片 午夜精品在线观看 | 黄a网 | 亚洲一区二区三区 | 怡红院免费的全部视频 | 久久久久久亚洲精品 | 中文字幕在线一区二区三区 | 午夜视频在线免费观看 | 欧美日韩视频网站 | 国产精品呻吟久久av凹凸 | 国产精品成人国产乱 | 精品欧美色视频网站在线观看 | 91高清免费 | 国产精品成人在线观看 | 欧美成人在线免费 | www国产亚洲精品 | 国产精品久久久久久久久图文区 | 欧美一区永久视频免费观看 | www312aⅴ欧美在线看 | 成人av影院| 成人亚洲性情网站www在线观看 | 国产精品久久av | 欧美日韩成人在线 | 人人人人干| 亚洲一区二区三区四区五区午夜 | 国产精品久久精品 | 成在线人视频免费视频 |