成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

跑ChatGPT體量模型,從此只需一塊GPU:加速百倍的方法來了

人工智能 新聞
1750 億參數,只需要一塊 RTX 3090,ChatGPT 終于不再是大廠專屬的游戲?

計算成本是人們打造 ChatGPT 等大模型面臨的重大挑戰之一。

據統計,從 GPT 進化到 GPT-3 的過程也是模型體量增長的過程 —— 參數量從 1.17 億增加到了 1750 億,預訓練數據量從 5GB 增加到 45TB,其中 GPT-3 訓練一次的費用是 460 萬美元,總訓練成本達 1200 萬美元。

除了訓練,推理也很花錢。有人估算,現在 OpenAI 運行 ChatGPT 的算力費用每天就有 10 萬美元。

在發展技術,讓大模型掌握更多能力的同時,也有人在嘗試降低 AI 所需的算力資源。最近,一種名為 FlexGen 的技術因為「一塊 RTX 3090 跑 ChatGPT 體量模型」而獲得了人們的關注。

雖然 FlexGen 加速后的大模型看起來仍然很慢 —— 跑 1750 億參數的語言模型時每秒 1 個 token,但令人印象深刻的是,它已經把不可能變成了可能。

傳統上,大語言模型(LLM)推理的高計算和內存要求使人們必須使用多個高端 AI 加速器進行訓練。本研究探索了如何將 LLM 推理的要求降低到一個消費級 GPU 并實現實用性能。

近日,來自斯坦福大學、UC Berkeley、蘇黎世聯邦理工學院、Yandex、莫斯科國立高等經濟學院、Meta、卡耐基梅隆大學等機構的新研究提出了 FlexGen,這是一種用于運行有限 GPU 內存的 LLM 的高吞吐量生成引擎。

通過聚合來自 GPU、CPU 和磁盤的內存和計算,FlexGen 可以在各種硬件資源限制下靈活配置。通過線性規劃優化器,它搜索存儲和訪問張量的最佳模式,包括權重、激活和注意力鍵 / 值(KV)緩存。FlexGen 將權重和 KV 緩存進一步壓縮到 4 位,精度損失低到可以忽略不計。與最先進的 offloading 系統相比,FlexGen 在單個 16GB GPU 上運行 OPT-175B 的速度提高了 100 倍,并首次實現了 1 token/s 的實際生成吞吐量。如果提供了更多的分布式 GPU,FlexGen 還帶有流水線并行 runtime,以允許在解碼時進行超線性擴展。

目前,該技術已經放出代碼,獲得了幾千 Star 量:??https://github.com/FMInference/FlexGen??

圖片

簡介

近年來,大語言模型在廣泛的任務中表現出卓越的性能。LLM 在展現出前所未有的通用智能的同時,也讓人們在構建時面臨著前所未有的挑戰。這些模型可能有數十億甚至數萬億個參數,這導致運行它們需要極高的計算和內存要求。例如,GPT-175B(GPT-3)僅用于存儲模型權重就需要 325GB 的內存。要讓此模型進行推理,至少需要五塊英偉達 A100(80GB)和復雜的并行策略。

降低 LLM 推理資源需求的方法是最近人們經常討論的內容。這些努力分為三個方向:

(1)模型壓縮以減少總內存占用量;

(2)協同推理,通過去中心化分攤成本;

(3)Offloading 以利用 CPU 和磁盤的內存。

這些技術顯著降低了使用 LLM 的計算資源需求。然而,人們通常假設模型適合 GPU 內存,而現有的基于 offloading 的系統仍然難以使用單塊 GPU 以可接受的吞吐量運行 1750 億參數規模的模型。

在新研究中,作者專注于高吞吐量生成推理的有效 offloading 策略。當 GPU 顯存不夠用時,我們需要將其卸載到二級存儲,通過部分加載的方式,逐段進行計算。在典型的機器上,內存層次結構分為三級,如下圖所示。高級內存速度快但稀缺,低級內存速度慢但充裕。

在 FlexGen 中,作者不追求低延遲,而是瞄準面向吞吐量的場景,這些場景在基準測試、信息提取、數據整理等應用中很受歡迎。實現低延遲對于 offloading 來說本質上是一個挑戰,但是對于面向吞吐量的場景,可以大大提高 offloading 的效率。圖 1 說明了三個具有 offloading 的推理系統的延遲吞吐量權衡。通過仔細的調度,I/O 成本可以通過大量輸入分攤并與計算重疊。在研究中,作者展示了就單位算力成本而言,單塊消費級 GPU 吞吐量優化的 T4 GPU 效率要比云上延遲優化的 8 塊 A100 GPU 的效率高 4 倍。

圖片

圖 1. OPT-175B(左)和 OPT-30B(右)上三個基于 offloading 的系統的延遲和吞吐量權衡。FlexGen 實現了新的帕累托最優邊界,OPT-175B 的最大吞吐量提高了 100 倍。由于內存不足,其他系統無法進一步提高吞吐量。

盡管已有研究在訓練的背景下討論了 offloading 的延遲 - 吞吐量權衡,但尚未有人將其用于生成 LLM 推理,這是一個截然不同的過程。由于 LLM 的自回歸性質,生成推理提出了獨特的挑戰。除了存儲所有參數外,它還需要順序解碼并維護一個大的注意力鍵 / 值緩存(KV 緩存)。現有的 offload 系統都無法應對這些挑戰,因此它們執行過多的 I/O,只能實現遠低于硬件能力的吞吐量。

為生成推理設計良好的 offloading 策略具有一定挑戰性。首先,這個過程中存在三種張量:權重、激活和 KV 緩存。該策略應指定在三級層次結構上的卸載內容、位置以及卸載時機。其次,逐個 batch、逐個 token 和逐個 layer 計算的結構形成了一個復雜的依賴圖,可以通過多種方式進行計算。該策略應該選擇一個可以最小化執行時間的時間表。這些選擇共同構成了一個復雜的設計空間。

為此,在新方法 FlexGen 上,人們提出了一種用于 LLM 推理的 offloading 框架。FlexGen 聚合來自 GPU、CPU 和磁盤的內存,并能有效地調度 I/O 操作,作者也討論了可能的壓縮方法和分布式管道并行性。

該研究的主要貢獻如下:

1、作者正式定義了可能的 offloading 策略的搜索空間,并使用成本模型和線性規劃求解器搜索最佳策略。值得關注的是,研究人員證明了搜索空間捕獲了一個幾乎 I/O 最優的計算順序,其 I/O 復雜度在最優計算順序的 2 倍以內。搜索算法可以針對各種硬件規格和延遲 / 吞吐量限制進行配置,從而提供一種平滑導航權衡空間的方法。與現有策略相比,FlexGen 解決方案統一了權重、激活和 KV 緩存的放置,從而實現了更大的 batch size。

2、研究表明,可以將 OPT-175B 等 LLM 的權重和 KV 緩存壓縮到 4 位,而無需重新訓練 / 校準,精度損失可忽略不計。這是通過細粒度分組量化實現的,可以顯著降低 I/O 成本。

3、通過在英偉達 T4 GPU (16GB) 上運行 OPT-175B 來展示 FlexGen 的效率。在單塊 GPU 上,給定相同的延遲要求,與 DeepSpeed Zero-Inference (Aminabadi et al., 2022) 和 Hugging Face Accelerate (HuggingFace, 2022) 相比,不壓縮的 FlexGen 可以實現高出 65 倍的吞吐量,后者是目前業內最先進的基于 offloading 的推理系統。如果允許更高的延遲和壓縮,FlexGen 可以進一步提高吞吐量并達到 100 倍的改進。FlexGen 是第一個可以使用單塊 T4 GPU 為 OPT-175B 實現 1 token/s 速度吞吐量的系統。如果給定多塊分布式 GPU,具有流水線并行性的 FlexGen 可在解碼時實現超線性擴展。

在研究中,作者還將 FlexGen 和 Petals 作為 offloading 和去中心化集合推理方法的代表進行了比較。結果表明,具有單塊 T4 GPU 的 FlexGen 在吞吐量方面勝過具有 12 塊 T4 GPU 的分散式 Petal 集群,并且在某些情況下甚至可以實現更低的延遲。

運行機制

通過聚合來自 GPU、CPU 和磁盤的內存和計算,FlexGen 可以在各種硬件資源限制下靈活配置。通過線性規劃優化器,它搜索存儲和訪問張量的最佳模式,包括權重、激活和注意力鍵 / 值 (KV) 緩存。FlexGen 將權重和 KV 緩存進一步壓縮到 4 位,精度損失可以忽略不計。

FlexGen 的一個關鍵思想是進行延遲 - 吞吐量權衡。實現低延遲對于卸載方法來說本來就具有挑戰性,但對于面向吞吐量的場景,可以極大地提升卸載效率(見下圖)。FlexGen 利用塊調度來重用權重并將 I/O 與計算重疊,如下圖 (b) 所示,而其他基線系統使用低效的逐行調度,如下圖 (a) 所示。

圖片

目前,該研究作者的下一步計劃包括對蘋果 M1、M2 芯片的支持和 Colab 部署的支持。

FlexGen 自發布后在 GitHub 上的 Star 量很快上千,在社交網絡上熱度也很高。人們紛紛表示這個項目很有前途,似乎運行高性能大型語言模型的障礙正在被逐漸克服,希望在今年之內,單機就能搞定 ChatGPT。

有人用這種方法訓練了一個語言模型,結果如下:

圖片

雖然沒有經過大量數據的投喂,AI 不知道具體知識,但回答問題的邏輯似乎比較清晰,或許未來的游戲中,我們能看見這樣的 NPC?

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-02-27 09:36:45

模型AI

2022-05-26 08:12:39

PandasApply技巧

2023-02-05 13:06:07

ChatGPT看圖方法

2023-06-26 22:15:14

ChatGPT思維模型

2021-12-29 10:26:58

芯片半導體技術

2012-11-15 09:46:22

Xeon PhiIntel加速性能

2023-04-14 07:09:04

2024-12-30 07:15:00

OpenAIChatGPT人工智能

2025-06-11 09:12:00

視頻生成AI

2017-09-09 15:32:13

2022-04-01 08:02:44

云成本服務器互聯網

2012-11-21 17:35:21

Oracle技術嘉年華

2023-02-25 21:45:55

模型AI

2016-03-04 14:40:35

華為

2017-08-03 09:09:06

NPMAPM管理

2015-09-24 10:18:54

程序員身價

2015-03-12 10:21:05

阿里云宕機

2020-08-30 14:29:01

Pandas數據分析函數

2021-04-19 05:44:18

顯示器Twinkle Tra亮度調節
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品久久久久avwww潮水 | 久久看看 | 国产高清在线精品一区二区三区 | 亚洲电影第1页 | 日本视频中文字幕 | 九九热免费视频在线观看 | 欧美在线一区二区三区 | 一区二区亚洲 | 亚洲理论在线观看电影 | 国产精品国产自产拍高清 | 日本精品视频在线 | 91精品在线播放 | 久久一二 | 久久久综合网 | 91porn在线观看 | 欧美成人免费在线视频 | 亚洲一区二区在线电影 | 国产做a爱片久久毛片 | 91欧美激情一区二区三区成人 | 九九热在线免费观看 | 国产精品福利一区二区三区 | 成人啊啊啊 | 色黄视频在线 | 亚洲综合婷婷 | 欧美性生活免费 | 国产欧美精品一区二区三区 | 91一区二区三区在线观看 | 三级av网址| 天天干夜夜操 | 日韩有码一区 | 天天插天天操 | 国内毛片毛片毛片毛片 | 日韩免费视频一区二区 | 午夜精品久久久久久久久久久久 | 国产a区 | 国产精品成人一区二区三区夜夜夜 | 欧美成人一区二区三区 | 视频在线一区二区 | 天天色天天色 | 久久精品二区亚洲w码 | 一区二区三区在线看 |