成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型開發者必備手冊:這些數字值得記住

人工智能 新聞
文章基于真實的開發經驗,介紹了提示工程、硬件資源、價格等方面的數據。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

GPT-4的使用成本,竟然是GPT-3.5的50倍之多;

而讓大語言模型同時處理25個請求的時間,僅是處理單個請求的2倍……

這些數據聽上去可能有些出乎意料,但都是真實的。

它們出自一篇名為《大語言模型(LLM)開發者必須知道的數字》的GitHub文章。

文章發布之后僅1天,便獲得了1200次星標。

圖片

文章基于真實的開發經驗,介紹了提示工程、硬件資源、價格等方面的數據。

就算沒有成為開發者的打算,拿來擴充一下知識儲備也是極好的。

都有哪些數字值得關注

我們不妨先來看一下文章作者制作的速覽圖表:

圖片

接下來,我們就來詳細介紹一下這些數據。

提示工程

40-90%:在提示詞中加入“Be Concise”節約的成本

使用LLM是按照回復的token數量付費的,因此讓LLM的回答簡明扼要可以節約成本。

在提示詞中加入“Be Concise”(答案簡明些),可以節約40-90%的成本。

1.3:每個單詞的平均token數

LLM是對token進行操作的,token可能包含完整單詞或其中的一部分。

如“eating”是由“eat”和后綴“ing”兩個token組成。

一篇750詞的英文文章中大約含有1000個token。

而對于其他語言,每個詞所含的token數量可能更多。

價格

價格數據會存在波動,本節的價格數據主要參考OpenAI,但其他公司數據也相似。

約50倍:GPT-4與GPT-3.5花費的比值

效果上,GPT-4的表現明顯好于GPT-3.5,但其成本約為后者的50倍之多。

因此,對于諸如總結這類GPT-3.5也能出色完成的任務,可以考慮不使用更昂貴的GPT-4。

5倍:GPT-3.5-Turbo生成與使用OpenAI embedding的成本比

諸如“美國的首都是哪里”這類可以通過檢索得到答案的問題,讓LLM生成答案的成本是檢索的5倍。

而如果使用GPT-4,成本差異將高達250倍。

10倍:OpenAI embedding與自建embedding的成本比

這一數字為大約數值,實際情況可能隨著embedding的規模而變化。

6倍:微調版與基本版OpenAI模型的成本比值

盡管成本較為昂貴,但對基本OpenAI模型的微調是有意義的。

對基本模型進行微調的效益明顯高于定制模型。

1倍:自建模型是否進行微調的成本比

由于參數量相同,是否進行微調對自建模型的成本幾乎沒有影響。

訓練與微調

約100萬美元:在1.4萬億token上訓練130億參數模型的成本

這一數字是建立在一切工作都十分順利、沒有發生崩潰的前提下計算出的。

Meta的大語言模型LLaMA的論文當中顯示,用2048塊80GB A100 GPU進行訓練LLaMA一共花費了21天。

<0.001:微調與從頭開始訓練的成本比

這一數據有一些籠統,但微調的成本幾乎可以忽略不計。

對一個60億參數模型進行微調的成本大約是7美元。

即使是最貴的OpenAI模型Davinci,1000個token的微調成本也只有3美分。

相對于對一部莎士比亞全集進行微調也只需要40美元。

GPU消耗

如果你要自建模型,了解其GPU消耗十分重要。

本節所列數據僅是推理過程所消耗的資源量,訓練和微調過程還需要更多資源。

V100: 16GB, A10G: 24GB, A100: 40/80GB:GPU內存大小

GPU內存大小決定了LLM的參數量上限。

24GB的A10G在亞馬遜云服務中的價格為1.5-2美元每小時。

參數量的2倍:LLM的典型GPU內存需求

例如,7B參數量的LLM需要消耗14GB的GPU內存。

這是因為大多數時候,每個參數需要16bit浮點空間。

通常情況下不需要使用超過16bit的精度,8bit則會顯著降低結果精準度。

約1GB:嵌入式模型的典型GPU內存需求

嵌入式模型消耗的本地GPU資源是很小的。

甚至可以在一塊GPU上同時運行多個嵌入式模型。

超過10倍:批量處理LLM請求帶來的吞吐量改善

在GPU上運行LLM時往往會有較大延遲。

一次請求消耗的時間可能長達5秒,相對于每秒僅能處理0.2個。

但如果同時發送兩個請求,消耗的時間約為5.2秒。

而將25個請求捆綁發出的耗時約為10秒,相對于每秒可處理2.5個請求。

約1MB:130億參數模型輸出1個token所需的GPU內存

內存消耗量與生成token數成正比。

512個token(約380個英文單詞)需要消耗512MB的空間。

作者簡介

這篇文章的作者來自開源人工智能框架Ray的開發公司Anyscale。

主要貢獻者是Google前首席工程師Waleed Kadous。

他也曾擔任Uber CTO辦公室工程戰略負責人。

其中一位華人合作者是Google前員工Huaiwei Sun。

他來自江蘇昆山,本科畢業于上海交通大學工業設計專業。

期間,他參加了耶魯大學summer school并取得了滿績。

此后他取得了佐治亞理工學院碩士學位,研究方向為人機交互。

此外還有其他作者也參與了這篇文章的工作,未來也可能有更多人加入。

參考鏈接:
[1]https://github.com/ray-project/llm-numbers
[2]https://www.linkedin.com/in/scottsun94/

責任編輯:張燕妮 來源: 量子位
相關推薦

2011-12-02 09:50:31

google

2021-01-27 09:00:00

開發PHP框架

2018-04-26 22:52:46

Java開發編碼網站

2010-05-24 10:46:00

Web開發者

2011-04-27 13:35:26

2019-03-12 10:38:18

前端開發Nginx

2012-02-13 10:21:11

Skala PreviiOS應用

2023-11-30 15:30:19

Python編程語言

2025-04-17 08:36:30

2024-10-25 19:32:58

ChatGPT

2011-05-03 09:41:42

Android開發工具Android SDK

2016-05-04 10:00:04

混合開發移動博客

2014-04-01 13:50:28

安卓Android開發者

2021-04-08 10:40:24

前端工具代碼

2014-02-01 21:31:10

JavaScriptJS框架

2014-03-14 11:44:28

安卓開發者Android開發

2011-01-11 11:35:17

jQueryAndroidgoogle

2011-03-01 13:10:06

WebjQueryHTML 5

2013-12-30 13:46:27

Android開發者

2014-04-18 13:20:34

Android安卓開發工具
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 999视频| 日韩视频在线一区 | avmans最新导航地址 | 亚洲日本免费 | 在线视频亚洲 | 亚洲福利 | 日韩精品一区二区三区视频播放 | 亚洲欧美国产精品久久 | 波多野结衣二区 | 久久99网| 91av入口| 午夜精| 日本激情一区二区 | 午夜精品久久久久久久久久久久久 | 在线不卡av| 久久国内精品 | 欧美日韩国产中文 | 久久精品亚洲国产奇米99 | 人人操日日干 | 成人精品一区二区三区中文字幕 | 欧美三级三级三级爽爽爽 | 欧美男男videos| 日韩影音| 欧美日韩精品中文字幕 | 99精品视频一区二区三区 | 久久大陆 | 免费成人在线网站 | 欧美二区乱c黑人 | 成人小视频在线观看 | 午夜视频在线播放 | 农村真人裸体丰满少妇毛片 | 国产精品久久久久久久免费大片 | 中文二区| 日韩精品一区二区三区在线播放 | 欧美精品福利视频 | 久久精品黄色 | 成人精品高清 | 亚洲欧美一区二区三区情侣bbw | 亚洲毛片在线观看 | 男女羞羞视频在线免费观看 | 欧美韩一区二区 |