成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型前綴緩存技術,有望將服務成本降低90%

譯文 精選
人工智能
大模型應用程序中的提示詞重復率高達70%。前綴緩存機制能夠將推理成本降低達90%,顯著優化性能并節約資金。

譯者 | 核子可樂

審校 | 重樓

是不是總感覺ChatGPT響應緩慢?

大家可能沒有留意,大模型應用程序的提示詞重復率高達70%,問天氣、問翻譯和問節日安排的內容大量出現,且每次都要消耗算力進行處理。這樣的情況在分布式集群的各節點上被無數次放大,白白燒掉寶貴的能源和金錢。

為此,Anthropic日前詳細介紹了如何利用提示詞緩存技術將推理成本降低90%。其實不少開源大模型運行時(包括vLLM、TRT-LLM和SGLang等)都擁有自動前綴緩存(也稱上下文緩存)功能,負責將相同前綴請求中的輸入提示詞自動緩存起來。

前綴緩存的工作原理

為了更好地理解前綴緩存,我們先來聊聊大模型推理的工作原理。

推理過程在宏觀上分為兩個步驟:

  • 通過正向傳遞處理給定的輸入標記序列,即預填充階段。
  •  解碼階段,從首個token連續生成至最后一個token,且當前token依賴于上一token。

圖一

由于此過程的自回歸屬性(即新token依賴于前一token),因此有效的內存管理非常重要。多數大模型會采取為中間狀態保留KV緩存的做法。與簡單提示詞或語義緩存的不同之處在于,其不會將全文輸入和輸出保存在數據庫內,因為這樣就只有完全匹配(或者幾乎完全相同的查詢)才能立即命中緩存并收到響應。

在預填充階段,在大模型處理token時會計算“注意力”,即每個token與其他token的關系。計算過程會為每個token生成鍵-值矩陣。如果不經任何KV緩存,那么模型每次回顧此前token時都需要重新計算這些矩陣。KV緩存在設計上只支持一次生成,即只會在生成一條輸出的過程中捕捉中間狀態。

如果有兩條具有相同前綴的請求,該怎么處理?

KV緩存的基本思路啟發并衍生出了前綴緩存,確保在生成包含相同前綴的提示詞時給出不同的響應。簡單類比一下,假設已經計算過2 * 6的結果,那么對于2 * 6 * 3 * 5 這個新問題,可以直接復用之前的答案,避免在序列中重復計算。

這對應用程序有何幫助?

我們可以使用以下最佳實踐來充分發揮前綴緩存的優勢:

為提示詞結構設計策略

可以將系統提示詞、基礎指令或者共享上下文等常量元素放在提示詞的開頭(圖二),從而為多條查詢建立可復用基礎。其他動態或特殊內容則可放在末尾。

圖二

對請求進行重新分組

將共享通用結構/前綴的請求捆綁在一起(圖三)。例如,在處理以常見問候語或稱呼開頭的多條客戶查詢時,可以嘗試將它們分為一組,盡可能提高計算過程的緩存和復用率。

圖三

監控緩存利用率

另外,需要注意跟蹤緩存利用率。

包括命中率與未命中率:

  • 找出哪些前綴比其他一般前綴更重要
  • 識別緩存未命中的模式

依托這些見解,就能優化提示詞結構以獲得最佳性能。

簡單示例

以下示例為當多條查詢共享相同的上下文時,前綴緩存如何優化大模型推理。我們使用一份簡單的員工數據庫表,并對其中內容進行不同查詢。

Python
import time
from vllm import LLM, SamplingParams

# A small table containing employee information
LONG_PROMPT = """You are a helpful assistant that recognizes content in markdown tables. Here is the table:

| ID | Name          | Department | Salary  | Location    | Email                |
|----|---------------|------------|---------|-------------|---------------------|
| 1  | Alice Smith   | Engineering| 85000   | New York    | alice@company.com   |
| 2  | Bob Johnson   | Marketing  | 65000   | Chicago     | bob@company.com     |
| 3  | Carol White   | Sales      | 75000   | Boston      | carol@company.com   |
| 4  | David Brown   | Engineering| 90000   | Seattle     | david@company.com   |
| 5  | Eve Wilson    | Marketing  | 70000   | Austin      | eve@company.com     |
"""

def get_generation_time(llm, sampling_params, prompts):
    start_time = time.time()
    output = llm.generate(prompts, sampling_params=sampling_params)
    end_time = time.time()
    print(f"Output: {output[0].outputs[0].text}")
    print(f"Generation time: {end_time - start_time:.2f} seconds")

# Initialize LLM with prefix caching enabled
llm = LLM(
    model='lmsys/longchat-13b-16k',
    enable_prefix_caching=True
)

sampling_params = SamplingParams(temperature=0, max_tokens=50)

# First query - will compute and cache the table
get_generation_time(
    llm,
    sampling_params,
    LONG_PROMPT + "Question: What is Alice Smith's salary? Your answer: Alice Smith's salary is "
)

# Second query - will reuse the cached table computation
get_generation_time(
    llm,
    sampling_params,
    LONG_PROMPT + "Question: What is Eve Wilson's salary? Your answer: Eve Wilson's salary is "
)

運行以上代碼,即可查詢不同查詢間的實際時間差異。第二條查詢明顯更快,因為其復用了緩存中的表上下文。具體時間將根據硬件和設置而有所浮動。

總結

前綴緩存是一項強大的大模型應用優化技術。實施上述最佳實踐將幫助開發人員顯著降低推理成本,且不致影響響應質量。參考示例也表明其操作難度極低,推薦大家馬上在自己的應用程序中試一試。

原文標題:90% Cost Reduction With Prefix Caching for LLMs,作者:Mahak Shah

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2021-05-08 13:36:13

云計算AWS云平臺

2024-08-19 00:34:32

2018-11-23 10:59:36

芯片數據中心技術

2011-07-11 09:39:22

虛擬服務器虛擬化

2009-02-16 15:50:57

服務器 降低成本

2024-01-24 09:47:44

AI芯片大語言模型人工智能

2025-03-28 10:00:00

Akamai云服務云計算

2024-06-13 16:50:24

2012-08-27 09:40:35

虛擬化

2009-06-25 18:01:26

刀片服務器虛擬化惠普

2009-02-06 08:23:46

英特爾工廠內遷投資

2024-08-15 13:55:00

AI模型

2023-06-15 09:58:48

2024-11-05 13:50:12

2013-03-07 09:20:46

公有云服務微軟AzureMetricsHub

2009-04-07 16:08:22

LinuxXenSUSE

2022-03-08 14:31:37

區塊鏈汽車技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 无码日韩精品一区二区免费 | 欧美精品一区二区三区四区 在线 | 日日操操| 欧美成人黄色小说 | 欧美在线资源 | 国产高清精品在线 | 99精品久久久久 | 91精品国产一区二区 | 国产一级淫片a直接免费看 免费a网站 | 毛片免费视频 | 亚洲福利一区 | 美女视频三区 | 操操操操操 | 亚洲精品久久久久avwww潮水 | 91在线观看 | 精品亚洲一区二区三区 | 亚洲免费毛片 | 日韩欧美在线免费观看视频 | 日韩三级电影一区二区 | 精品国产乱码久久久久久闺蜜 | 天天干狠狠操 | 久久精品国产一区二区电影 | www免费视频| 日韩欧美亚洲 | 欧洲一级黄 | 欧美日本在线 | 欧美一级高潮片免费的 | 亚洲性在线 | 精品国产一区二区国模嫣然 | 国产精品久久片 | 久久久精品一区 | 欧美一区二区精品 | 无码日韩精品一区二区免费 | 免费观看一级毛片 | 狠狠干天天干 | 日韩精品一区二区不卡 | 日韩久久久久久久久久久 | 亚洲一区二区三区免费在线观看 | 天天色av | 精品久久一区 | 日韩五月天 |