成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用Ray觀測和監控大語言模型工作負載

譯文 精選
人工智能
本文探討了Ray托管的LLM工作負載中可觀測性的重要性、需要監控的關鍵度量指標以及使用Prometheus和Grafana搭建可觀測性機制的詳細指南。

譯者 | 布加迪

審校 | 重樓

前言

GPT-4、PHI2、BERT和T5等大語言模型(LLM)的出現已徹底改變了自然語言處理,這些模型支持高端應用程序,包括聊天機器人、推薦系統和分析。然而,LLM中工作負載的規模和復雜性使得保證性能和可靠性成了一大挑戰。在這種情況下,在使用Ray等框架部署工作負載的同時進行監控和觀測顯得非常必要。

Ray是一種分布式計算框架,提供了一個強大的平臺,可以跨集群有效地擴展LLM工作負載。因此,它成了托管、管理和觀測LLM的一種出色選擇。利用Ray的內置特性,并結合Prometheus和Grafana觀測關鍵度量指標,將幫助用戶有效地監控、優化資源的使用,并快速診斷生產環境中的問題。

本文探討了Ray托管的LLM工作負載中可觀測性的重要性、需要監控的關鍵度量指標以及使用Prometheus和Grafana搭建可觀測性機制的詳細指南。

為什么使用Ray處理LLM工作負載?

Ray為分布式、可擴展的應用程序設計,因而成為了托管和管理LLM工作負載的理想選擇。讓Ray成為出色選擇的主要特性包括如下:

  • 動態任務調度:Ray的細粒度任務調度確保了資源的有效利用,特別是在處理LLM推理任務時,這類任務的大小和復雜性可能大有不同。
  • 易于集成:Ray與Hugging Face Transformers等框架無縫集成,可以輕松部署預訓練的LLM。
  • 自動擴展:Ray的集群自動擴展器可以根據工作負載的需求動態調整資源,確保成本效益和可擴展性。
  • 可觀測性支持:Ray提供了與Prometheus兼容的度量指標端點,簡化了分布式系統的監控設置。

這些特性使Ray不僅是一種計算框架,還是用于在實際應用程序中運行、監控和擴展LLM的基礎工具。

觀測Ray托管的LLM工作負載的關鍵指標

為了確保Ray托管的LLM工作負載的順利運行,跟蹤一系列性能、資源利用和操作度量指標就至關重要。以下是主要類別:

性能指標

  • 任務延遲:測量單個Ray任務完成所需的時間,這對于識別推理管道中的瓶頸至關重要。
  • 吞吐量:跟蹤每秒完成的任務數量,反映了系統處理高請求量的能力。
  • 詞元處理速率:測量每秒處理的詞元數量,特別是與GPT-4等基于Transformer的模型相關。

資源利用指標

  • CPU和GPU利用率:監控整個集群的資源使用情況,確保工作負載的高效分配。
  • 內存使用:跟蹤內存消耗以防止內存不足錯誤,這對于托管大型模型尤其重要。
  • 對象存儲利用率:觀測Ray的內存中對象存儲的使用情況,以便跨任務有效地共享數據。

操作指標

錯誤率:監控任務失敗率,以快速檢測和解決問題。

節點可用性:跟蹤Ray集群中節點的運行狀況,確保可靠性。

隊列長度:衡量掛起任務的數量,表明處理過程中的潛在瓶頸。

為Ray托管的工作負載設置可觀測性機制

Ray中的可觀測性需要使用度量指標來了解系統性能和診斷問題。通過將Ray與Prometheus和Grafana相集成,你就可以深入了解工作負載的行為。

第1步:設置Prometheus監控

Prometheus是一個開源監控系統,可以從Ray的端點收集度量指標。按照下面的指南在Kubernetes上搭建Prometheus和Ray。

使用KubeRay安裝Prometheus:

# Path: kuberay/
./install/prometheus/install.sh

# Check the installation
kubectl get all -n prometheus-system

配置Pod和服務監控器

設置PodMonitor和ServiceMonitor資源,從Ray head節點和worker節點中抓取度量指標:

apiVersion: monitoring.coreos.com/v1
kind: PodMonitor
metadata:
  name: ray-workers-monitor
  namespace: prometheus-system
  labels:
    release: prometheus
    ray.io/cluster: rayservice-sample-raycluster-bpkgv
spec:
  jobLabel: ray-workers
  namespaceSelector:
    matchNames:
      - raysvc
  selector:
    matchLabels:
      ray.io/node-type: worker
  podMetricsEndpoints:
    - port: metrics
---
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: resume-analyzer-monitor
  namespace: prometheus-system
  labels:
    release: prometheus
spec:
  jobLabel: resume-analyzer
  namespaceSelector:
    matchNames:
      - raysvc
  selector:
    matchLabels:
      ray.io/node-type: head
    endpoints:
      - port: metrics
    targetLabels:
      - ray.io/cluster

第2步:配置錄制規則

錄制規則允許你預先計算PromQL表達式,以加快查詢。比如說,計算Ray全局控制存儲(GCS)的可用性:

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  name: ray-cluster-gcs-rules
  namespace: prometheus-system
  labels:
    release: prometheus
spec:
  groups:
  - name: ray-cluster-main-staging-gcs.rules
    interval: 30s
    rules:
    - record: ray_gcs_availability_30d
      expr: |
        (
          100 * (
            sum(rate(ray_gcs_update_resource_usage_time_bucket{container="ray-head", le="20.0"}[30d]))
            /
            sum(rate(ray_gcs_update_resource_usage_time_count{container="ray-head"}[30d]))
          )
        )

表達方式解釋:

  • ray_gcs_update_resource_usage_time_bucket:跟蹤資源使用更新的延遲時間。
  • ray_gcs_update_resource_usage_time_count:統計更新總次數。
  • 該表達式計算過去30天內在特定延遲閾值內完成的更新的百分比。

第3步:設置警報規則

警報規則有助于主動識別問題。比如說,檢測缺失的GCS度量指標:

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  name: ray-cluster-gcs-rules
  namespace: prometheus-system
  labels:
    release: prometheus
spec:
  groups:
  - name: ray-cluster-main-staging-gcs.rules
    interval: 30s
    rules:
    - alert: MissingMetricRayGlobalControlStore
      expr: |
        absent(ray_gcs_update_resource_usage_time_count)
      for: 1m
      labels:
        severity: warning
      annotations:
        summary: "Missing Ray GCS metrics"

設置Grafana儀表板

Grafana為度量指標提供了豐富的可視化。下面介紹了如何為Ray設置儀表板:

第1步:捕獲默認儀表板

從Ray head pod中復制默認儀表板:

kubectl cp <head-pod>:/tmp/ray/session_latest/metrics/grafana/dashboards/ ./dashboards

第2步:訪問Grafana儀表板

kubectl port-forward deployment/prometheus-grafana -n prometheus-system 3000:3000

默認登錄憑據:

  • 用戶名:admin
  • 密碼:prom-operator

啟用Ray Serve Pods中的分析

分析推理工作負載依賴用于監控、調試和優化性能的復雜技術。本節將深入介紹特定的工具、配置和場景,以增強你的分析能力。

?內存分析

內存分析對于內存泄漏檢測和使用優化至關重要。比如說,借助Memray,可以跟蹤內存分配,并了解推理任務的行為。若要啟用Ray Serve Pod中的內存分析,更新容器的安全上下文以允許跟蹤:

securityContext:
  capabilities:
    add:
    - SYS_PTRACE

一旦配置完成,Memray就可以用來生成內存使用報告,這有助于識別系統中內存消耗高的任務或瓶頸。

示例用例:

在批處理推理任務期間分析大型Transformer模型的內存使用情況,以優化批處理大小,并減少內存開銷。

?CPU分析

針對CPU分析,可以在worker pod中安裝gdb、lldb或py-spy等工具,以收集詳細的CPU使用數據。這些工具允許你監控哪些函數消耗最多的CPU時間,從而實現有針對性的優化。

設置CPU分析機制:

  • 在ray worker pod中安裝gdb或lldb。
  • 使用分析腳本或工具在推理任務期間捕獲CPU使用快照。

示例用例:

  • 在預處理管道中識別需要CPU資源的操作,將其卸載到GPU或優化其實現。

端到端分析示例

當你集成內存分析和CPU分析時,這將為你提供系統性能的總體概況。為了更好地說明這一點,考慮一個有延遲峰值的LLM推理任務。如果你把內存分析和CPU分析關聯起來,就會發現:

  • 內存使用背后的罪魁禍首是大批的輸入數據。
  • CPU瓶頸是由于分詞功能效率低下造成的。

如果你優化批處理大小并重構瓶頸函數,性能可能會得到很大程度的提高。

結論

使用Ray的分布式LLM工作負載以及可靠工具的可觀測性將確保團隊從這些系統中獲得性能、可靠性和可擴展性。這篇指南介紹了在Ray上設置和監控LLM工作負載,很實用。適當的可觀測性將幫助開發人員和操作人員盡早發現問題,優化資源使用,并進一步改善用戶在使用NLP應用程序時獲得的體驗。

原文標題:Observing and monitoring Large Language Model workloads with Ray,作者:Swastik Gour

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2023-08-17 10:29:28

掘力計劃大語言模型

2023-05-08 12:54:54

語言模型LLMPython

2023-04-27 13:46:08

語言模型ChatGPT人工智能

2013-08-09 09:44:30

云服務云數據備份云災難恢復

2013-08-09 10:06:18

工作負載云計算郵件服務

2023-06-26 07:51:48

2024-01-12 10:29:26

2023-09-06 12:11:21

ChatGPT語言模型

2025-04-22 08:08:37

2024-11-06 09:47:00

2024-07-19 08:36:39

2025-01-16 08:39:08

2023-11-30 14:38:56

2025-05-30 05:00:00

AI模型數據訓練

2025-04-10 07:59:51

2024-06-06 08:06:19

鴻蒙大語言模型LLM模型

2017-06-26 10:22:22

Linux平均負載性能監控
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美久久一区二区 | 黄色一级网| 青青草在线播放 | 亚洲精品视频在线观看视频 | 免费高清成人 | 国产这里只有精品 | 欧美色偷拍 | 亚洲国产精品日韩av不卡在线 | 久久久久久成人 | 国产毛片视频 | 亚洲成av人影片在线观看 | 欧美激情综合色综合啪啪五月 | 国产成人99久久亚洲综合精品 | 岛国av免费观看 | 日韩欧美精品一区 | 日韩精品视频在线免费观看 | 91精品免费视频 | 国产在线a| av在线一区二区三区 | 午夜影视免费片在线观看 | 国产超碰人人爽人人做人人爱 | 免费看黄色小视频 | 成人影院在线观看 | 蜜桃在线视频 | 国产.com| 一区二区在线免费观看 | 国产精品久久久久久久久久久久冷 | 一区二区三区精品视频 | 九九色综合 | 成人免费网站 | 久久日韩粉嫩一区二区三区 | 2020天天操 | 欧美一区2区三区3区公司 | 国产精品成av人在线视午夜片 | 国产精品有限公司 | 在线一级片 | 97精品国产97久久久久久免费 | 久久久91精品国产一区二区三区 | 久久伊人亚洲 | 麻豆久久久久久久久久 | 久久久精品久 |