可观测性#

NVIDIA NIM 多模态安全 (Multimodal Safety NIM) 支持通过 Triton 指标通过 Prometheus 端点导出。

Triton 指标#

Triton 在端口 8002 以 Prometheus 格式公开其指标。

下表描述了在 http://127.0.0.1:8002/metrics 上可用的指标。

类别

指标

指标名称

描述

计数

成功请求计数

nv_inference_request_success

成功推理请求的数量

计数

失败请求计数

nv_inference_request_failure

失败推理请求的数量

计数

总请求计数

nv_inference_count

执行的推理数量

计数

请求持续时间

nv_inference_request_duration_us

累积推理请求持续时间(微秒)

计数

队列持续时间

nv_inference_queue_duration_us

累积推理排队持续时间(微秒)

计数

推理持续时间

nv_inference_compute_infer_duration_us

累积计算推理持续时间(微秒)

仪表

GPU 利用率

nv_gpu_utilization

GPU 利用率 [0.0 - 1.0)

仪表

GPU 总内存

nv_gpu_memory_total_bytes

GPU 总内存

仪表

已用 GPU 内存

nv_gpu_memory_used_bytes

GPU 已用内存

仪表

CPU 利用率

nv_cpu_utilization

CPU 利用率 [0.0 - 1.0]

仪表

CPU 总内存

nv_cpu_memory_total_bytes

CPU 总内存 (RAM)

仪表

已用 CPU 内存

nv_cpu_memory_used_bytes

CPU 已用内存 (RAM)

Prometheus#

要安装 Prometheus 以从 NIM 抓取指标,请下载适合您系统的最新 Prometheus 版本

wget https://github.com/prometheus/prometheus/releases/download/v2.52.0/prometheus-2.52.0.linux-amd64.tar.gz
tar -xvzf prometheus-2.52.0.linux-amd64.tar.gz
cd prometheus-2.52.0.linux-amd64/

编辑 Prometheus 配置文件以从 NIM 端点抓取指标。确保 targets 字段指向 localhost:8002

vim prometheus.yml

# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
  - job_name: "prometheus"

    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.

    static_configs:
      - targets: ["localhost:8002"]

接下来运行 Prometheus 服务器 ./prometheus --config.file=./prometheus.yml

使用浏览器检查 NIM 目标是否被 Prometheus 服务器检测到 http://127.0.0.1:9090/targets?search=。您也可以点击 NIM 目标 URL 链接来探索生成的指标。

Grafana#

我们可以使用 Grafana 来创建 NIM 指标的仪表板。安装适合您系统的最新 Grafana 版本。

wget https://dl.grafana.com/oss/release/grafana-11.0.0.linux-amd64.tar.gz
tar -zxvf grafana-11.0.0.linux-amd64.tar.gz

运行 Grafana 服务器

cd grafana-v11.0.0/
./bin/grafana-server

要访问 Grafana 仪表板,请在浏览器中访问 http://127.0.0.1:3000。您需要使用默认凭据登录

username: admin 
password: admin

第一步是配置 Grafana 的数据源以抓取指标。点击 Data Source 按钮,选择 Prometheus 并指定 Prometheus URL 为 localhost:9090。保存配置后,您应该会看到成功消息,现在您可以开始使用 NIM 的指标创建仪表板了。