关于 GPU 遥测

监控堆栈通常由收集器、用于存储指标的时间序列数据库和可视化层组成。一个流行的开源堆栈是 Prometheus，它与 Grafana 一起用作可视化工具来创建丰富的仪表板。Prometheus 还包括一个 Alertmanager，用于创建和管理警报。Prometheus 与 kube-state-metrics 和 node_exporter 一起部署，以公开 Kubernetes API 对象的集群级指标和节点级指标，例如 CPU 利用率。

下图显示了 Prometheus 的架构

https://boxboat.com/2019/08/08/monitoring-kubernetes-with-prometheus/prometheus-architecture.png

为了在 Kubernetes 中收集 GPU 遥测数据，建议使用 DCGM Exporter。DCGM Exporter 基于 DCGM，为 Prometheus 公开 GPU 指标，并且可以使用 Grafana 进行可视化。DCGM Exporter 的架构设计利用了 KubeletPodResources API，并以 Prometheus 可以抓取的格式公开 GPU 指标。还包含一个 ServiceMonitor 以公开端点。