关于 GPU 遥测
监控堆栈通常由收集器、用于存储指标的时间序列数据库和可视化层组成。一个流行的开源堆栈是 Prometheus,它与 Grafana 一起用作可视化工具来创建丰富的仪表板。Prometheus 还包括一个 Alertmanager,用于创建和管理警报。Prometheus 与 kube-state-metrics 和 node_exporter 一起部署,以公开 Kubernetes API 对象的集群级指标和节点级指标,例如 CPU 利用率。
下图显示了 Prometheus 的架构

为了在 Kubernetes 中收集 GPU 遥测数据,建议使用 DCGM Exporter。DCGM Exporter 基于 DCGM,为 Prometheus 公开 GPU 指标,并且可以使用 Grafana 进行可视化。DCGM Exporter 的架构设计利用了 KubeletPodResources
API,并以 Prometheus 可以抓取的格式公开 GPU 指标。还包含一个 ServiceMonitor
以公开端点。