NVIDIA AI 企业解决方案指南# 本解决方案指南概述了如何在 NVIDIA AI Enterprise 上利用自然语言处理用例示例创建 AI 管道 NVIDIA AI Enterprise 企业级 AI 软件平台 NVIDIA 企业级 AI 软件平台 NVIDIA AI 支持的软件 NVIDIA AI 工作流程 生产就绪的预训练模型 NVIDIA NIM 支持的硬件和软件 Triton 推理服务器 概述 Triton 推理服务器 什么是 TensorRT? Triton 推理服务器架构 用户角色 IT 管理员 创建 Ubuntu 20.04 虚拟机 安装 NVIDIA 驱动程序、Docker 和 NVIDIA Container Toolkit 其他应用程序配置 配置 VM 以进行 BERT 模型训练和推理 从 VM 创建模板 创建访客自定义规范 创建虚拟机模板 AI 从业者 训练 BERT QA 模型 将模型导出为 Triton 推理服务器格式 DevOps 工程师 检查 Triton 推理服务器健康状况 验证 获取 Triton 客户端库和示例 使用 Triton gRPC 客户端运行推理 附录 Triton 推理服务器基准测试 Triton BERT Large 基准测试 扩展 Triton 推理服务器 vSphere VM 上的垂直扩展 vSphere VM 上的水平扩展(高级) 部署负载均衡器以实现水平扩展 使用负载均衡器运行横向扩展推理 在 Kubernetes 上部署 Triton 推理服务器 什么是 Kubernetes? 什么是 NVIDIA GPU Operator? IT 管理员工作流程 克隆 VM - 标准操作系统 Ubuntu 20.04 安装 Kubernetes DevOps 工程师工作流程 安装 GPU Operator 在 Kubernetes 上部署 Triton 推理服务器 访问 NFS 共享以保存所有已训练的 GPU TensorFlow 模型 管理存储 创建持久卷 (PV) 以供 Kubernetes 访问 NFS 服务器 创建持久卷声明 (PVC) 创建 Triton 推理服务器 Kubernetes 部署 检查 Kubernetes 部署的健康状况 使用 Kubernetes 自动扩展 Triton 推理服务器部署 水平 Pod 自动扩缩器 自定义指标服务器 NVIDIA DCGM Exporter Service Prometheus 服务器 安装 Prometheus Adapter 验证自定义指标是否可用于指标服务器 创建水平 Pod 自动扩缩器对象 生成负载以显示自动扩展 支持 支持与服务 声明 声明 注意 商标 版权