步骤 2：设置所需基础设施#

数字指纹识别

NVIDIA AI 工作流程旨在云原生 Kubernetes 平台上部署，该平台可以部署在本地或使用云服务提供商 (CSP)。

将为工作流程设置的基础设施堆栈应遵循下图

按照以下部分中的说明设置所需的基础设施（以蓝色和灰色框表示），这些基础设施将在步骤 3：安装工作流程组件（以绿色框表示）中使用。

支持 GPU 的硬件基础设施#

NVIDIA AI 工作流程至少需要一个支持 GPU 的节点来运行提供的示例工作负载。生产部署应在高可用性 (HA) 环境中执行。

建议此工作流程使用以下支持 GPU 的节点的硬件规格

2 个 T4/A10/A30/A40/A100（或更新型号）GPU，具有大于或等于 16 GB 内存
32 个 vCPU 核心
128 GB RAM
1 TB HDD

记下这些硬件规格，因为您将在以下部分中使用它们来配置 Kubernetes 集群中使用的节点。

注意

Kubernetes 集群和云原生服务附加组件包可能对网络、存储、服务等有额外的基础设施要求。更多详细信息可以在NVIDIA 云原生服务附加组件包部署指南中找到。

Kubernetes 集群#

该工作流程需要预配一个 NVIDIA AI Enterprise 支持的 Kubernetes 集群。

云原生服务附加组件包目前仅支持 NVIDIA AI Enterprise 支持的 Kubernetes 发行版的子集。特定的受支持发行版和预配集群的步骤可以在NVIDIA 云原生服务附加组件包部署指南中找到。

在指南此处中可以找到基于 NVIDIA AI Enterprise VMI 和 NVIDIA 云原生堆栈预配最小集群的示例参考。

注意

如果您的实例只有一个 GPU，您将必须启用 GPU 共享。为此，请在您的实例上运行以下命令

cat << EOF >> time-slicing-config.yaml
apiVersion: v1
kind: ConfigMap
metadata:
  name: time-slicing-config
  namespace: nvidia-gpu-operator
data:
  any: |-
    version: v1
    flags:
      migStrategy: none
    sharing:
      timeSlicing:
        renameByDefault: false
        failRequestsGreaterThanOne: false
        resources:
          - name: nvidia.com/gpu
            replicas: 4
EOF

kubectl create -f time-slicing-config.yaml

kubectl patch clusterpolicy/cluster-policy -n nvidia-gpu-operator --type merge -p '{"spec": {"devicePlugin": {"config": {"name": "time-slicing-config"}}}}'

kubectl patch clusterpolicy/cluster-policy -n nvidia-gpu-operator --type merge -p '{"spec": {"devicePlugin": {"config": {"name": "time-slicing-config", "default": "any"}}}}'

NVIDIA 云原生服务附加组件包#

Kubernetes 集群预配完成后，继续NVIDIA 云原生服务附加组件包部署指南中的下一步，在集群上部署附加组件包。

可以此处找到遵循前一部分的示例参考。

工作流程组件#

所有工作流程组件都集成并部署在先前描述的基础设施堆栈之上，作为起点。然后，可以根据需要自定义工作流程并将其与自己的特定环境集成。

安装附加组件包后，继续步骤 3：安装工作流程组件以继续设置工作流程。