安装 NVIDIA 网络操作器(可选)#

在 2.0 版本中添加。

接下来,我们将安装 NVIDIA 网络操作器。这仅适用于您的工作节点具有 NVIDIA 网络的情况。网络操作器的目标是安装主机网络组件,以在 Kubernetes 集群中启用 RDMA 和 GPUDirect。它通过在每个集群节点中的辅助网络上为 IO 密集型工作负载配置高速数据路径来实现这一点。

  1. 选择 运算符 > Operator Hub,并搜索 NVIDIA Network Operator

  2. 选择 NVIDIA Network Operator,然后在第一个屏幕和后续屏幕中单击 安装。

    注意

    有关更多信息,请参阅 Red Hat OpenShift Container Platform 文档

通过 CLI 安装 NVIDIA 网络操作器#

NVIDIA 网络操作器也可以使用 CLI 安装。提供的步骤仅供参考。

  1. 为网络操作器创建一个命名空间。

    创建以下 Namespace 自定义资源 (CR),它定义了 network-operator 命名空间,然后将 YAML 保存在 network-operator-namespace.yaml 文件中

    1apiVersion: v1
    2kind: Namespace
    3metadata:
    4name: network-operator
    

    通过运行以下命令创建命名空间

    $ oc create -f network-operator-namespace.yaml
    
  2. 通过创建以下对象,在您在上一步创建的命名空间中安装网络操作器。

    运行以下命令以获取下一步所需的通道值

    $ oc get packagemanifest network-operator -n openshift-marketplace -o jsonpath='{.status.defaultChannel}'
    
  3. 示例输出

    stable
    
  4. 创建以下 Subscription CR,并将 YAML 保存在 network-operator-sub.yaml 文件中

     1apiVersion: operators.coreos.com/v1alpha1
     2kind: Subscription
     3metadata:
     4    name: network-operator
     5    namespace: network-operator
     6spec:
     7    channel: "stable"
     8    installPlanApproval: Manual
     9    name: network-operator
    10        sourceNamespace: openshift-marketplace
    
  5. 通过运行以下命令创建订阅对象

    $ oc create -f network-operator-sub.yaml
    
  6. 切换到 network-operator 项目

    $ oc project network-operator
    

    要验证操作器部署是否成功,请运行

    $ oc get pods
    

    示例输出

    NAME                                      READY   STATUS    RESTARTS   AGE
    
    vidia-network-operator-controller-manager-8f8ccf45c-zgfsq    2/2     Running   0          1
    
  7. 成功的部署显示 Running 状态。