如何在 Google Cloud 上使用 GKE 大规模部署 Riva?
目录

如何在 Google Cloud 上使用 GKE 大规模部署 Riva?#
这是一个在 Google Cloud (GCP) Google Kubernetes Engine (GKE) 上使用基于 Traefik 的负载均衡部署和扩展 Riva Speech Skills 的示例。它包括以下步骤
创建 GKE 集群
部署 Riva API 服务
部署 Traefik 边缘路由器
创建 IngressRoute 以处理传入请求
部署示例客户端
扩展集群
先决条件#
在继续之前,请确保您已具备以下条件
创建 GKE 集群#
该集群包含三个独立的节点池
gpu-linux-workers
:一个配备 GPU 的节点,主 Riva 服务在此节点上运行。n1-standard-16
实例,每个实例使用 Tesla T4 GPU,这提供了良好的价值和足够的容量,可满足许多应用程序的需求。cpu-linux-lb
:用于 Traefik 负载均衡器的通用计算节点,使用n1-standard-4
实例。cpu-linux-clients
:一个通用节点,带有n1-standard-8
实例,用于访问 Riva 服务的客户端应用程序。
创建 GKE 集群。这将需要一些时间,因为它将在后端启动节点并设置 Kubernetes 控制平面。
gcloud container clusters create riva-gke --machine-type n1-standard-2 --num-nodes 1 --zone us-central1-c
集群创建完成后,为
kubectl
安装gcloud
插件gcloud components install kubectl
验证您是否可以使用
kubectl
连接到集群。您应该看到节点和 Pod 正在运行。kubectl get nodes kubectl get po -A
为 GPU 工作节点、负载均衡器和客户端创建三个节点池
GPU LINUX WORKERS
gcloud container node-pools create gpu-linux-workers --cluster=riva-gke --node-labels=role=workers --machine-type=n1-standard-16 --accelerator=count=1,type=nvidia-tesla-t4 --num-nodes=1 --disk-size=100 --zone us-central1-c
CPU LINUX LOAD BALANCERS
gcloud container node-pools create cpu-linux-lb --cluster=riva-gke --node-labels=role=loadbalancers --machine-type=n1-standard-4 --num-nodes=1 --disk-size=100 --zone us-central1-c
CPU LINUX CLIENTS
gcloud container node-pools create cpu-linux-clients --cluster=riva-gke --node-labels=role=clients --machine-type=n1-standard-8 --num-nodes=1 --disk-size=100 --zone us-central1-c
验证新添加的节点现在是否出现在 Kubernetes 集群中。
kubectl get nodes --show-labels kubectl get nodes --selector role=workers kubectl get nodes --selector role=clients kubectl get nodes --selector role=loadbalancers
部署 Riva API#
Riva Speech Skills Helm chart 旨在自动化部署到 Kubernetes 集群。下载 Helm chart 后,进行少量调整将使该 chart 适应 Riva 在本教程其余部分中的使用方式。
下载并解压 Riva API Helm chart。将
VERSION_TAG
替换为所需的特定版本。export NGC_CLI_API_KEY=<your NGC API key> export VERSION_TAG="2.18.0" helm fetch https://helm.ngc.nvidia.com/nvidia/riva/charts/riva-api-${VERSION_TAG}.tgz --username='$oauthtoken' --password=$NGC_CLI_API_KEY tar -xvzf riva-api-${VERSION_TAG}.tgz
在
riva-api
文件夹中,修改以下文件values.yaml
在
modelRepoGenerator.ngcModelConfigs
中,根据需要注释或取消注释特定的模型或语言。将
service.type
从LoadBalancer
更改为ClusterIP
。这会将服务直接仅暴露给集群内的其他服务,例如下面要安装的代理服务。将
persistentVolumeClaim.usePVC
设置为true
,persistentVolumeClaim.storageClassName
设置为standard
,并将persistentVolumeClaim.storageAccessMode
设置为ReadWriteOnce
。这会将 Riva 模型存储在已创建的持久卷中。
templates/deployment.yaml
添加节点选择器约束,以确保 Riva 仅部署在正确的 GPU 资源上。在
spec.template.spec
中,添加nodeSelector: cloud.google.com/gke-nodepool: gpu-linux-workers
如果您看到 GCP 未启用 GPU 驱动程序插件,请使用以下命令进行部署
kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml
使用以下任一命令验证 GPU 插件安装
kubectl get pod -A | grep nvidia OR kubectl get nodes "-o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\.com/gpu"
确保您位于以
riva-api
作为子目录的工作目录中,然后安装 Riva Helm chart。您可以显式覆盖values.yaml
文件中的变量,例如modelRepoGenerator.modelDeployKey
设置。helm install riva-api riva-api/ \ --set ngcCredentials.password=`echo -n $NGC_CLI_API_KEY | base64 -w0` \ --set modelRepoGenerator.modelDeployKey=`echo -n tlt_encode | base64 -w0`
Helm chart 按顺序运行两个容器:一个
riva-model-init
容器,用于下载和部署模型,然后是一个riva-speech-api
容器,用于启动语音服务 API。根据模型的数量,初始模型部署可能需要一个小时或更长时间。要监控部署,请使用kubectl
描述riva-api
Pod 并观看容器日志。export pod=`kubectl get pods | cut -d " " -f 1 | grep riva-api` kubectl describe pod $pod kubectl logs -f $pod -c riva-model-init kubectl logs -f $pod -c riva-speech-api
部署 Traefik 边缘路由器#
现在 Riva 服务正在运行,集群需要一种机制来将请求路由到 Riva。
在 riva-api
Helm chart 的默认 values.yaml
中,service.type
设置为 LoadBalancer
,这将自动创建一个 Google 负载均衡器来将流量定向到 Riva 服务。相反,开源 Traefik 边缘路由器将用于此目的。
下载并解压 Traefik Helm chart。
helm repo add traefik https://helm.traefik.io/traefik helm repo update helm fetch traefik/traefik tar -zxvf traefik-*.tgz
修改
traefik/values.yaml
文件。将
service.type
从LoadBalancer
更改为ClusterIP
。这会在集群内部 IP 上公开服务。将
nodeSelector
设置为{ cloud.google.com/gke-nodepool: cpu-linux-lb }
。与您对 Riva API 服务所做的类似,这告诉 Traefik 服务在cpu-linux-lb
节点池上运行。
部署修改后的
traefik
Helm chart。helm install traefik traefik/
创建 IngressRoute#
IngressRoute 使 Traefik 负载均衡器能够识别传入请求并在多个 riva-api
服务之间分配它们。
当您在上面部署 traefik
Helm chart 时,Kubernetes 会自动为该服务创建一个本地 DNS 条目:traefik.default.svc.cluster.local
。下面的 IngressRoute 定义匹配这些 DNS 条目并将请求定向到 riva-api
服务。您可以修改这些条目以支持不同的 DNS 安排,具体取决于您的要求。
创建以下
riva-ingress.yaml
文件apiVersion: traefik.containo.us/v1alpha1 kind: IngressRoute metadata: name: riva-ingressroute spec: entryPoints: - web routes: - match: "Host(`traefik.default.svc.cluster.local`)" kind: Rule services: - name: riva-api port: 50051 scheme: h2c
部署 IngressRoute。
kubectl apply -f riva-ingress.yaml
Riva 服务现在能够通过地址 traefik.default.svc.cluster.local
从集群内提供 gRPC 请求。如果您计划在集群中部署自己的客户端应用程序以与 Riva 通信,则可以将请求发送到该地址。在下一节中,您将部署 Riva 示例客户端并使用它来测试部署。
部署示例客户端#
Riva 提供了一个容器,其中包含一组预构建的示例客户端,用于测试 Riva 服务。客户端也可在 GitHub 上找到,供有兴趣适配它们的用户使用。
创建定义部署并包含以下内容的
client-deployment.yaml
文件apiVersion: apps/v1 kind: Deployment metadata: name: riva-client labels: app: "rivaasrclient" spec: replicas: 1 selector: matchLabels: app: "rivaasrclient" template: metadata: labels: app: "rivaasrclient" spec: nodeSelector: cloud.google.com/gke-nodepool: cpu-linux-clients imagePullSecrets: - name: imagepullsecret containers: - name: riva-client image: "nvcr.io/{NgcOrg}/{NgcTeam}/riva-speech:2.18.0" command: ["/bin/bash"] args: ["-c", "while true; do sleep 5; done"]
部署客户端服务。
kubectl apply -f client-deployment.yaml
连接到客户端 Pod。
export cpod=`kubectl get pods | cut -d " " -f 1 | grep riva-client` kubectl exec --stdin --tty $cpod /bin/bash
从客户端 Pod 的 shell 内部,在示例
.wav
文件上运行示例 ASR 客户端。将traefik.default.svc.cluster.local
端点(端口 80)指定为服务地址。riva_streaming_asr_client \ --audio_file=wav/en-US_sample.wav \ --automatic_punctuation=true \ --riva_uri=traefik.default.svc.cluster.local:80
扩展集群#
如上所述部署,GKE 集群仅配置单个 GPU 节点,但我们可以扩展节点。虽然单个 GPU 可以处理大量请求,但集群可以轻松地使用更多节点进行扩展。
将 GPU 节点池扩展到所需数量的计算节点(在本例中为 2 个)。
gcloud container clusters resize riva-gke --node-pool gpu-linux-workers --num-nodes 2 --zone us-central1-c
扩展
riva-api
部署以使用其他节点。kubectl scale deployments/riva-api --replicas=2
与原始 riva-api
部署一样,每个副本 Pod 在启动 Riva 服务之前都会下载并初始化必要的模型。