高级配置#

Config-template 文件参数定义#

虽然 config-template-examples 文件夹提供了可用的最简示例,但您可以更广泛地自定义 config-template.yml。下表详细解释了 config-template.yml 的每个属性。

BareMetal 高级配置#

参数名称

类型

可选

描述

schema_version

string

Config-Template schema 版本。

name

string

用于标识正在创建的基础设施资源的唯一名称。

spec

map

基础设施和应用程序配置。

spec > infra

string

基础设施配置。

spec > infra > csp

string

云服务提供商名称,在本例中为 bm。

spec > infra > backend

map

terraform 后端配置,用于存储基础设施状态,对于 bm,它在本地管理。

spec > infra > configs

map

附加基础设施配置。

spec > infra > configs > cns

map

NVIDIA Cloud Native Stack 配置。有关 Cloud Native Stack 的更多详细信息,请访问 NVIDIA/cloud-native-stack。

spec > infra > configs > cns > version

string

要在集群上安装的 Nvidia Cloud Native Stack 版本。默认为 12.2。

spec > infra > configs > cns > git_ref

string

Nvidia Cloud Native Stack 的 git 提交哈希值。默认情况下,它采用 master 分支的最新提交哈希值。

spec > infra > configs > cns > override_values

map

在设置集群时要覆盖的 Nvidia Cloud Native Stack 值。

spec > infra > configs > cns > override_values > cns_nvidia_driver

bool

如果要使用 run file 方法安装 nvidia 驱动程序,请设置为是,否则为否。默认为否。使用此标志以支持最新的 OS 内核。

spec > infra > configs > cns > override_values > gpu_driver_version

string

用于将 gpu_driver_version 更改为与所选 Nvidia Cloud Native Stack 版本默认安装的版本不同的配置。

spec > infra > configs > ssh_private_key_path

string

控制器实例的私钥的绝对路径。

spec > infra > configs > ssh_public_key

string

控制器实例的公钥的绝对路径。

spec > infra > configs > additional_ssh_public_keys

list

将添加到应用程序实例上的 ~/.ssh/authorized_keys 的其他 ssh 公钥的列表。

spec > infra > configs > clusters

map

要创建的集群的定义。

spec > infra > configs > clusters > app

map

要创建的 App 集群的定义。

spec > infra > configs > clusters > app > master

map

App 集群的主节点的定义。

spec > infra > configs > clusters > app > master > user

string

App 集群主节点的 ssh 用户名。

spec > infra > configs > clusters > app > master > host

string

App 集群主节点的 IP 地址。

spec > infra > configs > clusters > app > ports

map

要从应用程序公开的端口的定义。

spec > infra > configs > clusters > app > ports > app

map

应用程序端口的定义。

spec > infra > configs > clusters > app > ports > app > port

number

应用程序预期运行的端口号。

spec > infra > configs > clusters > app > ports > grafana

map

grafana 端口的定义。

spec > infra > configs > clusters > app > ports > grafana > port

number

grafana 预期运行的端口号。

spec > infra > configs > clusters > app > ports > grafana > path

string

grafana 的路径,用于着陆页 URL。

spec > infra > configs > clusters > app > ports > prometheus

map

prometheus 端口的定义。

spec > infra > configs > clusters > app > ports > prometheus > port

number

prometheus 预期运行的端口号。

spec > infra > configs > clusters > app > ports > prometheus > path

string

prometheus 的路径,用于着陆页 URL。

spec > infra > configs > clusters > app > ports > kibana

map

kibana 端口的定义。

spec > infra > configs > clusters > app > ports > kibana > port

number

kibana 正在运行的端口号。

spec > infra > configs > clusters > app > ports > kibana > path

string

kibana 的路径,用于着陆页 URL。

spec > infra > configs > clusters > app > features

map

App 集群的功能标志的定义。

spec > infra > configs > clusters > app > features > cns

bool

cns 功能标志始终为 true,因为它用于安装 Nvidia Cloud Native Stack。

spec > infra > configs > clusters > app > features > app

bool

app 功能标志始终为 true,因为它用于安装 tokkio 应用程序和其他组件。

spec > infra > configs > clusters > turn

map

turn 集群主节点的定义。

spec > infra > configs > clusters > turn > master

map

turn 集群的主节点的定义。

spec > infra > configs > clusters > turn > master > user

string

turn 节点的 ssh 用户名。

spec > infra > configs > clusters > turn > master > host

string

turn 节点的 IP 地址。

spec > infra > configs > clusters > turn > features

map

turn 集群的功能标志的定义。

spec > infra > configs > clusters > turn > features > coturn

bool

始终设置为 true。

spec > platform

map

用于更改将在集群上部署的基础图表的默认设置的配置。

spec > platform > configs

map

基础图表配置。

spec > platform > configs > k8s_namespace

string

用于部署基础图表的 Kubernetes 命名空间,默认为 platform

spec > platform > configs > k8s_secrets

list

基础图表所需的 Kubernetes 密钥列表。

spec > platform > secrets > ngc_cli_api_key

string

用于下载 helm 图表的 NGC API 密钥。

spec > app > configs > app_settings

map

用于更改默认应用程序及其 helm 图表的设置的配置。

spec > app > configs > app_settings > k8s_namespace

string

用于部署应用程序图表的 Kubernetes 命名空间,默认为 app。避免对此使用 default。

spec > app > configs > app_settings > helm_chart

map

应用程序 Helm 图表配置。

spec > app > configs > app_settings > helm_chart > repo

map

用于应用程序 helm 图表的远程仓库的配置。

spec > app > configs > app_settings > helm_chart > repo > enable

bool

表示应用程序 helm 图表是否来自远程仓库的标志。默认为 true。

spec > app > configs > app_settings > helm_chart > repo > repo_url

string

应用程序 helm 图表的 Helm 图表仓库 URL。默认为 https://helm.ngc.nvidia.com/nvidia/ace

spec > app > configs > app_settings > helm_chart > repo > chart_name

string

要从远程仓库获取的应用程序 helm 图表名称。默认为 ucs-tokkio-app-base-3-stream-llm-rag-3d-ov。

spec > app > configs > app_settings > helm_chart > repo > chart_version

string

要从远程仓库获取的应用程序 helm 图表版本。默认为 4.1.4。

spec > app > configs > app_settings > helm_chart > repo > release_name

string

使用 helm 图表部署的应用程序的发布名称。默认为 tokkio-app。

spec > app > configs > app_settings > helm_chart > repo > user_value_override_files

list

应用程序 helm 图表的用户覆盖 values.yml 的绝对路径。这是一个列表,因此可以提供多个。

spec > app > configs > app_settings > helm_chart > local

map

使用本地存在的图表更改应用程序 helm 图表部署的配置。

spec > app > configs > app_settings > helm_chart > local > enable

bool

如果要使用本地存在的应用程序 helm 图表,则为 true。

spec > app > configs > app_settings > helm_chart > local > path

string

本地存在的 helm 图表的绝对路径。

spec > app > configs > app_settings > helm_chart > local > release_name

string

使用 helm 图表部署的应用程序的发布名称。默认为 tokkio-app。

spec > app > configs > app_settings > helm_chart > local > user_value_override_files

list

用于应用程序图表部署的用户覆盖 values.yml 的绝对路径。这是一个列表,因此可以提供多个。

spec > app > configs > app_settings > k8s_secrets

list

要部署的 Kubernetes 密钥列表。

spec > app > configs > turn_server_settings

map

TURN 服务器设置部分。

spec > app > configs > turn_server_settings > coturn

map

Coturn 作为 TURN 服务器的配置详细信息。

spec > app > configs > turn_server_settings > coturn > username

string

设置 Coturn 时使用的 Coturn 服务器用户名。默认为 foo。

spec > app > configs > turn_server_settings > coturn > password

string

设置 Coturn 时使用的 Coturn 服务器密码。默认为 bar。

spec > app > configs > turn_server_settings > coturn > realm

string

Coturn 服务器的 Realm 名称。默认为 mydummyt.org

spec > app > configs > turn_server_settings > twilio

map

twilio 作为 TURN 服务器的配置详细信息。

spec > app > configs > turn_server_settings > twilio > account_sid

string

来自 twilio 帐户的 account_sid。默认为空字符串。

spec > app > configs > turn_server_settings > twilio > auth_token

string

来自 twilio 帐户的 auth_token,默认为空字符串

spec > app > configs > ui_settings

map

Tokkio UI 的配置部分。

spec > app > configs > ui_settings > resource

map

要使用的 Tokkio UI NGC 资源的配置部分。

spec > app > configs > ui_settings > resource > ngc

map

从 NGC 下载 UI 资源的 NGC 配置。

spec > app > configs > ui_settings > resource > ngc > org

string

UI 资源的 NGC 组织。默认为 nvidia

spec > app > configs > ui_settings > resource > ngc > team

string

UI 资源的 NGC 团队。默认为 ace

spec > app > configs > ui_settings > resource > ngc > name

string

UI 资源的 NGC 资源名称。默认为 tokkio_ui

spec > app > configs > ui_settings > resource > ngc > version

string

UI 资源的 NGC 资源版本。默认为 5.0.0

spec > app > configs > ui_settings > resource > ngc > file

string

UI 的 NGC 资源文件名。默认为 ui.tar.gz

spec > app > configs > ui_settings > user_env_vars

map

用于覆盖默认 UI 设置的配置。

spec > app > secrets > ngc_cli_api_key

string

用于下载 NGC UI 资源和 helm 图表的 NGC API 密钥。