故障排除指南
要分享有关此版本的反馈或提出问题,请访问我们的 NVIDIA TAO 开发者论坛。
从 NGC 拉取资产之前,请确保运行以下命令并按照要求的提示操作
ngc config set docker login nvcr.io
当运行
ngc config set
时,NGC CLI 可能不会提示用户配置团队和组织。在这种情况下,用户在下载模型时可能会遇到错误,提示Missing org - If apikey is set, org is also required.
请维护您在
~/.ngc/config
的 ngc 配置中现有 NGC API 密钥的备份,并通过运行以下命令清除 ngc 配置。ngc config clear
launcher CLI 抽象了用户与容器的交互,并提取了各个 docker 内部的入口点。
确保在运行 launcher 时将您的 python 设置为 python3。TAO Launcher 严格来说是一个 python3 包。
当将 TAO Launcher 安装到您主机的原生 python3(而不是推荐的使用虚拟环境的路径)时,您可能会收到一个错误,提示找不到
tao
二进制文件。这是因为 pip 安装的tao
二进制文件的路径未添加到您本地机器的PATH
环境变量中。在这种情况下,请运行以下命令export PATH=$PATH:/home/$USER/.local/bin
确保将 TAO docker 所需的所有路径通过
~/.tao_mounts.json
暴露给它。默认情况下,launcher 没有任何路径映射到它。当运行 TAO Launcher 时,对于 CV 应用程序,我们建议将 TAO Launcher 设置为以用户的主机帐户身份运行,以便用户可以拥有编辑 TAO docker 生成的结果目录和附加文件的权限。默认情况下,docker 以 root 身份实例化,因此用户将需要 sudo 访问权限才能编辑结果路径等。有关配置用户的更多信息,请参阅配置 launcher 部分。
当首次运行任何 TAO 命令时,launcher 会从 docker 注册表拉取容器。此过程可能需要几分钟。日志将如下所示
2021-02-24 08:16:04,270 [INFO] tlt.components.docker_handler.docker_handler: The required docker doesn't exist locally/the manifest has changed. Pulling a new docker. 2021-02-24 08:16:04,270 [INFO] tlt.components.docker_handler.docker_handler: Pulling the required container. This may take several minutes if you're doing this for the first time. Please wait here.
当运行 tao-converter
时,如果您遇到以下错误,请确保您使用的是正确的输出节点名称(generate_detections
、mask_fcn_logits
/BiasAdd
)
[ERROR] UffParser: Output error: Output mask_head/mask_fcn_logits/BiasAdd not found
[ERROR] Failed to parse the model, please check the encoding key to make sure it's correct
Developer Preview 中的旧节点名称为 generate_detections
、mask_head
/mask_fcn_logits
/BiasAdd
。
当运行
tao model detectnet_v2 train ...
时,如果您遇到类似于下面显示的错误,其中错误显示检查点中缺少变量,请删除最新的.ckzip
文件并使用相同的命令重新启动训练。Traceback (most recent call last): File "/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py", line 1365, in _do_call return fn(*args) File "/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py", line 1350, in _run_fn target_list, run_metadata) File "/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py", line 1443, in _call_tf_sessionrun run_metadata) tensorflow.python.framework.errors_impl.NotFoundError: 2 root error(s) found. (0) Not found: Key cost_sums/cyclist-bbox not found in checkpoint [[{{node save/RestoreV2}}]] (1) Not found: Key cost_sums/cyclist-bbox not found in checkpoint [[{{node save/RestoreV2}}]] [[save/RestoreV2/_877]]
发生此错误的原因可能如下:
检查点未正确保存。
用于生成检查点的后端框架版本与用于加载此检查点的版本不匹配。
实验配置已从检查点中存储的内容更改为已初始化的训练图。例如,检查点在 TAO 2.0 中生成,但在 3.0 中恢复。
如果您要使用不同的配置(例如,不同的类数或训练数据集大小)启动实验,请确保
tao model detectnet_v2 train
命令的-r
参数指向的目录为空,没有来自旧实验的先前生成的检查点。恢复必须仅用于完成先前使用相同命令和相同 TAO 版本启动的作业。当从检查点恢复 DetectNet_v2 训练时,请保持相同数量的 GPU 和相同的命令行以重新启动训练。