TAO v5.5.0

故障排除指南

要分享有关此版本的反馈或提出问题,请访问我们的 NVIDIA TAO 开发者论坛

  • 从 NGC 拉取资产之前,请确保运行以下命令并按照要求的提示操作

    复制
    已复制!
                

    ngc config set docker login nvcr.io


  • 当运行 ngc config set 时,NGC CLI 可能不会提示用户配置团队和组织。在这种情况下,用户在下载模型时可能会遇到错误,提示

    复制
    已复制!
                

    Missing org - If apikey is set, org is also required.

    请维护您在 ~/.ngc/config 的 ngc 配置中现有 NGC API 密钥的备份,并通过运行以下命令清除 ngc 配置。

    复制
    已复制!
                

    ngc config clear


launcher CLI 抽象了用户与容器的交互,并提取了各个 docker 内部的入口点。

  • 确保在运行 launcher 时将您的 python 设置为 python3。TAO Launcher 严格来说是一个 python3 包。

  • 当将 TAO Launcher 安装到您主机的原生 python3(而不是推荐的使用虚拟环境的路径)时,您可能会收到一个错误,提示找不到 tao 二进制文件。这是因为 pip 安装的 tao 二进制文件的路径未添加到您本地机器的 PATH 环境变量中。在这种情况下,请运行以下命令

    复制
    已复制!
                

    export PATH=$PATH:/home/$USER/.local/bin


  • 确保将 TAO docker 所需的所有路径通过 ~/.tao_mounts.json 暴露给它。默认情况下,launcher 没有任何路径映射到它。

  • 当运行 TAO Launcher 时,对于 CV 应用程序,我们建议将 TAO Launcher 设置为以用户的主机帐户身份运行,以便用户可以拥有编辑 TAO docker 生成的结果目录和附加文件的权限。默认情况下,docker 以 root 身份实例化,因此用户将需要 sudo 访问权限才能编辑结果路径等。有关配置用户的更多信息,请参阅配置 launcher 部分。

  • 当首次运行任何 TAO 命令时,launcher 会从 docker 注册表拉取容器。此过程可能需要几分钟。日志将如下所示

    复制
    已复制!
                

    2021-02-24 08:16:04,270 [INFO] tlt.components.docker_handler.docker_handler: The required docker doesn't exist locally/the manifest has changed. Pulling a new docker. 2021-02-24 08:16:04,270 [INFO] tlt.components.docker_handler.docker_handler: Pulling the required container. This may take several minutes if you're doing this for the first time. Please wait here.


当运行 tao-converter 时,如果您遇到以下错误,请确保您使用的是正确的输出节点名称(generate_detectionsmask_fcn_logits/BiasAdd

复制
已复制!
            

[ERROR] UffParser: Output error: Output mask_head/mask_fcn_logits/BiasAdd not found [ERROR] Failed to parse the model, please check the encoding key to make sure it's correct

Developer Preview 中的旧节点名称为 generate_detectionsmask_head/mask_fcn_logits/BiasAdd

  • 当运行 tao model detectnet_v2 train ... 时,如果您遇到类似于下面显示的错误,其中错误显示检查点中缺少变量,请删除最新的 .ckzip 文件并使用相同的命令重新启动训练。

    复制
    已复制!
                

    Traceback (most recent call last): File "/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py", line 1365, in _do_call return fn(*args) File "/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py", line 1350, in _run_fn target_list, run_metadata) File "/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py", line 1443, in _call_tf_sessionrun run_metadata) tensorflow.python.framework.errors_impl.NotFoundError: 2 root error(s) found. (0) Not found: Key cost_sums/cyclist-bbox not found in checkpoint [[{{node save/RestoreV2}}]] (1) Not found: Key cost_sums/cyclist-bbox not found in checkpoint [[{{node save/RestoreV2}}]] [[save/RestoreV2/_877]]

    发生此错误的原因可能如下:

    • 检查点未正确保存。

    • 用于生成检查点的后端框架版本与用于加载此检查点的版本不匹配。

    • 实验配置已从检查点中存储的内容更改为已初始化的训练图。例如,检查点在 TAO 2.0 中生成,但在 3.0 中恢复。

    如果您要使用不同的配置(例如,不同的类数或训练数据集大小)启动实验,请确保 tao model detectnet_v2 train 命令的 -r 参数指向的目录为空,没有来自旧实验的先前生成的检查点。恢复必须仅用于完成先前使用相同命令和相同 TAO 版本启动的作业。

  • 当从检查点恢复 DetectNet_v2 训练时,请保持相同数量的 GPU 和相同的命令行以重新启动训练。

上一步 常见问题
下一步 支持信息
© 版权所有 2024,NVIDIA。 上次更新时间:2024 年 10 月 15 日。