故障排除#

已知问题#

  • 某些用户可能会由于 UCC 中 NCCL 的延迟初始化而遇到挂起。 要禁用 NCCL 的延迟初始化,请将 UCC_TL_NCCL_LAZY_INIT 环境变量设置为 no

  • 某些用户可能会看到 HPC-X v2.18 的错误,这是由于在 OMPI 和 cuBLASMp 中初始化的 UCC 冲突引起的。 要禁用 OMPI 中的 UCC 初始化,请将 OMPI_MCA_coll_ucc_enable 环境变量设置为 0