故障排除与支持
DIGITS(深度学习 GPU 训练系统)是一个用于训练深度学习模型的 Web 应用程序。DIGITS 目前支持 TensorFlow 框架。DIGITS 将深度学习的力量带给工程师和数据科学家。
DIGITS 不是一个框架。DIGITS 是 TensorFlow 的一个包装器;它为这些框架提供了一个图形化的 Web 界面,而不是直接在命令行上处理它们。
DIGITS 可用于快速训练高度精确的深度神经网络 (DNN),以进行图像分类、分割、对象检测任务等。DIGITS 简化了常见的深度学习任务,例如管理数据、在多 GPU 系统上设计和训练神经网络、通过高级可视化实时监控性能,以及从结果浏览器中选择性能最佳的模型进行部署。DIGITS 是完全交互式的,因此数据科学家可以专注于设计和训练网络,而不是编程和调试。DIGITS 可通过多种渠道获得,例如:
- GitHub 下载
- NVIDIA 的 Docker 存储库,
nvcr.io
DIGITS 使用环境变量进行配置。
注意:在 #1091(直至 DIGITS 4.0)之前,DIGITS 使用配置文件而不是环境变量。
注意:DIGITS 不设计为作为暴露的外部 Web 服务运行。
2.1. 环境变量
变量 | 示例值 | 描述 |
---|---|---|
DIGITS_JOBS_DIR | ~/digits-jobs | 作业文件存储的位置。默认为 $DIGITS_ROOT/digits/jobs。 |
DIGITS_LOGFILE_FILENAME | ~/digits.log | 用于保存日志消息的文件。默认为 $DIGITS_ROOT/digits/digits.log。 |
DIGITS_LOGFILE_LEVEL | DEBUG | 要保存的最低日志消息级别(DEBUG/INFO/WARNING/ERROR/CRITICAL)。默认为 INFO。 |
DIGITS_SERVER_NAME | The Big One | 服务器的名称(可在 UI 中的“信息”下访问)。默认为系统主机名。 |
DIGITS_MODEL_STORE_URL | https://127.0.0.1/modelstore | URL 列表,以逗号分隔。默认为 NVIDIA 官方商店。 |
DIGITS_URL_PREFIX | /custom-prefix | 要添加到每个 URL 前面的路径。将主页设置为 "https://127.0.0.1/custom-prefix" 而不是 "https://127.0.0.1/"/" |
- Nvidia DIGITS 安装指南
- 为 DIGITS 安装 CUDA 和 NVIDIA 驱动程序
- Nvidia DIGITS 容器入门指南
- 请查阅用户组论坛:https://groups.google.com/forum/#!forum/digits-users
3.1. 配置
如果端口 80 上已运行另一个服务器,您可能需要重新配置 DIGITS 以使用不同的端口。
sudo dpkg-reconfigure digits
所有其他配置均通过环境变量完成。有关您可以更改哪些变量的详细信息,请参阅 Configuration.md。
- Ubuntu 14.04
- 编辑 /etc/init/digits.conf
- 添加/删除/编辑以 env 开头的行
- 使用 sudo service digits restart 重启
- Ubuntu 16.04
- 编辑 /lib/systemd/system/digits.service
- 在 [Service] 部分中添加/删除/编辑以 Environment= 开头的行
- 使用 sudo systemctl daemon-reload && sudo systemctl restart digits 重启
3.2. 驱动程序安装
如果您尝试在 DIGITS 服务器运行时安装新驱动程序,您会收到有关 CUDA 正在使用的错误。在安装驱动程序之前关闭服务器,然后在安装后重新启动它。
- Ubuntu 14.04
sudo service digits stop # (install driver) sudo service digits start
- Ubuntu 16.04
sudo systemctl stop digits # (install driver) sudo systemctl start digits
3.3. 权限
DIGITS 服务器以 www-data 身份运行,因此请记住,用于通用模型的预构建 LMDB 数据集需要可供 www-data 用户读取。特别是,从 / 到您的数据的整个目录链都必须可供 www-data 读取。
3.4. 其他
要提交新问题,请访问:https://github.com/login?return_to=https%3A%2F%2Fgithub.com%2FNVIDIA%2FDIGITS%2Fissues%2Fnew
要通过打开拉取请求进行贡献:https://help.github.com/articles/about-pull-requests/
注意
您需要将 贡献者许可协议 的签名副本发送至 digits@nvidia.com,您的更改才能被接受。
有关最新的发行说明,请参阅 DIGITS 发行说明文档网站 (https://docs.nvda.net.cn/deeplearning/digits/digits-release-notes/index.html )。有关 DIGITS 的更多信息,请参阅:
- DIGITS 网站 (https://developer.nvidia.com/digits )
- DIGITS 项目 (https://github.com/NVIDIA/DIGITS/blob/digits-5.0/README.md )
- GitHub 文档 (https://github.com/NVIDIA/nvidia-docker/wiki/DIGITS )
注意:NVIDIA-docker 镜像和此镜像之间可能存在细微差异。
声明
本文档仅供参考,不应被视为对产品的特定功能、条件或质量的保证。NVIDIA Corporation(“NVIDIA”)对本文档中包含的信息的准确性或完整性不作任何明示或暗示的陈述或保证,并且对本文档中包含的任何错误不承担任何责任。NVIDIA 对因使用此类信息或因使用此类信息而可能导致的侵犯专利或第三方的其他权利的行为不承担任何责任。本文档不构成对开发、发布或交付任何材料(定义如下)、代码或功能的承诺。
NVIDIA 保留在任何时候不经通知对本文档进行更正、修改、增强、改进和任何其他更改的权利。
客户在下订单前应获取最新的相关信息,并应验证此类信息是否为最新且完整。
NVIDIA 产品的销售受 NVIDIA 在订单确认时提供的标准销售条款和条件的约束,除非 NVIDIA 和客户的授权代表签署的个别销售协议(“销售条款”)另有约定。NVIDIA 在此明确反对将任何客户通用条款和条件应用于购买本文档中引用的 NVIDIA 产品。本文档不直接或间接地形成任何合同义务。
NVIDIA 产品并非设计、授权或保证适用于医疗、军事、航空、航天或生命支持设备,也不适用于 NVIDIA 产品的故障或故障可合理预期会导致人身伤害、死亡或财产或环境损害的应用。NVIDIA 对在上述设备或应用中包含和/或使用 NVIDIA 产品不承担任何责任,因此,此类包含和/或使用由客户自行承担风险。
NVIDIA 不保证基于本文档的产品适用于任何特定用途。NVIDIA 不一定对每个产品的所有参数进行测试。客户有责任评估和确定本文档中包含的任何信息的适用性,确保产品适合并满足客户计划的应用,并为应用执行必要的测试,以避免应用或产品的默认设置。客户产品设计中的缺陷可能会影响 NVIDIA 产品的质量和可靠性,并可能导致超出本文档中包含的附加或不同条件和/或要求。对于可能基于或归因于以下原因的任何默认设置、损坏、成本或问题,NVIDIA 不承担任何责任:(i) 以任何与本文档相悖的方式使用 NVIDIA 产品,或 (ii) 客户产品设计。
本文档未授予 NVIDIA 专利权、版权或 NVIDIA 其他知识产权下的任何明示或暗示的许可。NVIDIA 发布的有关第三方产品或服务的信息不构成 NVIDIA 授予使用此类产品或服务的许可,也不构成对其的保证或认可。使用此类信息可能需要获得第三方专利或第三方其他知识产权下的许可,或获得 NVIDIA 专利或 NVIDIA 其他知识产权下的许可。
只有在事先获得 NVIDIA 书面批准、未经修改地复制并完全遵守所有适用的出口法律和法规以及附带所有相关的条件、限制和声明的情况下,才允许复制本文档中的信息。
本文档和所有 NVIDIA 设计规范、参考板、文件、图纸、诊断程序、列表和其他文档(统称为“材料”)均按“原样”提供。NVIDIA 对材料不作任何明示、暗示、法定或其他方面的保证,并且明确声明不承担所有关于不侵权、适销性和特定用途适用性的暗示保证。在法律未禁止的范围内,在任何情况下,NVIDIA 均不对因使用本文档而引起的任何损害(包括但不限于任何直接、间接、特殊、附带、惩罚性或后果性损害,无论其发生原因和责任理论如何)负责,即使 NVIDIA 已被告知可能发生此类损害。尽管客户可能因任何原因而遭受任何损害,但 NVIDIA 对本文所述产品的客户承担的累计总责任应根据产品的销售条款进行限制。
VESA DisplayPort
DisplayPort 和 DisplayPort Compliance Logo、DisplayPort Compliance Logo for Dual-mode Sources 以及 DisplayPort Compliance Logo for Active Cables 是视频电子标准协会在美国和其他国家/地区拥有的商标。
HDMI
HDMI、HDMI 徽标和 High-Definition Multimedia Interface 是 HDMI Licensing LLC 的商标或注册商标。
OpenCL
OpenCL 是 Apple Inc. 的商标,已获得 Khronos Group Inc. 的许可使用。
商标
NVIDIA、NVIDIA 徽标以及 cuBLAS、CUDA、cuDNN、DALI、DIGITS、DGX、DGX-1、DGX-2、DGX Station、DLProf、Jetson、Kepler、Maxwell、NCCL、Nsight Compute、Nsight Systems、NvCaffe、PerfWorks、Pascal、SDK Manager、Tegra、TensorRT、Triton Inference Server、Tesla、TF-TRT 和 Volta 是 NVIDIA Corporation 在美国和其他国家/地区的商标和/或注册商标。其他公司和产品名称可能是与其相关的各自公司的商标。