性能基准
我们提供了各种机器学习算法的全面基准测试, بررسی 其在各种配置下的性能。这些基准测试旨在深入了解模型训练时间、GPU 利用率、内存使用率以及在一定数量的 epoch 内的训练时间。这些基准测试中考虑的两个主要工作流程是 Auto3DSeg 和自监督学习。
评估涉及不同的 GPU 数量和类型,重点是 80GB A100 GPU。这些基准测试可以指导开发人员和研究人员为他们的特定需求和约束选择最佳配置。
解释这些结果时需要考虑的关键点
训练时间通常会随着 GPU 数量的增加而减少,但并非总是线性减少
GPU 利用率可能会随着 GPU 数量的增加而略有下降
每个 GPU 的内存使用量在不同配置中保持相对恒定
以下部分介绍了关于计算效率的 Auto3DSeg 算法的基准测试结果。TotalSegmentator 数据集已被选作演示用途,因为它是最大的公开可用的 3D 医疗图像数据集之一,包含超过 1,000 个 CT 图像及其对应的 104 个前景类别的分割注释。该数据集具有视野和器官/骨骼形状的显着变化。
为确保公平的比较,我们坚持 TotalSegmentator 中使用的原始方法,将 104 个前景类别划分为五个部分,并利用其中一个部分(包含 17 个前景类别)作为模型训练源。我们提供了 DiNTS、3D SegResNet 和 SwinUNETR 这三种算法的 5 折交叉验证中每个折叠的数值结果。需要注意的是,对于这个特定的数据集,由于数据间距分布和我们使用的内部算法选择逻辑,模型训练过程中没有使用 2D SegResNet。GPU 利用率和内存使用率是使用广泛认可的 DCGM 库评估的。
下表提供了在使用 80GB A100 GPU 和从 1 到 32 变化的 GPU 数量时,这三种算法的比较
算法 |
GPU |
GPU 数量 |
模型训练时间(小时) |
GPU 利用率 % |
---|---|---|---|---|
DiNTS | 80GB A100 | 1 | 19.0 | 92% |
DiNTS | 80GB A100 | 8 | 2.5 | 92% |
DiNTS | 80GB A100 | 16 | 1.5 | 89% |
DiNTS | 80GB A100 | 32 | 0.9 | 84% |
SegResNet (3D) | 80GB A100 | 1 | 13.8 | 92% |
SegResNet (3D) | 80GB A100 | 8 | 2.8 | 91% |
SegResNet (3D) | 80GB A100 | 16 | 1.5 | 89% |
SegResNet (3D) | 80GB A100 | 32 | 0.8 | 88% |
SwinUNETR | 80GB A100 | 1 | 15.6 | 95% |
SwinUNETR | 80GB A100 | 8 | 2.2 | 94% |
SwinUNETR | 80GB A100 | 16 | 1.0 | 93% |
SwinUNETR | 80GB A100 | 32 | 0.6 | 91% |
下表说明了 SSL(半监督学习)算法在使用大约 35,000 个 3D 体积的训练数据和不同 GPU 数量时的性能。测试是使用 80GB A100 GPU 型号进行的。
该表列出了每种配置的关键性能指标,包括 200 个 epoch 的模型训练时间、每个 GPU 的内存使用量和 GPU 利用率。这些指标深入了解了算法在训练过程中的效率和资源利用率。
算法 |
GPU |
GPU 数量 |
模型训练时间(小时) |
每个 GPU 的内存使用量 |
GPU 利用率 |
---|---|---|---|---|---|
SSL | 80GB A100 | 4 | 316 | ~72GB | 77% |
SSL | 80GB A100 | 8 | 154 | ~73GB | 86% |
SSL | 80GB A100 | 16 | 82 | ~71GB | 90% |
SSL | 80GB A100 | 32 | 54 | ~72GB | 89% |