概述
TAO 提供了一个广泛的模型库,其中包含用于计算机视觉用例的预训练模型。
您可以从以下三种类型的预训练模型开始
基础模型:基础模型是大规模机器学习模型,它们是在海量数据上大规模训练的。这些模型通常使用某种形式的自监督或半监督训练算法进行训练。基础模型的主要目标是作为一个起点,可以适应各种下游任务。
专用预训练模型:这些是高精度的模型,它们在数千个数据输入上针对特定任务进行训练。这些面向领域的模型可以直接用于推理,也可以与 TAO 一起用于在您自己的数据集上进行迁移学习。
预训练权重:这些模型的预训练权重仅作为构建更复杂模型的起点。对于计算机视觉用例,这些预训练权重是在 Open Image 数据集上训练的,与从随机初始化权重开始相比,它们为训练提供了更好的起点。

您可以从 100 多种模型架构和主干的排列组合中选择通用视觉模型。
基础模型
模型名称 |
描述 |
NGC 实例 |
TAO 微调 |
---|---|---|---|
TAO 商用预训练 NV-CLIP 模型 | TAO 商用预训练 NV-CLIP ViT-H 模型 | nvidia/tao/nvclip_vit | 否 |
TAO 商用预训练 NV-Dinov2 模型 | TAO 商用预训练 NV-Dinov2 模型 ViT-G 主干 | nvidia/tao/nvdinov2_vitg | 使用 classification_pyt、DINO 和 visual changenet 进行下游微调 |
SegIC | 在商业数据上训练的上下文分割模型。 | nvidia/tao/segic | 否 |
Mask Grounding DINO | 在商业数据上训练的开放词汇多模态实例分割模型。 | nvidia/tao/mask_grounding_dino | 是 |
Grounding DINO | 在商业数据上训练的开放词汇多模态对象检测模型。 | nvidia/tao/grounding_dino | 是 |
TAO Toolkit ODISE 1.1 | 从先前的 OCDNet 模型识别字符的模型。 | nvidia/tao/odise | 是(仅限源代码) |
Mask Auto Label | 用于生成语义分割标签的预训练模型。 | nvidia/tao/mask_auto_label | 是 |
FoundationPose | 6-DoF 对象姿态估计和跟踪,提供对象姿态和 3D 边界框 | nvidia/tao/foundationpose | 否 |
专用模型
模型名称 |
描述 |
NGC 实例 |
TAO 微调 |
---|---|---|---|
用于 3D 对象检测的 BEVFusion | 用于从点云和 RGB 数据检测 3D 对象的 BEVFusion 模型。 | nvidia/tao/bevfusion | 是 |
Action Recognition Net | 5 类动作识别网络,用于识别图像中人们在做什么。 | nvidia/tao/actionrecognitionnet | 是 |
ReidentifcationNet Transformer | 基于 SWIN Transformer 的重识别网络,用于生成嵌入,以识别不同场景中的人物。 | nvidia/tao/reidentificationnet_transformer | 是 |
ReIdentificationNet | 重识别网络,用于生成嵌入,以识别不同场景中的人物。 | nvidia/tao/reidentificationnet | 是 |
CenterPose - ISAAC Ros | 用于零售物体的 3 姿态检测模型。 | nvidia/tao/centerpose_ros | 是 |
光学字符识别 | 从先前的 OCDNet 模型识别字符的模型。 | nvidia/tao/ocrnet | 是 |
零售对象检测 | 基于 DINO(具有改进的去噪锚框的 DETR)的对象检测网络,用于检测结账柜台上的零售物体。 | nvidia/tao/retail_object_detection | 是 |
姿态分类 | 姿态分类网络,用于从人的骨骼对人的姿势进行分类。 | nvidia/tao/poseclassificationnet | 是 |
PointPillarNet | 用于从 LIDAR 点云文件检测一个或多个对象并返回 3D 边界框的模型。 | nvidia/tao/pointpillarnet | 是 |
PeopleSemSegNet - AMR | 图像中人物的语义分割。 | nvidia/tao/peoplesemsegnet_amr | 是 |
PeopleSemSegnet | 图像中人物的语义分割。 | nvidia/tao/peoplesemsegnet | 是 |
PeopleSegNet | 1 类实例分割网络,用于检测和分割图像中人的实例。 | nvidia/tao/peoplesegnet | 是 |
PeopleNet Transformer | 3 类对象检测网络,用于检测图像中的人物。 | nvidia/tao/peoplenet_transformer | 是 |
PeopleNet - AMR | 3 类对象检测网络,用于检测图像中的人物。 | nvidia/tao/peoplenet_amr | 是 |
PeopleNet | 3 类对象检测网络,用于检测图像中的人物。 | nvidia/tao/peoplenet | 是 |
Multiple 3D CenterPose | 用于类别级对象姿态估计的单阶段、基于关键点的方法 | nvidia/tao/multiclass_3d_centerpose | 是 |
零售对象识别 | 用于识别结账柜台上物体的嵌入生成器模型。 | nvidia/tao/retail_object_recognition | 是 |
PeopleSemSegformer | 用于分割图像中人物的模型。 | nvidia/tao/peoplesemsegformer | 是 |
PeopleNet Transformer v2.0 | 3 类对象检测网络,用于检测图像中的人物。 | nvidia/tao/peoplenet_transformer_v2 | 是 |
Visual ChangeNet - Segmentation | Visual ChangeNet - Segmentation | nvidia/tao/visual_changenet_segmentation_landsatscd | 是 |
CenterPose | 用于零售物体的 3 姿态检测模型。 | nvidia/tao/centerpose | 是 |
Visual ChangeNet Segmentation - MvTEC | 变更分割模型。 | nvidia/tao/visual_changenet_segmentation_mvtec | 是 |
光学检测 | 用于检测印刷电路板上焊接组件缺陷的模型。 | nvidia/tao/optical_inspection | 是 |
PCB 缺陷分类 | 用于对印刷电路板上焊接组件的缺陷进行分类的模型。 | nvidia/tao/pcb_classification | 是 |
Visual ChangeNet Segmentation - (仅限研究) | Visual ChangeNet-Segmentation(仅限研究) | nvidia/tao/visual_changenet_segmentation_levircd | 是 |
Visual ChangeNet Classification | Visual ChangeNet - 分类模型 | nvidia/tao/visual_changenet_classification | 是 |
FaceDetect | 从图像中检测人脸。 | nvidia/tao/facenet | 是 |
FaceDetectIR | 1 类对象检测网络,用于检测图像中的人脸。 | nvidia/tao/facedetectir | 是 |
HeartRateNet | 从 RGB 面部视频非侵入式地估计心率。 | nvidia/tao/heartratenet | 是 |
Gaze Estimation | 检测人的注视点和注视向量。 | nvidia/tao/gazenet | 是 |
Facial Landmarks Estimation | 从人脸图像中检测基准关键点。 | nvidia/tao/fpenet | 是 |
EmotionNet | 用于对面部表情进行分类的网络。 | nvidia/tao/emotionnet | 是 |
GestureNet | 从手部裁剪图像中对手势进行分类。 | nvidia/tao/gesturenet | 是 |
License Plate Recognition | 用于识别车牌裁剪图像中字符的模型。 | nvidia/tao/lprnet | 是 |
LPDNet | 对象检测网络,用于检测汽车图像中的车牌。 | nvidia/tao/lpdnet | 是 |
DashCamNet | 4 类对象检测网络,用于检测图像中的汽车。 | nvidia/tao/dashcamnet | 是 |
CitySemSegFormer | 图像中人物的语义分割。 | nvidia/tao/citysemsegformer | 是 |
BodyPoseNet | 从图像中检测人体姿势。 | nvidia/tao/bodyposenet | 是 |
Optical Character Detection | 用于检测图像中字符的网络。 | nvidia/tao/ocdnet | 是 |
VehicleTypeNet | Resnet18 模型,用于将汽车裁剪图像分类为 6 种汽车类型之一。 | nvidia/tao/vehicletypenet | 是 |
VehicleMakeNet | Resnet18 模型,用于将汽车裁剪图像分类为 20 个汽车品牌之一。 | nvidia/tao/vehiclemakenet | 是 |
TrafficCamNet | 4 类对象检测网络,用于检测图像中的汽车。 | nvidia/tao/trafficcamnet | 是 |
BodyPose3DNet | 3D 人体姿态估计网络,用于预测图像中人的 34 个 3D 关键点。 | nvidia/tao/bodypose3dnet | 否 |
预训练模型
模型名称 |
描述 |
NGC 实例 |
---|---|---|
Mask2Former | 在 COCO 数据上训练的二元实例分割模型。 | nvidia/tao/mask2former |
TAO 预训练语义分割 | 预训练权重,以使用迁移学习工具包促进迁移学习。 | nvidia/tao/pretrained_semantic_segmentation |
TAO 预训练实例分割 | 预训练权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_instance_segmentation |
TAO 预训练 EfficientDet | 预训练权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_efficientdet |
TAO 预训练 DetectNet V2 | 预训练权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_detectnet_v2 |
TAO 预训练分类 | 预训练权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_classification |
TAO 预训练对象检测 | 预训练权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_object_detection |
预训练 SegFormer ImageNet 权重 | 在 ImageNet 上训练的预训练 SegFormer 权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_segformer_imagenet |
预训练 EfficientDet NvImageNet 主干 | 在 NvImageNet 上训练的预训练 EfficientNet 主干权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_efficientdet_tf2_nvimagenet |
在 COCO 上训练的预训练 EfficientDet 模型 | 在 COCO 上训练的预训练 EfficientDet 模型,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_efficientdet_tf2_coco |
Deformable DETR | 在 COCO2017 上训练的模型,用于检测和分类对象。 | nvidia/tao/pretrained_deformable_detr_coco |
DINO | 在 COCO2017 上训练的模型,用于检测和分类对象。 | nvidia/tao/pretrained_dino_coco |
TAO 预训练 DINO 与基础模型主干 | TAO 预训练 DINO 与基础模型主干 | nvidia/tao/dino_with_fm_backbone |
在 COCO 上使用 NVDinoV2 主干的 DINO | 在 COCO2017 上训练的模型,用于检测和分类对象。 | nvidia/tao/pretrained_nvdinov2_dino_coco |
预训练基于 FasterViT 的 ImageNet 分类权重 | 在 ImageNet 上训练的预训练 FasterViT 权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_fastervit_classification_imagenet |
预训练基于 FasterViT 的 NVImageNet 分类权重 | 在 NVImageNet 上训练的预训练 FasterViT 权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_fastervit_classification_nvimagenet |
预训练 GCViT ImageNet 分类权重 | 在 ImageNet 上训练的预训练 GCViT 权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_gcvit_classification_imagenet |
预训练 Deformable DETR NvImageNet 权重 | 在 NvImageNet 上训练的预训练 deformable_detr 权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_deformable_detr_nvimagenet |
预训练基于 FAN 的 ImageNet 分类权重 | 在 ImageNet 上训练的预训练 FAN 权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_fan_classification_imagenet |
预训练基于 FAN 的 NVImageNet 分类权重 | 在 NVImageNet 上训练的预训练 FAN 权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_fan_classification_nvimagenet |
预训练 DINO ImageNet 权重 | 在 ImageNet 上训练的预训练 DINO 权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_dino_imagenet |
预训练 Segformer - CityScapes | 在 CityScapes 上训练的预训练 segformer 模型。 | nvidia/tao/pretrained_segformer_cityscapes |
预训练 SegFormer NvImageNet 权重 | 在 NvImageNet 上训练的预训练 SegFormer 权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_segformer_nvimagenet |
预训练 GCViT NVImageNet 分类权重 | 在 NVImageNet 上训练的预训练 GcViT 权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_gcvit_classification_nvimagenet |
预训练 DINO NvImageNet 权重 | 在 NvImageNet 上训练的预训练 DINO 权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_dino_nvimagenet |
预训练 Deformable DETR ImageNet 权重 | 在 ImageNet 上训练的预训练 deformable_detr 权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_deformable_detr_imagenet |
预训练 Mask Auto Label | 预训练模型,以促进 TAO Toolkit 上 MAL 的迁移学习 | nvidia/tao/pretrained_mask_auto_label |
预训练 ImageNet 主干权重 | 在 ImageNet 上训练的预训练权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_imagenet_backbones |
预训练 NVImageNet 主干权重 | 在 NVImageNet 上训练的预训练权重,以使用 TAO Toolkit 促进迁移学习。 | nvidia/tao/pretrained_nvimagenet_backbones |
TAO 预训练 EfficientDet-TF2 | 用于 TAO Toolkit 的 efficientdet-tf2 的预训练 efficientnet 主干 | nvidia/tao/pretrained_efficientdet_tf2 |
TAO 预训练 Classification-TF2 | 用于 TAO Toolkit TF2 图像分类的预训练主干 | nvidia/tao/pretrained_classification_tf2 |
性能指标
下表总结了这些预训练模型在各种 NVIDIA 平台上的性能。表中的数字是使用 TensorRT 示例中的 trtexec 工具测量的推理性能。
模型名称 |
架构 |
推理分辨率 |
精度 |
GPU BS |
GPU FPS |
DLA1 + DLA2 BS |
DLA1 + DLA2 FPS |
---|---|---|---|---|---|---|---|
PeopleNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 16 | 400 | 16 | 300 |
PeopleNet (v2.3) | DetectNet_v2 - ResNet34 | 960x544x3 | INT8 | 32 | 314 | 32 | 226 |
PeopleNet (v2.5 未剪枝) | DetectNet_v2 - ResNet34 | 960x544x3 | INT8 | 16 | 140 | 32 | 70 |
TrafficCamNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 16 | 457 | 16 | 352 |
DashCamNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 32 | 479 | 64 | 358 |
FaceDetect-IR | DetectNet_v2 - ResNet18 | 384x240x3 | INT8 | 64 | 2588 | 64 | 1700 |
VehilceMakeNet | ResNet18 | 224x224x3 | INT8 | 64 | 4261 | 64 | 2218 |
VehicleTypeNet | ResNet18 | 224x224x3 | INT8 | 64 | 3391 | 64 | 2044 |
FaceDetect (剪枝) | DetectNet_v2 - ResNet18 | 736x416x3 | INT8 | 32 | 613 | 32 | 492 |
License Plate Detection v1.0 | DetectNet_v2 - ResNet18 | 640x480x3 | INT8 | 32 | 32 | ||
License Plate Recognition | ResNet | 96x48x3 | FP16 | 128 | 1498 | – | – |
面部地标 | 80x80x1 | FP16 | 32 | 1606 | – | – | |
GazeNet | 224x224x1, 224x224x1, 224x224x1, 25x25x1 | FP16 | 64 | 1241 | – | – | |
GestureNet | 160x160x3 | FP16 | 64 | 5420 | – | – | |
BodyPose | 288x384x3 | INT8 | 16 | 195 | – | – | |
Action Recognition 2D RGB | 2D CNN | 224x224x96 | FP16 | 32 | 577 | – | – |
Action Recognition 3D RGB | 3D CNN | 224x224x32x3 | FP16 | 4 | 38 | – | – |
Action Recognition 2D OF | 2D 光流 | 224x224x96 | FP16 | 16 | 826 | – | – |
Action Recognition 3D OF | 3D 光流 | 224x224x32x3 | FP16 | 4 | 42 | – | – |
Point Pillar | Point Pillar | FP16 | 1 | 38 | – | – | |
姿态分类 | ST-GCN | FP16 | 8 | 105 | – | – | |
3D 姿态 - 精度 | FP16 | 16 | 241 | – | – | ||
3D 姿态 - 性能 | FP16 | 16 | 295 | – | – | ||
PeopleSemSegNet_v2 - Shuffle | UNET - Shuffle | 960x544x3 | FP16 | 16 | 289 | – | – |
PeopleSemSegNet_v2 - Vanilla | UNET - Vanilla | 960x544x3 | FP16 | 4 | 27 | – | – |
PeopleNet Transformer | D-DETR | 960x544x3 | FP16 | 2 | 13 | – | – |
ReidentificationNet | ResNet50 | 3x256x18 | FP16 | 64 | 1049 | – | – |
RetailObjectDetection v1.0 - 100 类 | EfficientNet-D5 | 416x416x3 | FP16 | 16 | 48 | – | – |
RetailObjectDetection v1.0 - 二元 | EfficientNet-D5 | 416x416x3 | FP16 | 16 | 45 | – | – |
RetailObjectEmbedding v1.0 | ResNet101 | 3x224x224 | FP16 | 32 | 544 | – | – |
CitySemSegFormer v1.0 | SegFormer | FP16 | 1 | 0.6 | – | – | |
ImageNet 分类 | FAN-T-H | 224x224x3 | FP16 | 4 | 146.6 | – | – |
ImageNet 分类 | FAN-S-H | 224x224x3 | FP16 | 4 | 94.5 | – | – |
ImageNet 分类 | FAN-B-H | 224x224x3 | FP16 | 4 | 62 | – | – |
ImageNet 分类 | FAN-L-H | 224x224x3 | FP16 | 4 | 43.9 | – | – |
ImageNet 分类 | FAN-XL-H | 224x224x3 | FP16 | 4 | 39.9 | – | – |
ImageNet 分类 | GC-ViT-xxTiny | 224x224x3 | FP16 | 8 | 212 | – | – |
ImageNet 分类 | GC-ViT-xTiny | 224x224x3 | FP16 | 8 | 163 | – | – |
ImageNet 分类 | GC-ViT-T | 224x224x3 | FP16 | 8 | 110 | – | – |
ImageNet 分类 | GC-ViT-S | 224x224x3 | FP16 | – | – | ||
ImageNet 分类 | GC-ViT-B | 224x224x3 | FP16 | 4 | 51.2 | – | – |
ImageNet 分类 | GC-ViT-L | 224x224x3 | FP16 | 4 | 28.8 | – | – |
ImageNet 分类 | GC-ViT-L-384 | 384x384x3 | FP16 | 1 | 10.4 | – | – |
ImageNet 分类 | FAN-B-H-384 (384 分辨率) | 384x384x3 | FP16 | 4 | 23.4 | – | – |
ImageNet 分类 | FAN-L-H-384 | 384x384x3 | FP16 | – | – | ||
ImageNet 分类 | EfficientNetB0 | 224x224x3 | FP16 | 64 | 870 | – | – |
ImageNet 分类 | EfficientNetB1 | 224x224x3 | FP16 | 64 | 344 | – | – |
ImageNet 分类 | EfficientNetB2 | 224x224x3 | FP16 | 32 | 313 | – | – |
ImageNet 分类 | EfficientNetB3 | 224x224x3 | FP16 | 32 | 234 | – | – |
ImageNet 分类 | EfficientNetB4 | 224x224x3 | FP16 | 32 | 175 | – | – |
ImageNet 分类 | EfficientNetB5 | 224x224x3 | FP16 | 16 | 123 | – | – |
COCO 对象检测 | DDETR+RN50 | 960x544x3 | FP16 | 1 | 9.6 | – | – |
COCO 对象检测 | DDETR + GCViT-T | 960x544x3 | FP16 | 1 | 5.2 | – | – |
COCO 对象检测 | DINO + RN50 | 960x544x3 | FP16 | 1 | 8.4 | – | – |
COCO 对象检测 | DINO + FAN-S | 960x544x3 | FP16 | 1 | 4.4 | – | – |
COCO 对象检测 | DINO + GC-ViT-T | 960x544x3 | FP16 | 1 | 4.9 | – | – |
COCO 对象检测 | DINO + FAN-L | 960x544x3 | FP16 | 1 | 2.6 | – | – |
Cityscapes 分割 | SegFormer + FAN-T-H | 224x224x3 | FP16 | – | – | ||
Cityscapes 分割 | Segformer + FAN-S-H | 224x224x3 | FP16 | – | – | ||
Cityscapes 分割 | SegFormer + FAN-B-H | 224x224x3 | FP16 | – | – | ||
Cityscapes 分割 | SegFormer + FAN-L-H | 224x224x3 | FP16 | – | – | ||
RetailObjectDetection v2.0 - 二元 | Efficientdet-D5 | 960x544x3 | FP16 | – | – | ||
RetailObjectDetection v2.0 - 二元 | DINO-FAN_base | 960x544x3 | FP16 | 1 | 3.4 | – | – |
RetailObjectDetection v2.0 - Meta | DINO-FAN_base | 960x544x3 | FP16 | 1 | 3.4 | – | – |
RetailObjectEmbedding v2.0 | FAN-B-H | 224x224x3 | FP16 | 4 | 59.8 | – | – |
RetailObjectEmbedding v2.0 | FAN-L-H | 224x224x3 | FP16 | 4 | 41.9 | – | – |
RetailObjectEmbedding v2.0 | NVCLIP-B | 224x224x3 | FP16 | 16 | 575 | – | – |
Siamese Optical Inspection | Siamese CNN | 2x512x128x3 | FP16 | 16 | 482 | – | – |
OCDNet | DCN-RN18 | 640x640x3 | FP16 | 2 | 45 | – | – |
OCDNet | DCN-RN50 | 640x640x3 | FP16 | 2 | 22 | – | – |
OCRNet | ResNet50 + Bi-LSTM 剪枝 | 32x100x3 | FP16 | 64 | 1373 | – | – |
OCRNet | ResNet50 + Bi-LSTM 未剪枝 | 32x100x3 | FP16 | 64 | 1051 | – | – |
PCB 检测 | GC-ViT-xxTiny | 224x224x3 | FP16 | 4 | 198 | – | – |
CitySemSegFormer v2.0 | Segformer + MIT | 1024x1024x3 | FP16 | 1 | 1.9 | – | – |
CitySemSegFormer v2.0 | SegFormer + FAN -B-H | 1024x1024x3 | FP16 | 1 | 1.78 | – | – |
PeopleSemSegFormer v2.0 | SegFormer + FAN-B-H | 512x512x3 | FP16 | – | – | ||
Visual ChangeNet Classification | Visual ChangeNet + FAN -S-H | 512x128x3 | FP16 | 16 | 44.7 | – | – |
Visual ChangeNet Segmentation | Visual ChangeNet + FAN -B-H | 256x256x3 | FP16 | 16 | 21.92 | – | – |
CenterPose | DLA34 | 512x512x3 | FP16 | 1 | 27.74 | – | – |
CenterPose | FAN-S-H | 512x512x3 | FP16 | 1 | 11.35 | – | – |
模型名称 |
架构 |
推理分辨率 |
精度 |
GPU BS |
GPU FPS |
DLA1 + DLA2 BS |
DLA1 + DLA2 FPS |
---|---|---|---|---|---|---|---|
PeopleNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 32 | 1116 | 32 | 528 |
PeopleNet (v2.3) | DetectNet_v2 - ResNet34 | 960x544x3 | INT8 | 32 | 890 | 32 | 404 |
PeopleNet (v2.5 未剪枝) | DetectNet_v2 - ResNet34 | 960x544x3 | INT8 | 16 | 421 | 32 | 104 |
TrafficCamNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 32 | 1268 | 32 | 594 |
DashCamNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 32 | 1308 | 64 | 587 |
FaceDetect-IR | DetectNet_v2 - ResNet18 | 384x240x3 | INT8 | 128 | 7462 | 128 | 2720 |
VehilceMakeNet | ResNet18 | 224x224x3 | INT8 | 128 | 11872 | 128 | 3956 |
VehicleTypeNet | ResNet18 | 224x224x3 | INT8 | 128 | 9815 | 128 | 3494 |
FaceDetect (剪枝) | DetectNet_v2 - ResNet18 | 736x416x3 | INT8 | 64 | 1700 | 64 | 870 |
License Plate Detection v1.0 | DetectNet_v2 - ResNet18 | 640x480x3 | INT8 | 64 | 64 | ||
License Plate Recognition | ResNet | 96x48x3 | FP16 | 128 | 4118 | – | – |
面部地标 | 80x80x1 | FP16 | 64 | – | – | ||
GazeNet | 224x224x1, 224x224x1, 224x224x1, 25x25x1 | FP16 | 128 | 3226 | – | – | |
GestureNet | 160x160x3 | FP16 | 128 | 15133 | – | – | |
BodyPose | 288x384x3 | INT8 | 16 | 559 | – | – | |
Action Recognition 2D RGB | 2D CNN | 224x224x96 | FP16 | 64 | 1577 | – | – |
Action Recognition 3D RGB | 3D CNN | 224x224x32x3 | FP16 | 8 | 105 | – | – |
Action Recognition 2D OF | 2D 光流 | 224x224x96 | FP16 | 32 | 1702 | – | – |
Action Recognition 3D OF | 3D 光流 | 224x224x32x3 | FP16 | 4 | 109 | – | – |
Point Pillar | Point Pillar | FP16 | 1 | 90 | – | – | |
姿态分类 | ST-GCN | FP16 | 16 | 262 | – | – | |
3D 姿态 - 精度 | FP16 | 16 | 597 | – | – | ||
3D 姿态 - 性能 | FP16 | 16 | 711 | – | – | ||
PeopleSemSegNet_v2 - Shuffle | UNET - Shuffle | 960x544x3 | FP16 | 32 | 703 | – | – |
PeopleSemSegNet_v2 - Vanilla | UNET - Vanilla | 960x544x3 | FP16 | 4 | 75 | – | – |
PeopleNet Transformer | D-DETR | 960x544x3 | FP16 | 2 | 33 | – | – |
ReidentificationNet | ResNet50 | 3x256x18 | FP16 | 64 | 2772 | – | – |
RetailObjectDetection v1.0 - 100 类 | EfficientNet-D5 | 416x416x3 | FP16 | 16 | 121 | – | – |
RetailObjectDetection v1.0 - 二元 | EfficientNet-D5 | 416x416x3 | FP16 | 16 | 114 | – | – |
RetailObjectEmbedding v1.0 | ResNet101 | 3x224x224 | FP16 | 32 | 1355 | – | – |
CitySemSegFormer v1.0 | SegFormer | FP16 | 1 | 1.5 | – | – | |
ImageNet 分类 | FAN-T-H | 224x224x3 | FP16 | 8 | 385 | – | – |
ImageNet 分类 | FAN-S-H | 224x224x3 | FP16 | 8 | 255 | – | – |
ImageNet 分类 | FAN-B-H | 224x224x3 | FP16 | 8 | 166 | – | – |
ImageNet 分类 | FAN-L-H | 224x224x3 | FP16 | 8 | 117 | – | – |
ImageNet 分类 | FAN-XL-H | 224x224x3 | FP16 | 8 | 106 | – | – |
ImageNet 分类 | GC-ViT-xxTiny | 224x224x3 | FP16 | 16 | 559 | – | – |
ImageNet 分类 | GC-ViT-xTiny | 224x224x3 | FP16 | 16 | 431 | – | – |
ImageNet 分类 | GC-ViT-T | 224x224x3 | FP16 | 16 | 293 | – | – |
ImageNet 分类 | GC-ViT-S | 224x224x3 | FP16 | – | – | ||
ImageNet 分类 | GC-ViT-B | 224x224x3 | FP16 | 8 | 138 | – | – |
ImageNet 分类 | GC-ViT-L | 224x224x3 | FP16 | 8 | 80.7 | – | – |
ImageNet 分类 | GC-ViT-L-384 | 384x384x3 | FP16 | 4 | 28.1 | – | – |
ImageNet 分类 | FAN-B-H-384 (384 分辨率) | 384x384x3 | FP16 | 8 | 61.2 | – | – |
ImageNet 分类 | FAN-L-H-384 | 384x384x3 | FP16 | – | – | ||
ImageNet 分类 | EfficientNetB0 | 224x224x3 | FP16 | 64 | 2152 | – | – |
ImageNet 分类 | EfficientNetB1 | 224x224x3 | FP16 | 64 | 860 | – | – |
ImageNet 分类 | EfficientNetB2 | 224x224x3 | FP16 | 64 | 811 | – | – |
ImageNet 分类 | EfficientNetB3 | 224x224x3 | FP16 | 64 | 609 | – | – |
ImageNet 分类 | EfficientNetB4 | 224x224x3 | FP16 | 64 | 451 | – | – |
ImageNet 分类 | EfficientNetB5 | 224x224x3 | FP16 | 32 | 318 | – | – |
COCO 对象检测 | DDETR+RN50 | 960x544x3 | FP16 | 4 | 25.8 | – | – |
COCO 对象检测 | DDETR + GCViT-T | 960x544x3 | FP16 | 4 | 14.2 | – | – |
COCO 对象检测 | DINO + RN50 | 960x544x3 | FP16 | 4 | 22 | – | – |
COCO 对象检测 | DINO + FAN-S | 960x544x3 | FP16 | 4 | 11.2 | – | – |
COCO 对象检测 | DINO + GC-ViT-T | 960x544x3 | FP16 | 4 | 13 | – | – |
COCO 对象检测 | DINO + FAN-L | 960x544x3 | FP16 | 1 | 6.2 | – | – |
Cityscapes 分割 | SegFormer + FAN-T-H | 224x224x3 | FP16 | – | – | ||
Cityscapes 分割 | Segformer + FAN-S-H | 224x224x3 | FP16 | – | – | ||
Cityscapes 分割 | SegFormer + FAN-B-H | 224x224x3 | FP16 | – | – | ||
Cityscapes 分割 | SegFormer + FAN-L-H | 224x224x3 | FP16 | – | – | ||
RetailObjectDetection v2.0 - 二元 | Efficientdet-D5 | 960x544x3 | FP16 | – | – | ||
RetailObjectDetection v2.0 - 二元 | DINO-FAN_base | 960x544x3 | FP16 | 1 | 8.1 | – | – |
RetailObjectDetection v2.0 - Meta | DINO-FAN_base | 960x544x3 | FP16 | 1 | 8.1 | – | – |
RetailObjectEmbedding v2.0 | FAN-B-H | 224x224x3 | FP16 | 8 | 161 | – | – |
RetailObjectEmbedding v2.0 | FAN-L-H | 224x224x3 | FP16 | 8 | 112 | – | – |
RetailObjectEmbedding v2.0 | NVCLIP-B | 224x224x3 | FP16 | 32 | 1541 | – | – |
Siamese Optical Inspection | Siamese CNN | 2x512x128x3 | FP16 | 32 | 1538 | – | – |
OCDNet | DCN-RN18 | 640x640x3 | FP16 | 4 | 120 | – | – |
OCDNet | DCN-RN50 | 640x640x3 | FP16 | – | – | ||
OCRNet | ResNet50 + Bi-LSTM 剪枝 | 32x100x3 | FP16 | 128 | 3876 | – | – |
OCRNet | ResNet50 + Bi-LSTM 未剪枝 | 32x100x3 | FP16 | 128 | 2950 | – | – |
PCB 检测 | GC-ViT-xxTiny | 224x224x3 | FP16 | 16 | 560 | – | – |
CitySemSegFormer v2.0 | Segformer + MIT | 1024x1024x3 | FP16 | 1 | 4.8 | – | – |
CitySemSegFormer v2.0 | SegFormer + FAN -B-H | 1024x1024x3 | FP16 | 1 | 4.4 | – | – |
PeopleSemSegFormer v2.0 | SegFormer + FAN-B-H | 512x512x3 | FP16 | – | – | ||
Visual ChangeNet Classification | Visual ChangeNet + FAN -S-H | 512x128x3 | FP16 | 16 | 113.2 | – | – |
Visual ChangeNet Segmentation | Visual ChangeNet + FAN -B-H | 256x256x3 | FP16 | 16 | 55 | – | – |
CenterPose | DLA34 | 512x512x3 | FP16 | 1 | 57.04 | – | – |
CenterPose | FAN-S-H | 512x512x3 | FP16 | 1 | 28.03 | – | – |
模型名称 |
架构 |
推理分辨率 |
精度 |
GPU BS |
GPU FPS |
---|---|---|---|---|---|
PeopleNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 64 | 4228 |
PeopleNet (v2.3) | DetectNet_v2 - ResNet34 | 960x544x3 | INT8 | 32 | 3160 |
PeopleNet (v2.5 未剪枝) | DetectNet_v2 - ResNet34 | 960x544x3 | INT8 | 32 | 1603 |
TrafficCamNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 64 | 5082 |
DashCamNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 64 | 4900 |
FaceDetect-IR | DetectNet_v2 - ResNet18 | 384x240x3 | INT8 | 128 | 27100 |
VehilceMakeNet | ResNet18 | 224x224x3 | INT8 | 256 | 46200 |
VehicleTypeNet | ResNet18 | 224x224x3 | INT8 | 128 | 37200 |
FaceDetect (剪枝) | DetectNet_v2 - ResNet18 | 736x416x3 | INT8 | 64 | 7700 |
License Plate Detection v1.0 | DetectNet_v2 - ResNet18 | 640x480x3 | INT8 | 128 | 12500 |
License Plate Recognition | ResNet | 96x48x3 | FP16 | 128 | 12400 |
面部地标 | 80x80x1 | FP16 | 128 | 12400 | |
GazeNet | 224x224x1, 224x224x1, 224x224x1, 25x25x1 | FP16 | 512 | 12321 | |
GestureNet | 160x160x3 | FP16 | 512 | 47361 | |
BodyPose | 288x384x3 | INT8 | 32 | 1596 | |
Action Recognition 2D RGB | 2D CNN | 224x224x96 | FP16 | 16 | 6000 |
Action Recognition 3D RGB | 3D CNN | 224x224x32x3 | FP16 | 4 | 380 |
Action Recognition 2D OF | 2D 光流 | 224x224x96 | FP16 | 32 | 8940 |
Action Recognition 3D OF | 3D 光流 | 224x224x32x3 | FP16 | 16 | 461 |
Point Pillar | Point Pillar | FP16 | 1 | 271 | |
姿态分类 | ST-GCN | FP16 | 64 | 1121.68 | |
3D 姿态 - 精度 | FP16 | 32 | 1913.92 | ||
3D 姿态 - 性能 | FP16 | 32 | 2241.83 | ||
PeopleSemSegNet_v2 - Shuffle | UNET - Shuffle | 960x544x3 | FP16 | 64 | 2862.76 |
PeopleSemSegNet_v2 - Vanilla | UNET - Vanilla | 960x544x3 | FP16 | 16 | 253.77 |
PeopleNet Transformer | D-DETR | 960x544x3 | FP16 | 16 | 135 |
ReidentificationNet | ResNet50 | 3x256x18 | FP16 | 128 | 9649 |
RetailObjectDetection v1.0 - 100 类 | EfficientNet-D5 | 416x416x3 | FP16 | 64 | 485 |
RetailObjectDetection v1.0 - 二元 | EfficientNet-D5 | 416x416x3 | FP16 | 64 | 450 |
RetailObjectEmbedding v1.0 | ResNet101 | 3x224x224 | FP16 | 64 | 4791 |
CitySemSegFormer v1.0 | SegFormer | FP16 | 1 | 6.4 | |
ImageNet 分类 | FAN-T-H | 224x224x3 | FP16 | 32 | 1806 |
ImageNet 分类 | FAN-S-H | 224x224x3 | FP16 | 32 | 1185 |
ImageNet 分类 | FAN-B-H | 224x224x3 | FP16 | 16 | 769 |
ImageNet 分类 | FAN-L-H | 224x224x3 | FP16 | 16 | 548 |
ImageNet 分类 | FAN-XL-H | 224x224x3 | FP16 | 16 | 423 |
ImageNet 分类 | GC-ViT-xxTiny | 224x224x3 | FP16 | 32 | 3105 |
ImageNet 分类 | GC-ViT-xTiny | 224x224x3 | FP16 | 32 | 2339 |
ImageNet 分类 | GC-ViT-T | 224x224x3 | FP16 | 32 | 1658 |
ImageNet 分类 | GC-ViT-S | 224x224x3 | FP16 | 16 | 1077 |
ImageNet 分类 | GC-ViT-B | 224x224x3 | FP16 | 16 | 711 |
ImageNet 分类 | GC-ViT-L | 224x224x3 | FP16 | 16 | 388 |
ImageNet 分类 | GC-ViT-L-384 | 384x384x3 | FP16 | 8 | 151 |
ImageNet 分类 | FAN-B-H-384 (384 分辨率) | 384x384x3 | FP16 | 16 | 260 |
ImageNet 分类 | FAN-L-H-384 | 384x384x3 | FP16 | 8 | 179 |
ImageNet 分类 | EfficientNetB0 | 224x224x3 | FP16 | 64 | 8361 |
ImageNet 分类 | EfficientNetB1 | 224x224x3 | FP16 | 64 | 3245 |
ImageNet 分类 | EfficientNetB2 | 224x224x3 | FP16 | 64 | 3078 |
ImageNet 分类 | EfficientNetB3 | 224x224x3 | FP16 | 64 | 2320 |
ImageNet 分类 | EfficientNetB4 | 224x224x3 | FP16 | 64 | 1669 |
ImageNet 分类 | EfficientNetB5 | 224x224x3 | FP16 | 64 | 1203 |
COCO 对象检测 | DDETR+RN50 | 960x544x3 | FP16 | 8 | 141 |
COCO 对象检测 | DDETR + GCViT-T | 960x544x3 | FP16 | 8 | 87 |
COCO 对象检测 | DINO + RN50 | 960x544x3 | FP16 | 8 | 115 |
COCO 对象检测 | DINO + FAN-S | 960x544x3 | FP16 | 4 | 56 |
COCO 对象检测 | DINO + GC-ViT-T | 960x544x3 | FP16 | 8 | 77 |
COCO 对象检测 | DINO + FAN-L | 960x544x3 | FP16 | 8 | 33.4 |
Cityscapes 分割 | SegFormer + FAN-T-H | 224x224x3 | FP16 | 16 | 1098 |
Cityscapes 分割 | Segformer + FAN-S-H | 224x224x3 | FP16 | 16 | 834 |
Cityscapes 分割 | SegFormer + FAN-B-H | 224x224x3 | FP16 | 16 | 606 |
Cityscapes 分割 | SegFormer + FAN-L-H | 224x224x3 | FP16 | 16 | 465 |
RetailObjectDetection v2.0 - 二元 | Efficientdet-D5 | 960x544x3 | FP16 | ||
RetailObjectDetection v2.0 - 二元 | DINO-FAN_base | 960x544x3 | FP16 | 8 | 44.2 |
RetailObjectDetection v2.0 - Meta | DINO-FAN_base | 960x544x3 | FP16 | 8 | 44 |
RetailObjectEmbedding v2.0 | FAN-B-H | 224x224x3 | FP16 | 16 | 734 |
RetailObjectEmbedding v2.0 | FAN-L-H | 224x224x3 | FP16 | 16 | 522 |
RetailObjectEmbedding v2.0 | NVCLIP-B | 224x224x3 | FP16 | 16 | 5886 |
Siamese Optical Inspection | Siamese CNN | 2x512x128x3 | FP16 | 32 | 6318 |
OCDNet | DCN-RN18 | 640x640x3 | FP16 | 16 | 387 |
OCDNet | DCN-RN50 | 640x640x3 | FP16 | 8 | 186.6 |
OCRNet | ResNet50 + Bi-LSTM 剪枝 | 32x100x3 | FP16 | 128 | 12122 |
OCRNet | ResNet50 + Bi-LSTM 未剪枝 | 32x100x3 | FP16 | 128 | 9656 |
PCB 检测 | GC-ViT-xxTiny | 224x224x3 | FP16 | 32 | 3221 |
CitySemSegFormer v2.0 | Segformer + MIT | 1024x1024x3 | FP16 | 4 | 29.3 |
CitySemSegFormer v2.0 | SegFormer + FAN -B-H | 1024x1024x3 | FP16 | 4 | 23.7 |
PeopleSemSegFormer v2.0 | SegFormer + FAN-B-H | 512x512x3 | FP16 | 8 | 116.8 |
Visual ChangeNet Classification | Visual ChangeNet + FAN -S-H | 512x128x3 | FP16 | 16 | 436 |
Visual ChangeNet Segmentation | Visual ChangeNet + FAN -B-H | 256x256x3 | FP16 | 16 | 204 |
CenterPose | DLA34 | 512x512x3 | FP16 | 1 | 57.46 |
CenterPose | FAN-S-H | 512x512x3 | FP16 | 1 | 26.73 |
模型名称 |
架构 |
推理分辨率 |
精度 |
GPU BS |
GPU FPS |
---|---|---|---|---|---|
PeopleNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 64 | 3819 |
PeopleNet (v2.3) | DetectNet_v2 - ResNet34 | 960x544x3 | INT8 | 32 | 2568 |
PeopleNet (v2.5 未剪枝) | DetectNet_v2 - ResNet34 | 960x544x3 | INT8 | 32 | 1007 |
TrafficCamNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 64 | 4754 |
DashCamNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 64 | 4600 |
FaceDetect-IR | DetectNet_v2 - ResNet18 | 384x240x3 | INT8 | 128 | 26900 |
VehilceMakeNet | ResNet18 | 224x224x3 | INT8 | 256 | 44800 |
VehicleTypeNet | ResNet18 | 224x224x3 | INT8 | 256 | 31500 |
FaceDetect (剪枝) | DetectNet_v2 - ResNet18 | 736x416x3 | INT8 | 64 | 6000 |
License Plate Detection v1.0 | DetectNet_v2 - ResNet18 | 640x480x3 | INT8 | 256 | 13900 |
License Plate Recognition | ResNet | 96x48x3 | FP16 | 256 | 9000 |
面部地标 | 80x80x1 | FP16 | 512 | 9600 | |
GazeNet | 224x224x1, 224x224x1, 224x224x1, 25x25x1 | FP16 | 512 | 10718 | |
GestureNet | 160x160x3 | FP16 | 512 | 35371 | |
BodyPose | 288x384x3 | INT8 | 32 | 1334 | |
Action Recognition 2D RGB | 2D CNN | 224x224x96 | FP16 | 16 | 4600 |
Action Recognition 3D RGB | 3D CNN | 224x224x32x3 | FP16 | 4 | 265 |
Action Recognition 2D OF | 2D 光流 | 224x224x96 | FP16 | 32 | 6500 |
Action Recognition 3D OF | 3D 光流 | 224x224x32x3 | FP16 | 16 | 284 |
Point Pillar | Point Pillar | FP16 | 1 | 246 | |
姿态分类 | ST-GCN | FP16 | 64 | 825.75 | |
3D 姿态 - 精度 | FP16 | 32 | 1286.05 | ||
3D 姿态 - 性能 | FP16 | 32 | 1558.21 | ||
PeopleSemSegNet_v2 - Shuffle | UNET - Shuffle | 960x544x3 | FP16 | 64 | 2429.62 |
PeopleSemSegNet_v2 - Vanilla | UNET - Vanilla | 960x544x3 | FP16 | 16 | 180.04 |
PeopleNet Transformer | D-DETR | 960x544x3 | FP16 | 16 | 106 |
ReidentificationNet | ResNet50 | 3x256x18 | FP16 | 128 | 6129 |
RetailObjectDetection v1.0 - 100 类 | EfficientNet-D5 | 416x416x3 | FP16 | 64 | 367 |
RetailObjectDetection v1.0 - 二元 | EfficientNet-D5 | 416x416x3 | FP16 | 64 | 341 |
RetailObjectEmbedding v1.0 | ResNet101 | 3x224x224 | FP16 | 64 | 3105 |
CitySemSegFormer v1.0 | SegFormer | FP16 | 1 | 4.5 |
模型名称 |
架构 |
推理分辨率 |
精度 |
GPU BS |
GPU FPS |
---|---|---|---|---|---|
ImageNet 分类 | FAN-T-H | 224x224x3 | FP16 | 4 | 99.1 |
ImageNet 分类 | FAN-S-H | 224x224x3 | FP16 | 4 | 64.5 |
ImageNet 分类 | FAN-B-H | 224x224x3 | FP16 | 4 | 42.3 |
ImageNet 分类 | FAN-L-H | 224x224x3 | FP16 | 4 | 29.8 |
ImageNet 分类 | FAN-XL-H | 224x224x3 | FP16 | 4 | 27 |
ImageNet 分类 | GC-ViT-xxTiny | 224x224x3 | FP16 | 8 | 146 |
ImageNet 分类 | GC-ViT-xTiny | 224x224x3 | FP16 | 8 | 111 |
ImageNet 分类 | GC-ViT-T | 224x224x3 | FP16 | 8 | 75 |
ImageNet 分类 | GC-ViT-S | 224x224x3 | FP16 | ||
ImageNet 分类 | GC-ViT-B | 224x224x3 | FP16 | 4 | 35.2 |
ImageNet 分类 | GC-ViT-L | 224x224x3 | FP16 | 4 | 19.8 |
ImageNet 分类 | GC-ViT-L-384 | 384x384x3 | FP16 | ||
ImageNet 分类 | FAN-B-H-384 (384 分辨率) | 384x384x3 | FP16 | 4 | 16 |
ImageNet 分类 | FAN-L-H-384 | 384x384x3 | FP16 | ||
ImageNet 分类 | EfficientNetB0 | 224x224x3 | FP16 | 32 | 571 |
ImageNet 分类 | EfficientNetB1 | 224x224x3 | FP16 | 32 | 227 |
ImageNet 分类 | EfficientNetB2 | 224x224x3 | FP16 | 16 | 208 |
ImageNet 分类 | EfficientNetB3 | 224x224x3 | FP16 | 16 | 155 |
ImageNet 分类 | EfficientNetB4 | 224x224x3 | FP16 | 16 | 116 |
ImageNet 分类 | EfficientNetB5 | 224x224x3 | FP16 | 8 | 81 |
COCO 对象检测 | DDETR+RN50 | 960x544x3 | FP16 | 1 | 6.6 |
COCO 对象检测 | DDETR + GCViT-T | 960x544x3 | FP16 | 1 | 3.6 |
COCO 对象检测 | DINO + RN50 | 960x544x3 | FP16 | 1 | 5.7 |
COCO 对象检测 | DINO + FAN-S | 960x544x3 | FP16 | 1 | 3.1 |
COCO 对象检测 | DINO + GC-ViT-T | 960x544x3 | FP16 | 1 | 3.3 |
COCO 对象检测 | DINO + FAN-L | 960x544x3 | FP16 | 1 | 1.8 |
Cityscapes 分割 | SegFormer + FAN-T-H | 224x224x3 | FP16 | ||
Cityscapes 分割 | Segformer + FAN-S-H | 224x224x3 | FP16 | ||
Cityscapes 分割 | SegFormer + FAN-B-H | 224x224x3 | FP16 | ||
Cityscapes 分割 | SegFormer + FAN-L-H | 224x224x3 | FP16 | ||
RetailObjectDetection v2.0 - 二元 | Efficientdet-D5 | 960x544x3 | FP16 | ||
RetailObjectDetection v2.0 - 二元 | DINO-FAN_base | 960x544x3 | FP16 | 1 | 2.3 |
RetailObjectDetection v2.0 - Meta | DINO-FAN_base | 960x544x3 | FP16 | 1 | 2.3 |
RetailObjectEmbedding v2.0 | FAN-B-H | 224x224x3 | FP16 | 4 | 40.2 |
RetailObjectEmbedding v2.0 | FAN-L-H | 224x224x3 | FP16 | 4 | 28.4 |
RetailObjectEmbedding v2.0 | NVCLIP-B | 224x224x3 | FP16 | 16 | 393 |
Siamese Optical Inspection | Siamese CNN | 2x512x128x3 | FP16 | 16 | 399 |
OCDNet | DCN-RN18 | 640x640x3 | FP16 | ||
OCDNet | DCN-RN50 | 640x640x3 | FP16 | ||
OCRNet | ResNet50 + Bi-LSTM 剪枝 | 32x100x3 | FP16 | 64 | 935 |
OCRNet | ResNet50 + Bi-LSTM 未剪枝 | 32x100x3 | FP16 | 64 | 715 |
PCB 检测 | GC-ViT-xxTiny | 224x224x3 | FP16 | 4 | 133.9 |
CitySemSegFormer v2.0 | Segformer + MIT | 1024x1024x3 | FP16 | 1 | 1.36 |
CitySemSegFormer v2.0 | SegFormer + FAN -B-H | 1024x1024x3 | FP16 | 1 | 1.2 |
PeopleSemSegFormer v2.0 | SegFormer + FAN-B-H | 512x512x3 | FP16 | ||
Visual ChangeNet Classification | Visual ChangeNet + FAN -S-H | 512x128x3 | FP16 | 16 | 31 |
Visual ChangeNet Segmentation | Visual ChangeNet + FAN -B-H | 256x256x3 | FP16 | 16 | 15.2 |
CenterPose | DLA34 | 512x512x3 | FP16 | 1 | 19.16 |
CenterPose | FAN-S-H | 512x512x3 | FP16 | 1 | 7.94 |
模型名称 |
架构 |
推理分辨率 |
精度 |
GPU BS |
GPU FPS |
---|---|---|---|---|---|
PeopleNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 128 | 8500 |
PeopleNet (v2.3) | DetectNet_v2 - ResNet34 | 960x544x3 | INT8 | 64 | 6245 |
PeopleNet (v2.5 未剪枝) | DetectNet_v2 - ResNet34 | 960x544x3 | INT8 | 64 | 3291 |
TrafficCamNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 256 | 9717 |
DashCamNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 256 | 9500 |
FaceDetect-IR | DetectNet_v2 - ResNet18 | 384x240x3 | INT8 | 256 | 51600 |
VehilceMakeNet | ResNet18 | 224x224x3 | INT8 | 1024 | 88300 |
VehicleTypeNet | ResNet18 | 224x224x3 | INT8 | 512 | 72300 |
FaceDetect (剪枝) | DetectNet_v2 - ResNet18 | 736x416x3 | INT8 | 256 | 14900 |
License Plate Detection v1.0 | DetectNet_v2 - ResNet18 | 640x480x3 | INT8 | 256 | 23200 |
License Plate Recognition | ResNet | 96x48x3 | FP16 | 256 | 27200 |
面部地标 | 80x80x1 | FP16 | 256 | 19600 | |
GazeNet | 224x224x1, 224x224x1, 224x224x1, 25x25x1 | FP16 | 1024 | 25394 | |
GestureNet | 160x160x3 | FP16 | 1024 | 94555 | |
BodyPose | 288x384x3 | INT8 | 16 | 3180 | |
Action Recognition 2D RGB | 2D CNN | 224x224x96 | FP16 | 32 | 12600 |
Action Recognition 3D RGB | 3D CNN | 224x224x32x3 | FP16 | 16 | 797 |
Action Recognition 2D OF | 2D 光流 | 224x224x96 | FP16 | 64 | 17535 |
Action Recognition 3D OF | 3D 光流 | 224x224x32x3 | FP16 | 16 | 899 |
Point Pillar | Point Pillar | FP16 | 1 | 425 | |
姿态分类 | ST-GCN | FP16 | 64 | 2144.84 | |
3D 姿态 - 精度 | FP16 | 32 | 3466.34 | ||
3D 姿态 - 性能 | FP16 | 32 | 4176.37 | ||
PeopleSemSegNet_v2 - Shuffle | UNET - Shuffle | 960x544x3 | FP16 | 64 | 5745.79 |
PeopleSemSegNet_v2 - Vanilla | UNET - Vanilla | 960x544x3 | FP16 | 16 | 496.34 |
PeopleNet Transformer | D-DETR | 960x544x3 | FP16 | 16 | 267 |
ReidentificationNet | ResNet50 | 3x256x18 | FP16 | 256 | 20781 |
RetailObjectDetection v1.0 - 100 类 | EfficientNet-D5 | 416x416x3 | FP16 | 64 | 1012 |
RetailObjectDetection v1.0 - 二元 | EfficientNet-D5 | 416x416x3 | FP16 | 64 | 947 |
RetailObjectEmbedding v1.0 | ResNet101 | 3x224x224 | FP16 | 64 | 9851 |
CitySemSegFormer v1.0 | SegFormer | FP16 | 4 | 13 | |
ImageNet 分类 | FAN-T-H | 224x224x3 | FP16 | 128 | 3867 |
ImageNet 分类 | FAN-S-H | 224x224x3 | FP16 | 128 | 2576 |
ImageNet 分类 | FAN-B-H | 224x224x3 | FP16 | 64 | 1692 |
ImageNet 分类 | FAN-L-H | 224x224x3 | FP16 | 64 | 1196 |
ImageNet 分类 | FAN-XL-H | 224x224x3 | FP16 | 32 | 1046 |
ImageNet 分类 | GC-ViT-xxTiny | 224x224x3 | FP16 | 128 | 6863 |
ImageNet 分类 | GC-ViT-xTiny | 224x224x3 | FP16 | 128 | 5162 |
ImageNet 分类 | GC-ViT-T | 224x224x3 | FP16 | 128 | 3600 |
ImageNet 分类 | GC-ViT-S | 224x224x3 | FP16 | 64 | 2435 |
ImageNet 分类 | GC-ViT-B | 224x224x3 | FP16 | 64 | 1663 |
ImageNet 分类 | GC-ViT-L | 224x224x3 | FP16 | 64 | 917 |
ImageNet 分类 | GC-ViT-L-384 | 384x384x3 | FP16 | 32 | 344 |
ImageNet 分类 | FAN-B-H-384 (384 分辨率) | 384x384x3 | FP16 | 64 | 577 |
ImageNet 分类 | FAN-L-H-384 | 384x384x3 | FP16 | 64 | 402 |
ImageNet 分类 | EfficientNetB0 | 224x224x3 | FP16 | 256 | 17909 |
ImageNet 分类 | EfficientNetB1 | 224x224x3 | FP16 | 256 | 6994 |
ImageNet 分类 | EfficientNetB2 | 224x224x3 | FP16 | 256 | 6665 |
ImageNet 分类 | EfficientNetB3 | 224x224x3 | FP16 | 256 | 4987 |
ImageNet 分类 | EfficientNetB4 | 224x224x3 | FP16 | 64 | 3577 |
ImageNet 分类 | EfficientNetB5 | 224x224x3 | FP16 | 256 | 2583 |
COCO 对象检测 | DDETR+RN50 | 960x544x3 | FP16 | 32 | 296 |
COCO 对象检测 | DDETR + GCViT-T | 960x544x3 | FP16 | 32 | 184 |
COCO 对象检测 | DINO + RN50 | 960x544x3 | FP16 | 32 | 244 |
COCO 对象检测 | DINO + FAN-S | 960x544x3 | FP16 | 32 | 121 |
COCO 对象检测 | DINO + GC-ViT-T | 960x544x3 | FP16 | 32 | 165 |
COCO 对象检测 | DINO + FAN-L | 960x544x3 | FP16 | 16 | 70.6 |
Cityscapes 分割 | SegFormer + FAN-T-H | 224x224x3 | FP16 | 64 | 2381 |
Cityscapes 分割 | Segformer + FAN-S-H | 224x224x3 | FP16 | 64 | 1808 |
Cityscapes 分割 | SegFormer + FAN-B-H | 224x224x3 | FP16 | 64 | 1338 |
Cityscapes 分割 | SegFormer + FAN-L-H | 224x224x3 | FP16 | 64 | 1000 |
RetailObjectDetection v2.0 - 二元 | Efficientdet-D5 | 960x544x3 | FP16 | ||
RetailObjectDetection v2.0 - 二元 | DINO-FAN_base | 960x544x3 | FP16 | 32 | 94.3 |
RetailObjectDetection v2.0 - Meta | DINO-FAN_base | 960x544x3 | FP16 | 32 | 94.2 |
RetailObjectEmbedding v2.0 | FAN-B-H | 224x224x3 | FP16 | 64 | 1621 |
RetailObjectEmbedding v2.0 | FAN-L-H | 224x224x3 | FP16 | 64 | 1155 |
RetailObjectEmbedding v2.0 | NVCLIP-B | 224x224x3 | FP16 | 64 | 15584 |
Siamese Optical Inspection | Siamese CNN | 2x512x128x3 | FP16 | 128 | 15660 |
OCDNet | DCN-RN18 | 640x640x3 | FP16 | 64 | 724 |
OCDNet | DCN-RN50 | 640x640x3 | FP16 | 64 | 351 |
OCRNet | ResNet50 + Bi-LSTM 剪枝 | 32x100x3 | FP16 | 512 | 28297 |
OCRNet | ResNet50 + Bi-LSTM 未剪枝 | 32x100x3 | FP16 | 512 | 21212 |
PCB 检测 | GC-ViT-xxTiny | 224x224x3 | FP16 | 128 | 7095 |
CitySemSegFormer v2.0 | Segformer + MIT | 1024x1024x3 | FP16 | 8 | 62.2 |
CitySemSegFormer v2.0 | SegFormer + FAN -B-H | 1024x1024x3 | FP16 | 8 | 50.4 |
PeopleSemSegFormer v2.0 | SegFormer + FAN-B-H | 512x512x3 | FP16 | 32 | 254 |
Visual ChangeNet Classification | Visual ChangeNet + FAN -S-H | 512x128x3 | FP16 | 16 | 920 |
Visual ChangeNet Segmentation | Visual ChangeNet + FAN -B-H | 256x256x3 | FP16 | 16 | 435 |
CenterPose | DLA34 | 512x512x3 | FP16 | 1 | 82.16 |
CenterPose | FAN-S-H | 512x512x3 | FP16 | 1 | 49.99 |
模型名称 |
架构 |
推理分辨率 |
精度 |
GPU BS |
GPU FPS |
---|---|---|---|---|---|
PeopleNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 64 | 1379 |
PeopleNet (v2.3) | DetectNet_v2 - ResNet34 | 960x544x3 | INT8 | 32 | 1064 |
PeopleNet (v2.5 未剪枝) | DetectNet_v2 - ResNet34 | 960x544x3 | INT8 | 32 | 465 |
TrafficCamNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 64 | 1725 |
DashCamNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 64 | 1676 |
FaceDetect-IR | DetectNet_v2 - ResNet18 | 384x240x3 | INT8 | 128 | 9810 |
VehilceMakeNet | ResNet18 | 224x224x3 | INT8 | 256 | 16500 |
VehicleTypeNet | ResNet18 | 224x224x3 | INT8 | 128 | 12500 |
FaceDetect (剪枝) | DetectNet_v2 - ResNet18 | 736x416x3 | INT8 | 64 | 2578 |
License Plate Detection v1.0 | DetectNet_v2 - ResNet18 | 640x480x3 | INT8 | 128 | 6123 |
License Plate Recognition | ResNet | 96x48x3 | FP16 | 128 | 3959 |
面部地标 | 80x80x1 | FP16 | 128 | 4622 | |
GazeNet | 224x224x1, 224x224x1, 224x224x1, 25x25x1 | FP16 | 512 | 4563 | |
GestureNet | 160x160x3 | FP16 | 512 | 15377 | |
BodyPose | 288x384x3 | INT8 | 32 | 598 | |
Action Recognition 2D RGB | 2D CNN | 224x224x96 | FP16 | 16 | 1897 |
Action Recognition 3D RGB | 3D CNN | 224x224x32x3 | FP16 | 4 | 139 |
Action Recognition 2D OF | 2D 光流 | 224x224x96 | FP16 | 32 | 3320 |
Action Recognition 3D OF | 3D 光流 | 224x224x32x3 | FP16 | 16 | 192 |
Point Pillar | Point Pillar | FP16 | 1 | 111 | |
姿态分类 | ST-GCN | FP16 | 64 | 376.4 | |
3D 姿态 - 精度 | FP16 | 32 | 614.98 | ||
3D 姿态 - 性能 | FP16 | 32 | 712.94 | ||
PeopleSemSegNet_v2 - Shuffle | UNET - Shuffle | 960x544x3 | FP16 | 64 | 1027.85 |
PeopleSemSegNet_v2 - Vanilla | UNET - Vanilla | 960x544x3 | FP16 | 16 | 79.08 |
PeopleNet Transformer | D-DETR | 960x544x3 | FP16 | 4 | 48 |
ReidentificationNet | ResNet50 | 3x256x18 | FP16 | 64 | 2586 |
RetailObjectDetection v1.0 - 100 类 | EfficientNet-D5 | 416x416x3 | FP16 | 32 | 162 |
RetailObjectDetection v1.0 - 二元 | EfficientNet-D5 | 416x416x3 | FP16 | 32 | 151 |
RetailObjectEmbedding v1.0 | ResNet101 | 3x224x224 | FP16 | 32 | 1270 |
CitySemSegFormer v1.0 | SegFormer | FP16 | 1 | 2 | |
ImageNet 分类 | FAN-T-H | 224x224x3 | FP16 | 16 | 624 |
ImageNet 分类 | FAN-S-H | 224x224x3 | FP16 | 8 | 403 |
ImageNet 分类 | FAN-B-H | 224x224x3 | FP16 | 8 | 259 |
ImageNet 分类 | FAN-L-H | 224x224x3 | FP16 | 16 | 188 |
ImageNet 分类 | FAN-XL-H | 224x224x3 | FP16 | 16 | 166 |
ImageNet 分类 | GC-ViT-xxTiny | 224x224x3 | FP16 | 16 | 999 |
ImageNet 分类 | GC-ViT-xTiny | 224x224x3 | FP16 | 32 | 739 |
ImageNet 分类 | GC-ViT-T | 224x224x3 | FP16 | 16 | 517 |
ImageNet 分类 | GC-ViT-S | 224x224x3 | FP16 | 8 | 335 |
ImageNet 分类 | GC-ViT-B | 224x224x3 | FP16 | 4 | 223 |
ImageNet 分类 | GC-ViT-L | 224x224x3 | FP16 | 16 | 122 |
ImageNet 分类 | GC-ViT-L-384 | 384x384x3 | FP16 | 4 | 45.1 |
ImageNet 分类 | FAN-B-H-384 (384 分辨率) | 384x384x3 | FP16 | 8 | 91 |
ImageNet 分类 | FAN-L-H-384 | 384x384x3 | FP16 | 4 | 62 |
ImageNet 分类 | EfficientNetB0 | 224x224x3 | FP16 | 64 | 2735 |
ImageNet 分类 | EfficientNetB1 | 224x224x3 | FP16 | 64 | 1099 |
ImageNet 分类 | EfficientNetB2 | 224x224x3 | FP16 | 32 | 1006 |
ImageNet 分类 | EfficientNetB3 | 224x224x3 | FP16 | 32 | 753 |
ImageNet 分类 | EfficientNetB4 | 224x224x3 | FP16 | 16 | 526 |
ImageNet 分类 | EfficientNetB5 | 224x224x3 | FP16 | 16 | 375 |
COCO 对象检测 | DDETR+RN50 | 960x544x3 | FP16 | 1 | 46.5 |
COCO 对象检测 | DDETR + GCViT-T | 960x544x3 | FP16 | 4 | 30.3 |
COCO 对象检测 | DINO + RN50 | 960x544x3 | FP16 | 4 | 38.9 |
COCO 对象检测 | DINO + FAN-S | 960x544x3 | FP16 | 4 | 20 |
COCO 对象检测 | DINO + GC-ViT-T | 960x544x3 | FP16 | 8 | 26.7 |
COCO 对象检测 | DINO + FAN-L | 960x544x3 | FP16 | 4 | 10.9 |
Cityscapes 分割 | SegFormer + FAN-T-H | 224x224x3 | FP16 | 16 | 374 |
Cityscapes 分割 | Segformer + FAN-S-H | 224x224x3 | FP16 | 8 | 272 |
Cityscapes 分割 | SegFormer + FAN-B-H | 224x224x3 | FP16 | 8 | 198 |
Cityscapes 分割 | SegFormer + FAN-L-H | 224x224x3 | FP16 | 16 | 156.7 |
RetailObjectDetection v2.0 - 二元 | Efficientdet-D5 | 960x544x3 | FP16 | ||
RetailObjectDetection v2.0 - 二元 | DINO-FAN_base | 960x544x3 | FP16 | 2 | 15.2 |
RetailObjectDetection v2.0 - Meta | DINO-FAN_base | 960x544x3 | FP16 | 4 | 15.4 |
RetailObjectEmbedding v2.0 | FAN-B-H | 224x224x3 | FP16 | 8 | 253 |
RetailObjectEmbedding v2.0 | FAN-L-H | 224x224x3 | FP16 | 16 | 184 |
RetailObjectEmbedding v2.0 | NVCLIP-B | 224x224x3 | FP16 | 16 | 1838 |
Siamese Optical Inspection | Siamese CNN | 2x512x128x3 | FP16 | 32 | 2314 |
OCDNet | DCN-RN18 | 640x640x3 | FP16 | 16 | 155 |
OCDNet | DCN-RN50 | 640x640x3 | FP16 | 1 | 72.5 |
OCRNet | ResNet50 + Bi-LSTM 剪枝 | 32x100x3 | FP16 | 128 | 3649 |
OCRNet | ResNet50 + Bi-LSTM 未剪枝 | 32x100x3 | FP16 | 128 | 2673 |
PCB 检测 | GC-ViT-xxTiny | 224x224x3 | FP16 | 16 | 1012 |
CitySemSegFormer v2.0 | Segformer + MIT | 1024x1024x3 | FP16 | 1 | 9.4 |
CitySemSegFormer v2.0 | SegFormer + FAN -B-H | 1024x1024x3 | FP16 | 1 | 7.3 |
PeopleSemSegFormer v2.0 | SegFormer + FAN-B-H | 512x512x3 | FP16 | 4 | 39.6 |
Visual ChangeNet Classification | Visual ChangeNet + FAN -S-H | 512x128x3 | FP16 | 16 | 146 |
Visual ChangeNet Segmentation | Visual ChangeNet + FAN -B-H | 256x256x3 | FP16 | 16 | 59.7 |
CenterPose | DLA34 | 512x512x3 | FP16 | 1 | 24.27 |
CenterPose | FAN-S-H | 512x512x3 | FP16 | 1 | 9.77 |
模型名称 |
架构 |
推理分辨率 |
精度 |
GPU BS |
GPU FPS |
---|---|---|---|---|---|
ImageNet 分类 | FAN-T-H | 224x224x3 | FP16 | 16 | 4249 |
ImageNet 分类 | FAN-S-H | 224x224x3 | FP16 | 8 | 2647 |
ImageNet 分类 | FAN-B-H | 224x224x3 | FP16 | 8 | 1720 |
ImageNet 分类 | FAN-L-H | 224x224x3 | FP16 | 8 | 1154 |
ImageNet 分类 | FAN-XL-H | 224x224x3 | FP16 | 8 | 1005 |
ImageNet 分类 | GC-ViT-xxTiny | 224x224x3 | FP16 | 16 | 6282 |
ImageNet 分类 | GC-ViT-xTiny | 224x224x3 | FP16 | 16 | 4632 |
ImageNet 分类 | GC-ViT-T | 224x224x3 | FP16 | 16 | 3118 |
ImageNet 分类 | GC-ViT-S | 224x224x3 | FP16 | 8 | 2022 |
ImageNet 分类 | GC-ViT-B | 224x224x3 | FP16 | 8 | 1282 |
ImageNet 分类 | GC-ViT-L | 224x224x3 | FP16 | 4 | 628 |
ImageNet 分类 | GC-ViT-L-384 | 384x384x3 | FP16 | 2 | 247 |
ImageNet 分类 | FAN-B-H-384 (384 分辨率) | 384x384x3 | FP16 | 4 | 558 |
ImageNet 分类 | FAN-L-H-384 | 384x384x3 | FP16 | 4 | 366 |
ImageNet 分类 | EfficientNetB0 | 224x224x3 | FP16 | 32 | 19577 |
ImageNet 分类 | EfficientNetB1 | 224x224x3 | FP16 | 16 | 7723 |
ImageNet 分类 | EfficientNetB2 | 224x224x3 | FP16 | 16 | 7234 |
ImageNet 分类 | EfficientNetB3 | 224x224x3 | FP16 | 16 | 5063 |
ImageNet 分类 | EfficientNetB4 | 224x224x3 | FP16 | 16 | 3740 |
ImageNet 分类 | EfficientNetB5 | 224x224x3 | FP16 | 16 | 2671 |
COCO 对象检测 | DDETR+RN50 | 960x544x3 | FP16 | 1 | 283 |
COCO 对象检测 | DDETR + GCViT-T | 960x544x3 | FP16 | 1 | 182 |
COCO 对象检测 | DINO + RN50 | 960x544x3 | FP16 | 1 | 215 |
COCO 对象检测 | DINO + FAN-S | 960x544x3 | FP16 | 1 | 119.5 |
COCO 对象检测 | DINO + GC-ViT-T | 960x544x3 | FP16 | 1 | 151 |
COCO 对象检测 | DINO + FAN-L | 960x544x3 | FP16 | 1 | 68.5 |
Cityscapes 分割 | SegFormer + FAN-T-H | 224x224x3 | FP16 | 8 | 1985 |
Cityscapes 分割 | Segformer + FAN-S-H | 224x224x3 | FP16 | 8 | 1510 |
Cityscapes 分割 | SegFormer + FAN-B-H | 224x224x3 | FP16 | 8 | 1144 |
Cityscapes 分割 | SegFormer + FAN-L-H | 224x224x3 | FP16 | 8 | 840 |
RetailObjectDetection v2.0 - 二元 | Efficientdet-D5 | 960x544x3 | FP16 | ||
RetailObjectDetection v2.0 - 二元 | DINO-FAN_base | 960x544x3 | FP16 | 1 | 88.5 |
RetailObjectDetection v2.0 - Meta | DINO-FAN_base | 960x544x3 | FP16 | 1 | 88.6 |
RetailObjectEmbedding v2.0 | FAN-B-H | 224x224x3 | FP16 | 8 | 1648 |
RetailObjectEmbedding v2.0 | FAN-L-H | 224x224x3 | FP16 | 8 | 1124 |
RetailObjectEmbedding v2.0 | NVCLIP-B | 224x224x3 | FP16 | 32 | 9407 |
Siamese Optical Inspection | Siamese CNN | 2x512x128x3 | FP16 | 128 | 10390 |
OCDNet | DCN-RN18 | 640x640x3 | FP16 | 4 | 940 |
OCDNet | DCN-RN50 | 640x640x3 | FP16 | 4 | 445 |
OCRNet | ResNet50 + Bi-LSTM 剪枝 | 32x100x3 | FP16 | 128 | 18971 |
OCRNet | ResNet50 + Bi-LSTM 未剪枝 | 32x100x3 | FP16 | 256 | 13950 |
PCB 检测 | GC-ViT-xxTiny | 224x224x3 | FP16 | 16 | 6619 |
CitySemSegFormer v2.0 | Segformer + MIT | 1024x1024x3 | FP16 | 1 | 47.3 |
CitySemSegFormer v2.0 | SegFormer + FAN -B-H | 1024x1024x3 | FP16 | 1 | 40.9 |
PeopleSemSegFormer v2.0 | SegFormer + FAN-B-H | 512x512x3 | FP16 | 2 | 210 |
Visual ChangeNet Classification | Visual ChangeNet + FAN -S-H | 512x128x3 | FP16 | 4 | 980 |
Visual ChangeNet Segmentation | Visual ChangeNet + FAN -B-H | 256x256x3 | FP16 | 8 | 364 |
CenterPose | DLA34 | 512x512x3 | FP16 | 1 | 106.70 |
CenterPose | FAN-S-H | 512x512x3 | FP16 | 1 | 56.65 |
模型名称 |
架构 |
推理分辨率 |
精度 |
GPU BS |
GPU FPS |
---|---|---|---|---|---|
ImageNet 分类 | FAN-T-H | 224x224x3 | FP16 | 8 | 1604 |
ImageNet 分类 | FAN-S-H | 224x224x3 | FP16 | 8 | 949 |
ImageNet 分类 | FAN-B-H | 224x224x3 | FP16 | 4 | 632 |
ImageNet 分类 | FAN-L-H | 224x224x3 | FP16 | 4 | 442 |
ImageNet 分类 | FAN-XL-H | 224x224x3 | FP16 | 4 | 365 |
ImageNet 分类 | GC-ViT-xxTiny | 224x224x3 | FP16 | 8 | 2440 |
ImageNet 分类 | GC-ViT-xTiny | 224x224x3 | FP16 | 8 | 1797 |
ImageNet 分类 | GC-ViT-T | 224x224x3 | FP16 | 16 | 1266 |
ImageNet 分类 | GC-ViT-S | 224x224x3 | FP16 | 8 | 817 |
ImageNet 分类 | GC-ViT-B | 224x224x3 | FP16 | 8 | 546 |
ImageNet 分类 | GC-ViT-L | 224x224x3 | FP16 | 8 | 268 |
ImageNet 分类 | GC-ViT-L-384 | 384x384x3 | FP16 | 4 | 101 |
ImageNet 分类 | FAN-B-H-384 (384 分辨率) | 384x384x3 | FP16 | 4 | 207 |
ImageNet 分类 | FAN-L-H-384 | 384x384x3 | FP16 | 4 | 145 |
ImageNet 分类 | EfficientNetB0 | 224x224x3 | FP16 | 16 | 7072 |
ImageNet 分类 | EfficientNetB1 | 224x224x3 | FP16 | 16 | 2454 |
ImageNet 分类 | EfficientNetB2 | 224x224x3 | FP16 | 16 | 2306 |
ImageNet 分类 | EfficientNetB3 | 224x224x3 | FP16 | 16 | 1527 |
ImageNet 分类 | EfficientNetB4 | 224x224x3 | FP16 | 16 | 1134 |
ImageNet 分类 | EfficientNetB5 | 224x224x3 | FP16 | 16 | 780 |
COCO 对象检测 | DDETR+RN50 | 960x544x3 | FP16 | 1 | 107 |
COCO 对象检测 | DDETR + GCViT-T | 960x544x3 | FP16 | 1 | 70 |
COCO 对象检测 | DINO + RN50 | 960x544x3 | FP16 | 1 | 79.6 |
COCO 对象检测 | DINO + FAN-S | 960x544x3 | FP16 | 1 | 44 |
COCO 对象检测 | DINO + GC-ViT-T | 960x544x3 | FP16 | 1 | 56.6 |
COCO 对象检测 | DINO + FAN-L | 960x544x3 | FP16 | 1 | 26.4 |
Cityscapes 分割 | SegFormer + FAN-T-H | 224x224x3 | FP16 | 4 | 750 |
Cityscapes 分割 | Segformer + FAN-S-H | 224x224x3 | FP16 | 4 | 581 |
Cityscapes 分割 | SegFormer + FAN-B-H | 224x224x3 | FP16 | 4 | 442 |
Cityscapes 分割 | SegFormer + FAN-L-H | 224x224x3 | FP16 | 4 | 341 |
RetailObjectDetection v2.0 - 二元 | Efficientdet-D5 | 960x544x3 | FP16 | ||
RetailObjectDetection v2.0 - 二元 | DINO-FAN_base | 960x544x3 | FP16 | 1 | 34.1 |
RetailObjectDetection v2.0 - Meta | DINO-FAN_base | 960x544x3 | FP16 | 1 | 34.1 |
RetailObjectEmbedding v2.0 | FAN-B-H | 224x224x3 | FP16 | 4 | 603 |
RetailObjectEmbedding v2.0 | FAN-L-H | 224x224x3 | FP16 | 4 | 430 |
RetailObjectEmbedding v2.0 | NVCLIP-B | 224x224x3 | FP16 | 16 | 4375 |
Siamese Optical Inspection | Siamese CNN | 2x512x128x3 | FP16 | 32 | 2821 |
OCDNet | DCN-RN18 | 640x640x3 | FP16 | 1 | 333 |
OCDNet | DCN-RN50 | 640x640x3 | FP16 | 1 | 169 |
OCRNet | ResNet50 + Bi-LSTM 剪枝 | 32x100x3 | FP16 | 128 | 8036 |
OCRNet | ResNet50 + Bi-LSTM 未剪枝 | 32x100x3 | FP16 | 64 | 6045 |
PCB 检测 | GC-ViT-xxTiny | 224x224x3 | FP16 | 8 | 2543 |
CitySemSegFormer v2.0 | Segformer + MIT | 1024x1024x3 | FP16 | 1 | 17.8 |
CitySemSegFormer v2.0 | SegFormer + FAN -B-H | 1024x1024x3 | FP16 | 1 | 15.7 |
PeopleSemSegFormer v2.0 | SegFormer + FAN-B-H | 512x512x3 | FP16 | 1 | 83.4 |
Visual ChangeNet Classification | Visual ChangeNet + FAN -S-H | 512x128x3 | FP16 | 4 | 344 |
Visual ChangeNet Segmentation | Visual ChangeNet + FAN -B-H | 256x256x3 | FP16 | 8 | 131.48 |
CenterPose | DLA34 | 512x512x3 | FP16 | 1 | 40.68 |
CenterPose | FAN-S-H | 512x512x3 | FP16 | 1 | 18.69 |
模型名称 |
架构 |
推理分辨率 |
精度 |
GPU BS |
GPU FPS |
---|---|---|---|---|---|
PeopleNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 32 | 749 |
PeopleNet (v2.3) | DetectNet_v2 - ResNet34 | 960x544x3 | INT8 | 32 | 581 |
PeopleNet (v2.5 未剪枝) | DetectNet_v2 - ResNet34 | 960x544x3 | INT8 | 32 | 231 |
TrafficCamNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 32 | 916 |
DashCamNet | DetectNet_v2 - ResNet18 | 960x544x3 | INT8 | 32 | 865 |
FaceDetect-IR | DetectNet_v2 - ResNet18 | 384x240x3 | INT8 | 64 | 4982 |
VehilceMakeNet | ResNet18 | 224x224x3 | INT8 | 128 | 8000 |
VehicleTypeNet | ResNet18 | 224x224x3 | INT8 | 128 | 6302 |
FaceDetect (剪枝) | DetectNet_v2 - ResNet18 | 736x416x3 | INT8 | 32 | 1174 |
License Plate Detection v1.0 | DetectNet_v2 - ResNet18 | 640x480x3 | INT8 | 128 | 2570 |
License Plate Recognition | ResNet | 96x48x3 | FP16 | 128 | 2180 |
面部地标 | 80x80x1 | FP16 | 256 | 2800 | |
GazeNet | 224x224x1, 224x224x1, 224x224x1, 25x25x1 | FP16 | 256 | 2488 | |
GestureNet | 160x160x3 | FP16 | 256 | 7690 | |
BodyPose | 288x384x3 | INT8 | 16 | 278 | |
Action Recognition 2D RGB | 2D CNN | 224x224x96 | FP16 | 8 | 1044 |
Action Recognition 3D RGB | 3D CNN | 224x224x32x3 | FP16 | 4 | 56 |
Action Recognition 2D OF | 2D 光流 | 224x224x96 | FP16 | 16 | 1419 |
Action Recognition 3D OF | 3D 光流 | 224x224x32x3 | FP16 | 2 | 58 |
Point Pillar | Point Pillar | FP16 | 1 | 63 | |
姿态分类 | ST-GCN | FP16 | 64 | 211.5 | |
3D 姿态 - 精度 | FP16 | 32 | 370.13 | ||
3D 姿态 - 性能 | FP16 | 32 | 471.81 | ||
PeopleSemSegNet_v2 - Shuffle | UNET - Shuffle | 960x544x3 | FP16 | 16 | 631.31 |
PeopleSemSegNet_v2 - Vanilla | UNET - Vanilla | 960x544x3 | FP16 | 16 | 44.09 |
PeopleNet Transformer | D-DETR | 960x544x3 | FP16 | 4 | 27 |
ReidentificationNet | ResNet50 | 3x256x18 | FP16 | 64 | 1570 |
RetailObjectDetection v1.0 - 100 类 | EfficientNet-D5 | 416x416x3 | FP16 | 32 | 106 |
RetailObjectDetection v1.0 - 二元 | EfficientNet-D5 | 416x416x3 | FP16 | 32 | 99 |
RetailObjectEmbedding v1.0 | ResNet101 | 3x224x224 | FP16 | 32 | 803 |
CitySemSegFormer v1.0 | SegFormer | FP16 | 1 | 1.3 | |
ImageNet 分类 | FAN-T-H | 224x224x3 | FP16 | 16 | 399 |
ImageNet 分类 | FAN-S-H | 224x224x3 | FP16 | 16 | 256 |
ImageNet 分类 | FAN-B-H | 224x224x3 | FP16 | 16 | 168 |
ImageNet 分类 | FAN-L-H | 224x224x3 | FP16 | 16 | 118 |
ImageNet 分类 | FAN-XL-H | 224x224x3 | FP16 | 8 | 103 |
ImageNet 分类 | GC-ViT-xxTiny | 224x224x3 | FP16 | 16 | 666 |
ImageNet 分类 | GC-ViT-xTiny | 224x224x3 | FP16 | 32 | 492 |
ImageNet 分类 | GC-ViT-T | 224x224x3 | FP16 | 32 | 336 |
ImageNet 分类 | GC-ViT-S | 224x224x3 | FP16 | 16 | 213 |
ImageNet 分类 | GC-ViT-B | 224x224x3 | FP16 | 16 | 137 |
ImageNet 分类 | GC-ViT-L | 224x224x3 | FP16 | 16 | 67 |
ImageNet 分类 | GC-ViT-L-384 | 384x384x3 | FP16 | 2 | 26 |
ImageNet 分类 | FAN-B-H-384 (384 分辨率) | 384x384x3 | FP16 | 8 | 55.5 |
ImageNet 分类 | FAN-L-H-384 | 384x384x3 | FP16 | 1 | 38 |
ImageNet 分类 | EfficientNetB0 | 224x224x3 | FP16 | 64 | 1870 |
ImageNet 分类 | EfficientNetB1 | 224x224x3 | FP16 | 64 | 726 |
ImageNet 分类 | EfficientNetB2 | 224x224x3 | FP16 | 64 | 690 |
ImageNet 分类 | EfficientNetB3 | 224x224x3 | FP16 | 64 | 518 |
ImageNet 分类 | EfficientNetB4 | 224x224x3 | FP16 | 32 | 363 |
ImageNet 分类 | EfficientNetB5 | 224x224x3 | FP16 | 32 | 265 |
COCO 对象检测 | DDETR+RN50 | 960x544x3 | FP16 | 1 | 27.7 |
COCO 对象检测 | DDETR + GCViT-T | 960x544x3 | FP16 | 1 | 17.9 |
COCO 对象检测 | DINO + RN50 | 960x544x3 | FP16 | 1 | 22.5 |
COCO 对象检测 | DINO + FAN-S | 960x544x3 | FP16 | 1 | 11.7 |
COCO 对象检测 | DINO + GC-ViT-T | 960x544x3 | FP16 | 1 | 15.7 |
COCO 对象检测 | DINO + FAN-L | 960x544x3 | FP16 | 1 | 6.7 |
Cityscapes 分割 | SegFormer + FAN-T-H | 224x224x3 | FP16 | 16 | 230 |
Cityscapes 分割 | Segformer + FAN-S-H | 224x224x3 | FP16 | 16 | 174 |
Cityscapes 分割 | SegFormer + FAN-B-H | 224x224x3 | FP16 | 16 | 129 |
Cityscapes 分割 | SegFormer + FAN-L-H | 224x224x3 | FP16 | 16 | 97.7 |
RetailObjectDetection v2.0 - 二元 | Efficientdet-D5 | 960x544x3 | FP16 | ||
RetailObjectDetection v2.0 - 二元 | DINO-FAN_base | 960x544x3 | FP16 | 1 | 8.9 |
RetailObjectDetection v2.0 - Meta | DINO-FAN_base | 960x544x3 | FP16 | 1 | 8.8 |
RetailObjectEmbedding v2.0 | FAN-B-H | 224x224x3 | FP16 | 16 | 161 |
RetailObjectEmbedding v2.0 | FAN-L-H | 224x224x3 | FP16 | 16 | 113 |
RetailObjectEmbedding v2.0 | NVCLIP-B | 224x224x3 | FP16 | 16 | 1200 |
Siamese Optical Inspection | Siamese CNN | 2x512x128x3 | FP16 | 32 | 1391 |
OCDNet | DCN-RN18 | 640x640x3 | FP16 | 8 | 93 |
OCDNet | DCN-RN50 | 640x640x3 | FP16 | 1 | 45.5 |
OCRNet | ResNet50 + Bi-LSTM 剪枝 | 32x100x3 | FP16 | 128 | 2094 |
OCRNet | ResNet50 + Bi-LSTM 未剪枝 | 32x100x3 | FP16 | 128 | 1482 |
PCB 检测 | GC-ViT-xxTiny | 224x224x3 | FP16 | 32 | 688 |
CitySemSegFormer v2.0 | Segformer + MIT | 1024x1024x3 | FP16 | 1 | 5.8 |
CitySemSegFormer v2.0 | SegFormer + FAN -B-H | 1024x1024x3 | FP16 | 1 | 4.4 |
PeopleSemSegFormer v2.0 | SegFormer + FAN-B-H | 512x512x3 | FP16 | 1 | 23.3 |
Visual ChangeNet Classification | Visual ChangeNet + FAN -S-H | 512x128x3 | FP16 | 16 | 95.81 |
Visual ChangeNet Segmentation | Visual ChangeNet + FAN -B-H | 256x256x3 | FP16 | 16 | 36.02 |
CenterPose | DLA34 | 512x512x3 | FP16 | 1 | 15.69 |
CenterPose | FAN-S-H | 512x512x3 | FP16 | 1 | 5.80 |
模型名称 |
架构 |
推理分辨率 |
精度 |
GPU BS |
GPU FPS |
---|---|---|---|---|---|
ImageNet 分类 | FAN-T-H | 224x224x3 | FP16 | 128 | 6555 |
ImageNet 分类 | FAN-S-H | 224x224x3 | FP16 | 128 | 4393 |
ImageNet 分类 | FAN-B-H | 224x224x3 | FP16 | 64 | 2833 |
ImageNet 分类 | FAN-L-H | 224x224x3 | FP16 | 64 | 1982 |
ImageNet 分类 | FAN-XL-H | 224x224x3 | FP16 | 32 | 1692 |
ImageNet 分类 | GC-ViT-xxTiny | 224x224x3 | FP16 | 128 | 11942 |
ImageNet 分类 | GC-ViT-xTiny | 224x224x3 | FP16 | 128 | 9094 |
ImageNet 分类 | GC-ViT-T | 224x224x3 | FP16 | 128 | 6381 |
ImageNet 分类 | GC-ViT-S | 224x224x3 | FP16 | 64 | 4145 |
ImageNet 分类 | GC-ViT-B | 224x224x3 | FP16 | 64 | 3040 |
ImageNet 分类 | GC-ViT-L | 224x224x3 | FP16 | 64 | 1618 |
ImageNet 分类 | GC-ViT-L-384 | 384x384x3 | FP16 | 32 | 613 |
ImageNet 分类 | FAN-B-H-384 (384 分辨率) | 384x384x3 | FP16 | 64 | 985 |
ImageNet 分类 | FAN-L-H-384 | 384x384x3 | FP16 | 64 | 681 |
ImageNet 分类 | EfficientNetB0 | 224x224x3 | FP16 | 256 | 28765 |
ImageNet 分类 | EfficientNetB1 | 224x224x3 | FP16 | 256 | 11363 |
ImageNet 分类 | EfficientNetB2 | 224x224x3 | FP16 | 256 | 10830 |
ImageNet 分类 | EfficientNetB3 | 224x224x3 | FP16 | 256 | 8115 |
ImageNet 分类 | EfficientNetB4 | 224x224x3 | FP16 | 64 | 5915 |
ImageNet 分类 | EfficientNetB5 | 224x224x3 | FP16 | 256 | 4323 |
COCO 对象检测 | DDETR+RN50 | 960x544x3 | FP16 | 32 | 526 |
COCO 对象检测 | DDETR + GCViT-T | 960x544x3 | FP16 | 32 | 317 |
COCO 对象检测 | DINO + RN50 | 960x544x3 | FP16 | 32 | 442 |
COCO 对象检测 | DINO + FAN-S | 960x544x3 | FP16 | 32 | 213 |
COCO 对象检测 | DINO + GC-ViT-T | 960x544x3 | FP16 | 32 | 290 |
COCO 对象检测 | DINO + FAN-L | 960x544x3 | FP16 | 32 | 125.5 |
Cityscapes 分割 | SegFormer + FAN-T-H | 224x224x3 | FP16 | 64 | 4189 |
Cityscapes 分割 | Segformer + FAN-S-H | 224x224x3 | FP16 | 64 | 3143 |
Cityscapes 分割 | SegFormer + FAN-B-H | 224x224x3 | FP16 | 64 | 2306 |
Cityscapes 分割 | SegFormer + FAN-L-H | 224x224x3 | FP16 | 64 | 1732 |
RetailObjectDetection v2.0 - 二元 | Efficientdet-D5 | 960x544x3 | FP16 | ||
RetailObjectDetection v2.0 - 二元 | DINO-FAN_base | 960x544x3 | FP16 | 32 | 167 |
RetailObjectDetection v2.0 - Meta | DINO-FAN_base | 960x544x3 | FP16 | 32 | 167 |
RetailObjectEmbedding v2.0 | FAN-B-H | 224x224x3 | FP16 | 64 | 2686 |
RetailObjectEmbedding v2.0 | FAN-L-H | 224x224x3 | FP16 | 64 | 1919 |
RetailObjectEmbedding v2.0 | NVCLIP-B | 224x224x3 | FP16 | 64 | 29070 |
Siamese Optical Inspection | Siamese CNN | 2x512x128x3 | FP16 | 128 | 24107 |
OCDNet | DCN-RN18 | 640x640x3 | FP16 | 64 | 1468 |
OCDNet | DCN-RN50 | 640x640x3 | FP16 | 64 | 706 |
OCRNet | ResNet50 + Bi-LSTM 剪枝 | 32x100x3 | FP16 | 512 | 55717 |
OCRNet | ResNet50 + Bi-LSTM 未剪枝 | 32x100x3 | FP16 | 512 | 48492 |
PCB 检测 | GC-ViT-xxTiny | 224x224x3 | FP16 | 128 | 12273 |
CitySemSegFormer v2.0 | Segformer + MIT | 1024x1024x3 | FP16 | 8 | 108 |
CitySemSegFormer v2.0 | SegFormer + FAN -B-H | 1024x1024x3 | FP16 | 8 | 89.5 |
PeopleSemSegFormer v2.0 | SegFormer + FAN-B-H | 512x512x3 | FP16 | 32 | 454 |
Visual ChangeNet Classification | Visual ChangeNet + FAN -S-H | 512x128x3 | FP16 | 64 | 1581 |
Visual ChangeNet Segmentation | Visual ChangeNet + FAN -B-H | 256x256x3 | FP16 | 32 | 841 |
CenterPose | DLA34 | 512x512x3 | FP16 | 1 | 105.84 |
CenterPose | FAN-S-H | 512x512x3 | FP16 | 1 | 76.26 |
通用计算机视觉模型
使用通用模型,您可以训练图像分类模型、对象检测模型或实例分割模型。
对于分类,您可以使用可用的架构之一进行训练,例如 ResNet、EfficientNet、VGG、MobileNet、GoogLeNet、SqueezeNet 或 DarkNet。
对于对象检测任务,您可以从流行的 YOLOv3/v4/v4-tiny、FasterRCNN、SSD、RetinaNet 和 DSSD 架构以及 NVIDIA 自己的 DetectNet_v2 架构中进行选择。
对于实例分割,您可以使用 MaskRCNN 进行实例分割,或使用 UNET 进行语义分割。
这使您可以灵活地构建用于任何数量应用程序的 AI 模型,从用于边缘 GPU 的更小、轻量级模型到用于更复杂任务的更大模型。有关所有排列和组合,请参阅下表。
主干网络 |
重识别 |
度量学习识别 |
---|---|---|
NvDINOv2 | X | |
GcViT | ||
ViT | X | |
FAN | ||
FasterViT | ||
ResNet | X | X |
Swin | X | |
EfficientNet | ||
ST-GCN(图卷积网络) | ||
MIT-b |
主干网络 |
图像分类 |
---|---|
NvDINOv2 | X |
GcViT | X |
ViT | X |
FAN | X |
FasterViT | X |
ResNet | X |
Swin | X |
EfficientNet | X |
ST-GCN(图卷积网络) | |
MIT-b |
主干网络 |
DINO |
D-DETR |
Grounding DINO |
EfficientDet |
---|---|---|---|---|
NvDINOv2 | X | |||
GcViT | X | X | ||
ViT | X | X | ||
FAN | X | |||
FasterViT | ||||
ResNet | X | X | ||
Swin | X | |||
EfficientNet | X | |||
ST-GCN(图卷积网络) | ||||
MIT-b |
主干网络 |
MAL |
Mask GroundingDINO |
Mask2Former |
---|---|---|---|
NvDINOv2 | |||
GcViT | |||
ViT | X | ||
FAN | |||
FasterViT | |||
ResNet | |||
Swin | X | X | |
EfficientNet | |||
ST-GCN(图卷积网络) | |||
MIT-b |
主干网络 |
SegFormer |
Mask2Former |
---|---|---|
NvDINOv2 | ||
GcViT | ||
ViT | ||
FAN | X | |
FasterViT | ||
ResNet | ||
Swin | X | |
EfficientNet | ||
ST-GCN(图卷积网络) | ||
MIT-b | X |
主干网络 |
Mask2Former |
---|---|
NvDINOv2 | |
GcViT | |
ViT | |
FAN | |
FasterViT | |
ResNet | |
Swin | X |
EfficientNet | |
ST-GCN(图卷积网络) | |
MIT-b |
主干网络 |
OCD |
OCR |
---|---|---|
NvDINOv2 | ||
GcViT | ||
ViT | ||
FAN | X | X |
FasterViT | ||
ResNet | X | X |
Swin | ||
EfficientNet | ||
ST-GCN(图卷积网络) | ||
MIT-b |
主干网络 |
分类 |
分割 |
---|---|---|
NvDINOv2 | X | X |
GcViT | ||
ViT | X | X |
FAN | X | X |
FasterViT | ||
ResNet | ||
Swin | ||
EfficientNet | ||
ST-GCN(图卷积网络) | ||
MIT-b |
主干网络 |
姿态分类 |
---|---|
NvDINOv2 | |
GcViT | |
ViT | |
FAN | |
FasterViT | |
ResNet | |
Swin | |
EfficientNet | |
ST-GCN(图卷积网络) | X |
MIT-b |
计算机视觉功能摘要
下表总结了计算机视觉模型和启用的功能。
CV 任务 |
模型 |
22-05 新增 |
TAO 4.0 新增 |
TAO 5.0 新增 |
TAO 5.5 新增 |
剪枝 |
知识蒸馏 |
QAT |
AutoML |
REST API |
通道式 QAT |
类别权重 |
可视化 (TB) |
MLOPs 集成 (W&B/ClearML) |
BYOM |
多节点 |
多 GPU |
AMP |
提前停止 |
框架 |
注释格式 |
DLA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
分类 | ResNet10/18/34/50/101 | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 是 | 是 | 否 | 否 | 是 | clearml,wandb | 是 | 是 | 是 | 是 | 否 | tf1 | ImageNet | 是 |
分类 | VGG16/19 | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 是 | 是 | 否 | 否 | 是 | clearml,wandb | 是 | 是 | 是 | 是 | 否 | tf1 | ImageNet | 是 |
分类 | GoogleNet | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 是 | 是 | 否 | 否 | 是 | clearml,wandb | 是 | 是 | 是 | 是 | 否 | tf1 | ImageNet | 是 |
分类 | MobileNet_v1/v2 | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 是 | 是 | 否 | 否 | 是 | clearml,wandb | 是 | 是 | 是 | 是 | 否 | tf1 | ImageNet | 是 |
分类 | SqueezeNet | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 是 | 是 | 否 | 否 | 是 | clearml,wandb | 是 | 是 | 是 | 是 | 否 | tf1 | ImageNet | 是 |
分类 | DarkNet19/53 | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 是 | 是 | 否 | 否 | 是 | clearml,wandb | 是 | 是 | 是 | 是 | 否 | tf1 | ImageNet | 是 |
分类 | EfficientNet_B0-B7 | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 是 | 是 | 否 | 否 | 是 | clearml,wandb | 是 | 是 | 是 | 是 | 否 | tf1 | ImageNet | 是 |
分类 | CSPDarkNet19/53 | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 是 | 是 | 否 | 否 | 是 | clearml,wandb | 是 | 是 | 是 | 是 | 否 | tf1 | ImageNet | 是 |
分类 | CSPDarkNet-Tiny | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 是 | 是 | 否 | 否 | 是 | clearml,wandb | 是 | 是 | 是 | 是 | 否 | tf1 | ImageNet | 是 |
分类 | EfficientNet_B0-B5 | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 是 | 是 | 是 | 否 | 是 | clearml,wandb | 是 | 是 | 是 | 是 | 否 | tf2 | ImageNet | 是 |
分类 | GcViT | 否 | 否 | 是 | 否 | 否 | 否 | 否 | 是 | 是 | 否 | 是 | 否 | 否 | 否 | 是 | 是 | 是 | 否 | pyt | ImageNet | 否 |
分类 | FAN | 否 | 否 | 是 | 否 | 否 | 否 | 否 | 是 | 是 | 否 | 是 | 否 | 否 | 否 | 是 | 是 | 是 | 否 | pyt | ImageNet | 否 |
检测 | EfficientDet | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 是 | 否 | 是 | 否 | 是 | clearml,wandb | 否 | 是 | 是 | 是 | 否 | tf2 | COCO | 是 |
检测 | RetinaNet | 否 | 否 | 否 | 否 | 是 | 否 | 是 | 是 | 是 | 否 | 是 | 是 | clearml,wandb | 否 | 是 | 是 | 是 | 是 | tf1 | KITTI/COCO | 是 |
检测 | DetectNet_v2 | 否 | 否 | 否 | 否 | 是 | 否 | 是 | 是 | 是 | 否 | 是 | 是 | clearml,wandb | 否 | 是 | 是 | 是 | 是 | tf1 | KITTI/COCO | 是 |
检测 | SSD | 否 | 否 | 否 | 否 | 是 | 否 | 是 | 是 | 是 | 否 | 否 | 是 | clearml,wandb | 否 | 是 | 是 | 是 | 是 | tf1 | KITTI/COCO | 是 |
检测 | DSSD | 否 | 否 | 否 | 否 | 是 | 否 | 是 | 是 | 是 | 否 | 否 | 是 | clearml,wandb | 否 | 是 | 是 | 是 | 是 | tf1 | KITTI/COCO | 是 |
检测 | Deformable DETR | 是 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 否 | 否 | 否 | wandb | 否 | 是 | 是 | 是 | 否 | pyt | COCO | 否 |
检测 | DINO | 否 | 否 | 是 | 否 | 否 | 是 | 否 | 是 | 是 | 否 | 否 | 否 | wandb | 否 | 是 | 是 | 是 | 否 | pyt | COCO | 否 |
检测 | GroundingDINO | 否 | 否 | 否 | 是 | 否 | 否 | 否 | 是 | 是 | 否 | 否 | 否 | wandb | 否 | 是 | 是 | 是 | 否 | pyt | ODVG/COCO | 否 |
检测 | BevFusion | 否 | 否 | 否 | 是 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | wandb | 否 | 是 | 是 | 是 | 否 | pyt | KITTI/Nuscenes | 否 |
多任务分类 | 所有分类 | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 是 | 是 | 否 | 否 | 是 | clearml | 否 | 是 | 是 | 是 | 否 | tf1 | 自定义 | 是 |
实例/全景/语义分割 | Mask2Former | 否 | 否 | 否 | 是 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 否 | wandb | 否 | 是 | 是 | 是 | 否 | pyt | COCO | 否 |
实例分割 | MaskRCNN | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 是 | 是 | 否 | 否 | 是 | clearml,wandb | 否 | 是 | 是 | 是 | 否 | tf1 | COCO | 否 |
语义分割 | Segformer | 是 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 否 | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 否 | pyt | CityScape - PNG | 否 |
语义分割 | UNET | 否 | 否 | 否 | 否 | 是 | 否 | 是 | 是 | 是 | 否 | 否 | 是 | clearml,wandb | 是 | 是 | 是 | 是 | 否 | tf1 | CityScape - PNG | 否 |
OCR | LPR | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 否 | 否 | 是 | 否 | 否 | 是 | 是 | 是 | 是 | tf1 | 自定义 - txt 文件 | 否 |
关键点 | 2D 人体姿态 | 否 | 否 | 否 | 否 | 是 | 否 | 否,但 PTQ | 是 | 是 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 是 | 否 | tf1 | COCO | 否 |
关键点 | 2D 人体姿态 | 否 | 否 | 否 | 否 | 是 | 否 | 否,但 PTQ | 是 | 是 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 是 | 否 | tf1 | COCO | 否 |
点云 | PointPillars | 是 | 否 | 否 | 否 | 是 | 否 | 否 | 是 | 是 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 是 | 否 | pyt | KITTI | 否 |
动作识别 | 2D 动作识别 RGB | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 否 | 否 | 否 | wandb | 否 | 否 | 是 | 是 | 否 | pyt | 自定义 | 否 |
动作识别 | 3D 动作识别 RGB | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 否 | 否 | 否 | wandb | 否 | 否 | 是 | 是 | 否 | pyt | 自定义 | 否 |
动作识别 | 2D 动作识别 OF | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 否 | 否 | 否 | wandb | 否 | 否 | 是 | 是 | 否 | pyt | 自定义 | 否 |
动作识别 | 3D 动作识别 OF | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 否 | 否 | 否 | wandb | 否 | 否 | 是 | 是 | 否 | pyt | 自定义 | 否 |
其他 | 姿态动作分类 | 是 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 否 | 否 | 否 | wandb | 否 | 否 | 是 | 是 | 否 | pyt | COCO | 否 |
其他 | HeartRateNet | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 否 | tf1 | NVIDIA 定义 | 否 |
其他 | GazeNet | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 否 | tf1 | NVIDIA 定义 | 否 |
其他 | EmotionNet | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 否 | 是 | 否 | 否 | 否 | 否 | 是 | 否 | tf1 | NVIDIA 定义 | 否 |
其他 | GestureNet | 否 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 是 | 是 | 否 | tf1 | NVIDIA 定义 | 否 |
特征嵌入 | ResNet50 | 是 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 否 | 否 | 否 | 否 | 是 | 否 | 否 | 否 | pyt | Market1501 | 否 |
其他 | OpticalInspection | 否 | 否 | 是 | 否 | 否 | 否 | 否 | 是 | 是 | 否 | 是(假阳性率采样) | 是 | wandb | 否 | 否 | 是 | 否 | 否 | pyt | NVIDIA 定义 | 是 |
其他 | Optical Character Detection | 否 | 否 | 是 | 否 | 是 | 否 | 否 | 是 | 是 | 否 | 否 | 否 | wandb | 否 | 是 | 是 | 否 | 否 | pyt | NVDIA 定义 | 否 |
OCR | 光学字符识别 | 否 | 否 | 是 | 否 | 是 | 否 | 否 | 是 | 是 | 否 | 否 | 否 | wandb | 否 | 是 | 是 | 否 | 否 | pyt | NVIDIA 定义 | 否 |