TAO v5.5.0

概述

TAO 提供了一个广泛的模型库,其中包含用于计算机视觉用例的预训练模型。

您可以从以下三种类型的预训练模型开始

  • 基础模型:基础模型是大规模机器学习模型,它们是在海量数据上大规模训练的。这些模型通常使用某种形式的自监督或半监督训练算法进行训练。基础模型的主要目标是作为一个起点,可以适应各种下游任务。

  • 专用预训练模型:这些是高精度的模型,它们在数千个数据输入上针对特定任务进行训练。这些面向领域的模型可以直接用于推理,也可以与 TAO 一起用于在您自己的数据集上进行迁移学习。

  • 预训练权重:这些模型的预训练权重仅作为构建更复杂模型的起点。对于计算机视觉用例,这些预训练权重是在 Open Image 数据集上训练的,与从随机初始化权重开始相比,它们为训练提供了更好的起点。

tao_toolkit_models_tree.png

您可以从 100 多种模型架构和主干的排列组合中选择通用视觉模型。

基础模型

模型名称

描述

NGC 实例

TAO 微调

TAO 商用预训练 NV-CLIP 模型 TAO 商用预训练 NV-CLIP ViT-H 模型 nvidia/tao/nvclip_vit
TAO 商用预训练 NV-Dinov2 模型 TAO 商用预训练 NV-Dinov2 模型 ViT-G 主干 nvidia/tao/nvdinov2_vitg 使用 classification_pyt、DINO 和 visual changenet 进行下游微调
SegIC 在商业数据上训练的上下文分割模型。 nvidia/tao/segic
Mask Grounding DINO 在商业数据上训练的开放词汇多模态实例分割模型。 nvidia/tao/mask_grounding_dino
Grounding DINO 在商业数据上训练的开放词汇多模态对象检测模型。 nvidia/tao/grounding_dino
TAO Toolkit ODISE 1.1 从先前的 OCDNet 模型识别字符的模型。 nvidia/tao/odise 是(仅限源代码)
Mask Auto Label 用于生成语义分割标签的预训练模型。 nvidia/tao/mask_auto_label
FoundationPose 6-DoF 对象姿态估计和跟踪,提供对象姿态和 3D 边界框 nvidia/tao/foundationpose

专用模型

模型名称

描述

NGC 实例

TAO 微调

用于 3D 对象检测的 BEVFusion 用于从点云和 RGB 数据检测 3D 对象的 BEVFusion 模型。 nvidia/tao/bevfusion
Action Recognition Net 5 类动作识别网络,用于识别图像中人们在做什么。 nvidia/tao/actionrecognitionnet
ReidentifcationNet Transformer 基于 SWIN Transformer 的重识别网络,用于生成嵌入,以识别不同场景中的人物。 nvidia/tao/reidentificationnet_transformer
ReIdentificationNet 重识别网络,用于生成嵌入,以识别不同场景中的人物。 nvidia/tao/reidentificationnet
CenterPose - ISAAC Ros 用于零售物体的 3 姿态检测模型。 nvidia/tao/centerpose_ros
光学字符识别 从先前的 OCDNet 模型识别字符的模型。 nvidia/tao/ocrnet
零售对象检测 基于 DINO(具有改进的去噪锚框的 DETR)的对象检测网络,用于检测结账柜台上的零售物体。 nvidia/tao/retail_object_detection
姿态分类 姿态分类网络,用于从人的骨骼对人的姿势进行分类。 nvidia/tao/poseclassificationnet
PointPillarNet 用于从 LIDAR 点云文件检测一个或多个对象并返回 3D 边界框的模型。 nvidia/tao/pointpillarnet
PeopleSemSegNet - AMR 图像中人物的语义分割。 nvidia/tao/peoplesemsegnet_amr
PeopleSemSegnet 图像中人物的语义分割。 nvidia/tao/peoplesemsegnet
PeopleSegNet 1 类实例分割网络,用于检测和分割图像中人的实例。 nvidia/tao/peoplesegnet
PeopleNet Transformer 3 类对象检测网络,用于检测图像中的人物。 nvidia/tao/peoplenet_transformer
PeopleNet - AMR 3 类对象检测网络,用于检测图像中的人物。 nvidia/tao/peoplenet_amr
PeopleNet 3 类对象检测网络,用于检测图像中的人物。 nvidia/tao/peoplenet
Multiple 3D CenterPose 用于类别级对象姿态估计的单阶段、基于关键点的方法 nvidia/tao/multiclass_3d_centerpose
零售对象识别 用于识别结账柜台上物体的嵌入生成器模型。 nvidia/tao/retail_object_recognition
PeopleSemSegformer 用于分割图像中人物的模型。 nvidia/tao/peoplesemsegformer
PeopleNet Transformer v2.0 3 类对象检测网络,用于检测图像中的人物。 nvidia/tao/peoplenet_transformer_v2
Visual ChangeNet - Segmentation Visual ChangeNet - Segmentation nvidia/tao/visual_changenet_segmentation_landsatscd
CenterPose 用于零售物体的 3 姿态检测模型。 nvidia/tao/centerpose
Visual ChangeNet Segmentation - MvTEC 变更分割模型。 nvidia/tao/visual_changenet_segmentation_mvtec
光学检测 用于检测印刷电路板上焊接组件缺陷的模型。 nvidia/tao/optical_inspection
PCB 缺陷分类 用于对印刷电路板上焊接组件的缺陷进行分类的模型。 nvidia/tao/pcb_classification
Visual ChangeNet Segmentation - (仅限研究) Visual ChangeNet-Segmentation(仅限研究) nvidia/tao/visual_changenet_segmentation_levircd
Visual ChangeNet Classification Visual ChangeNet - 分类模型 nvidia/tao/visual_changenet_classification
FaceDetect 从图像中检测人脸。 nvidia/tao/facenet
FaceDetectIR 1 类对象检测网络,用于检测图像中的人脸。 nvidia/tao/facedetectir
HeartRateNet 从 RGB 面部视频非侵入式地估计心率。 nvidia/tao/heartratenet
Gaze Estimation 检测人的注视点和注视向量。 nvidia/tao/gazenet
Facial Landmarks Estimation 从人脸图像中检测基准关键点。 nvidia/tao/fpenet
EmotionNet 用于对面部表情进行分类的网络。 nvidia/tao/emotionnet
GestureNet 从手部裁剪图像中对手势进行分类。 nvidia/tao/gesturenet
License Plate Recognition 用于识别车牌裁剪图像中字符的模型。 nvidia/tao/lprnet
LPDNet 对象检测网络,用于检测汽车图像中的车牌。 nvidia/tao/lpdnet
DashCamNet 4 类对象检测网络,用于检测图像中的汽车。 nvidia/tao/dashcamnet
CitySemSegFormer 图像中人物的语义分割。 nvidia/tao/citysemsegformer
BodyPoseNet 从图像中检测人体姿势。 nvidia/tao/bodyposenet
Optical Character Detection 用于检测图像中字符的网络。 nvidia/tao/ocdnet
VehicleTypeNet Resnet18 模型,用于将汽车裁剪图像分类为 6 种汽车类型之一。 nvidia/tao/vehicletypenet
VehicleMakeNet Resnet18 模型,用于将汽车裁剪图像分类为 20 个汽车品牌之一。 nvidia/tao/vehiclemakenet
TrafficCamNet 4 类对象检测网络,用于检测图像中的汽车。 nvidia/tao/trafficcamnet
BodyPose3DNet 3D 人体姿态估计网络,用于预测图像中人的 34 个 3D 关键点。 nvidia/tao/bodypose3dnet

预训练模型

模型名称

描述

NGC 实例

Mask2Former 在 COCO 数据上训练的二元实例分割模型。 nvidia/tao/mask2former
TAO 预训练语义分割 预训练权重,以使用迁移学习工具包促进迁移学习。 nvidia/tao/pretrained_semantic_segmentation
TAO 预训练实例分割 预训练权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_instance_segmentation
TAO 预训练 EfficientDet 预训练权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_efficientdet
TAO 预训练 DetectNet V2 预训练权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_detectnet_v2
TAO 预训练分类 预训练权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_classification
TAO 预训练对象检测 预训练权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_object_detection
预训练 SegFormer ImageNet 权重 在 ImageNet 上训练的预训练 SegFormer 权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_segformer_imagenet
预训练 EfficientDet NvImageNet 主干 在 NvImageNet 上训练的预训练 EfficientNet 主干权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_efficientdet_tf2_nvimagenet
在 COCO 上训练的预训练 EfficientDet 模型 在 COCO 上训练的预训练 EfficientDet 模型,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_efficientdet_tf2_coco
Deformable DETR 在 COCO2017 上训练的模型,用于检测和分类对象。 nvidia/tao/pretrained_deformable_detr_coco
DINO 在 COCO2017 上训练的模型,用于检测和分类对象。 nvidia/tao/pretrained_dino_coco
TAO 预训练 DINO 与基础模型主干 TAO 预训练 DINO 与基础模型主干 nvidia/tao/dino_with_fm_backbone
在 COCO 上使用 NVDinoV2 主干的 DINO 在 COCO2017 上训练的模型,用于检测和分类对象。 nvidia/tao/pretrained_nvdinov2_dino_coco
预训练基于 FasterViT 的 ImageNet 分类权重 在 ImageNet 上训练的预训练 FasterViT 权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_fastervit_classification_imagenet
预训练基于 FasterViT 的 NVImageNet 分类权重 在 NVImageNet 上训练的预训练 FasterViT 权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_fastervit_classification_nvimagenet
预训练 GCViT ImageNet 分类权重 在 ImageNet 上训练的预训练 GCViT 权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_gcvit_classification_imagenet
预训练 Deformable DETR NvImageNet 权重 在 NvImageNet 上训练的预训练 deformable_detr 权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_deformable_detr_nvimagenet
预训练基于 FAN 的 ImageNet 分类权重 在 ImageNet 上训练的预训练 FAN 权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_fan_classification_imagenet
预训练基于 FAN 的 NVImageNet 分类权重 在 NVImageNet 上训练的预训练 FAN 权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_fan_classification_nvimagenet
预训练 DINO ImageNet 权重 在 ImageNet 上训练的预训练 DINO 权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_dino_imagenet
预训练 Segformer - CityScapes 在 CityScapes 上训练的预训练 segformer 模型。 nvidia/tao/pretrained_segformer_cityscapes
预训练 SegFormer NvImageNet 权重 在 NvImageNet 上训练的预训练 SegFormer 权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_segformer_nvimagenet
预训练 GCViT NVImageNet 分类权重 在 NVImageNet 上训练的预训练 GcViT 权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_gcvit_classification_nvimagenet
预训练 DINO NvImageNet 权重 在 NvImageNet 上训练的预训练 DINO 权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_dino_nvimagenet
预训练 Deformable DETR ImageNet 权重 在 ImageNet 上训练的预训练 deformable_detr 权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_deformable_detr_imagenet
预训练 Mask Auto Label 预训练模型,以促进 TAO Toolkit 上 MAL 的迁移学习 nvidia/tao/pretrained_mask_auto_label
预训练 ImageNet 主干权重 在 ImageNet 上训练的预训练权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_imagenet_backbones
预训练 NVImageNet 主干权重 在 NVImageNet 上训练的预训练权重,以使用 TAO Toolkit 促进迁移学习。 nvidia/tao/pretrained_nvimagenet_backbones
TAO 预训练 EfficientDet-TF2 用于 TAO Toolkit 的 efficientdet-tf2 的预训练 efficientnet 主干 nvidia/tao/pretrained_efficientdet_tf2
TAO 预训练 Classification-TF2 用于 TAO Toolkit TF2 图像分类的预训练主干 nvidia/tao/pretrained_classification_tf2

性能指标

下表总结了这些预训练模型在各种 NVIDIA 平台上的性能。表中的数字是使用 TensorRT 示例中的 trtexec 工具测量的推理性能。

模型名称

架构

推理分辨率

精度

GPU BS

GPU FPS

DLA1 + DLA2 BS

DLA1 + DLA2 FPS

PeopleNet DetectNet_v2 - ResNet18 960x544x3 INT8 16 400 16 300
PeopleNet (v2.3) DetectNet_v2 - ResNet34 960x544x3 INT8 32 314 32 226
PeopleNet (v2.5 未剪枝) DetectNet_v2 - ResNet34 960x544x3 INT8 16 140 32 70
TrafficCamNet DetectNet_v2 - ResNet18 960x544x3 INT8 16 457 16 352
DashCamNet DetectNet_v2 - ResNet18 960x544x3 INT8 32 479 64 358
FaceDetect-IR DetectNet_v2 - ResNet18 384x240x3 INT8 64 2588 64 1700
VehilceMakeNet ResNet18 224x224x3 INT8 64 4261 64 2218
VehicleTypeNet ResNet18 224x224x3 INT8 64 3391 64 2044
FaceDetect (剪枝) DetectNet_v2 - ResNet18 736x416x3 INT8 32 613 32 492
License Plate Detection v1.0 DetectNet_v2 - ResNet18 640x480x3 INT8 32 32
License Plate Recognition ResNet 96x48x3 FP16 128 1498
面部地标 80x80x1 FP16 32 1606
GazeNet 224x224x1, 224x224x1, 224x224x1, 25x25x1 FP16 64 1241
GestureNet 160x160x3 FP16 64 5420
BodyPose 288x384x3 INT8 16 195
Action Recognition 2D RGB 2D CNN 224x224x96 FP16 32 577
Action Recognition 3D RGB 3D CNN 224x224x32x3 FP16 4 38
Action Recognition 2D OF 2D 光流 224x224x96 FP16 16 826
Action Recognition 3D OF 3D 光流 224x224x32x3 FP16 4 42
Point Pillar Point Pillar FP16 1 38
姿态分类 ST-GCN FP16 8 105
3D 姿态 - 精度 FP16 16 241
3D 姿态 - 性能 FP16 16 295
PeopleSemSegNet_v2 - Shuffle UNET - Shuffle 960x544x3 FP16 16 289
PeopleSemSegNet_v2 - Vanilla UNET - Vanilla 960x544x3 FP16 4 27
PeopleNet Transformer D-DETR 960x544x3 FP16 2 13
ReidentificationNet ResNet50 3x256x18 FP16 64 1049
RetailObjectDetection v1.0 - 100 类 EfficientNet-D5 416x416x3 FP16 16 48
RetailObjectDetection v1.0 - 二元 EfficientNet-D5 416x416x3 FP16 16 45
RetailObjectEmbedding v1.0 ResNet101 3x224x224 FP16 32 544
CitySemSegFormer v1.0 SegFormer FP16 1 0.6
ImageNet 分类 FAN-T-H 224x224x3 FP16 4 146.6
ImageNet 分类 FAN-S-H 224x224x3 FP16 4 94.5
ImageNet 分类 FAN-B-H 224x224x3 FP16 4 62
ImageNet 分类 FAN-L-H 224x224x3 FP16 4 43.9
ImageNet 分类 FAN-XL-H 224x224x3 FP16 4 39.9
ImageNet 分类 GC-ViT-xxTiny 224x224x3 FP16 8 212
ImageNet 分类 GC-ViT-xTiny 224x224x3 FP16 8 163
ImageNet 分类 GC-ViT-T 224x224x3 FP16 8 110
ImageNet 分类 GC-ViT-S 224x224x3 FP16
ImageNet 分类 GC-ViT-B 224x224x3 FP16 4 51.2
ImageNet 分类 GC-ViT-L 224x224x3 FP16 4 28.8
ImageNet 分类 GC-ViT-L-384 384x384x3 FP16 1 10.4
ImageNet 分类 FAN-B-H-384 (384 分辨率) 384x384x3 FP16 4 23.4
ImageNet 分类 FAN-L-H-384 384x384x3 FP16
ImageNet 分类 EfficientNetB0 224x224x3 FP16 64 870
ImageNet 分类 EfficientNetB1 224x224x3 FP16 64 344
ImageNet 分类 EfficientNetB2 224x224x3 FP16 32 313
ImageNet 分类 EfficientNetB3 224x224x3 FP16 32 234
ImageNet 分类 EfficientNetB4 224x224x3 FP16 32 175
ImageNet 分类 EfficientNetB5 224x224x3 FP16 16 123
COCO 对象检测 DDETR+RN50 960x544x3 FP16 1 9.6
COCO 对象检测 DDETR + GCViT-T 960x544x3 FP16 1 5.2
COCO 对象检测 DINO + RN50 960x544x3 FP16 1 8.4
COCO 对象检测 DINO + FAN-S 960x544x3 FP16 1 4.4
COCO 对象检测 DINO + GC-ViT-T 960x544x3 FP16 1 4.9
COCO 对象检测 DINO + FAN-L 960x544x3 FP16 1 2.6
Cityscapes 分割 SegFormer + FAN-T-H 224x224x3 FP16
Cityscapes 分割 Segformer + FAN-S-H 224x224x3 FP16
Cityscapes 分割 SegFormer + FAN-B-H 224x224x3 FP16
Cityscapes 分割 SegFormer + FAN-L-H 224x224x3 FP16
RetailObjectDetection v2.0 - 二元 Efficientdet-D5 960x544x3 FP16
RetailObjectDetection v2.0 - 二元 DINO-FAN_base 960x544x3 FP16 1 3.4
RetailObjectDetection v2.0 - Meta DINO-FAN_base 960x544x3 FP16 1 3.4
RetailObjectEmbedding v2.0 FAN-B-H 224x224x3 FP16 4 59.8
RetailObjectEmbedding v2.0 FAN-L-H 224x224x3 FP16 4 41.9
RetailObjectEmbedding v2.0 NVCLIP-B 224x224x3 FP16 16 575
Siamese Optical Inspection Siamese CNN 2x512x128x3 FP16 16 482
OCDNet DCN-RN18 640x640x3 FP16 2 45
OCDNet DCN-RN50 640x640x3 FP16 2 22
OCRNet ResNet50 + Bi-LSTM 剪枝 32x100x3 FP16 64 1373
OCRNet ResNet50 + Bi-LSTM 未剪枝 32x100x3 FP16 64 1051
PCB 检测 GC-ViT-xxTiny 224x224x3 FP16 4 198
CitySemSegFormer v2.0 Segformer + MIT 1024x1024x3 FP16 1 1.9
CitySemSegFormer v2.0 SegFormer + FAN -B-H 1024x1024x3 FP16 1 1.78
PeopleSemSegFormer v2.0 SegFormer + FAN-B-H 512x512x3 FP16
Visual ChangeNet Classification Visual ChangeNet + FAN -S-H 512x128x3 FP16 16 44.7
Visual ChangeNet Segmentation Visual ChangeNet + FAN -B-H 256x256x3 FP16 16 21.92
CenterPose DLA34 512x512x3 FP16 1 27.74
CenterPose FAN-S-H 512x512x3 FP16 1 11.35

模型名称

架构

推理分辨率

精度

GPU BS

GPU FPS

DLA1 + DLA2 BS

DLA1 + DLA2 FPS

PeopleNet DetectNet_v2 - ResNet18 960x544x3 INT8 32 1116 32 528
PeopleNet (v2.3) DetectNet_v2 - ResNet34 960x544x3 INT8 32 890 32 404
PeopleNet (v2.5 未剪枝) DetectNet_v2 - ResNet34 960x544x3 INT8 16 421 32 104
TrafficCamNet DetectNet_v2 - ResNet18 960x544x3 INT8 32 1268 32 594
DashCamNet DetectNet_v2 - ResNet18 960x544x3 INT8 32 1308 64 587
FaceDetect-IR DetectNet_v2 - ResNet18 384x240x3 INT8 128 7462 128 2720
VehilceMakeNet ResNet18 224x224x3 INT8 128 11872 128 3956
VehicleTypeNet ResNet18 224x224x3 INT8 128 9815 128 3494
FaceDetect (剪枝) DetectNet_v2 - ResNet18 736x416x3 INT8 64 1700 64 870
License Plate Detection v1.0 DetectNet_v2 - ResNet18 640x480x3 INT8 64 64
License Plate Recognition ResNet 96x48x3 FP16 128 4118
面部地标 80x80x1 FP16 64
GazeNet 224x224x1, 224x224x1, 224x224x1, 25x25x1 FP16 128 3226
GestureNet 160x160x3 FP16 128 15133
BodyPose 288x384x3 INT8 16 559
Action Recognition 2D RGB 2D CNN 224x224x96 FP16 64 1577
Action Recognition 3D RGB 3D CNN 224x224x32x3 FP16 8 105
Action Recognition 2D OF 2D 光流 224x224x96 FP16 32 1702
Action Recognition 3D OF 3D 光流 224x224x32x3 FP16 4 109
Point Pillar Point Pillar FP16 1 90
姿态分类 ST-GCN FP16 16 262
3D 姿态 - 精度 FP16 16 597
3D 姿态 - 性能 FP16 16 711
PeopleSemSegNet_v2 - Shuffle UNET - Shuffle 960x544x3 FP16 32 703
PeopleSemSegNet_v2 - Vanilla UNET - Vanilla 960x544x3 FP16 4 75
PeopleNet Transformer D-DETR 960x544x3 FP16 2 33
ReidentificationNet ResNet50 3x256x18 FP16 64 2772
RetailObjectDetection v1.0 - 100 类 EfficientNet-D5 416x416x3 FP16 16 121
RetailObjectDetection v1.0 - 二元 EfficientNet-D5 416x416x3 FP16 16 114
RetailObjectEmbedding v1.0 ResNet101 3x224x224 FP16 32 1355
CitySemSegFormer v1.0 SegFormer FP16 1 1.5
ImageNet 分类 FAN-T-H 224x224x3 FP16 8 385
ImageNet 分类 FAN-S-H 224x224x3 FP16 8 255
ImageNet 分类 FAN-B-H 224x224x3 FP16 8 166
ImageNet 分类 FAN-L-H 224x224x3 FP16 8 117
ImageNet 分类 FAN-XL-H 224x224x3 FP16 8 106
ImageNet 分类 GC-ViT-xxTiny 224x224x3 FP16 16 559
ImageNet 分类 GC-ViT-xTiny 224x224x3 FP16 16 431
ImageNet 分类 GC-ViT-T 224x224x3 FP16 16 293
ImageNet 分类 GC-ViT-S 224x224x3 FP16
ImageNet 分类 GC-ViT-B 224x224x3 FP16 8 138
ImageNet 分类 GC-ViT-L 224x224x3 FP16 8 80.7
ImageNet 分类 GC-ViT-L-384 384x384x3 FP16 4 28.1
ImageNet 分类 FAN-B-H-384 (384 分辨率) 384x384x3 FP16 8 61.2
ImageNet 分类 FAN-L-H-384 384x384x3 FP16
ImageNet 分类 EfficientNetB0 224x224x3 FP16 64 2152
ImageNet 分类 EfficientNetB1 224x224x3 FP16 64 860
ImageNet 分类 EfficientNetB2 224x224x3 FP16 64 811
ImageNet 分类 EfficientNetB3 224x224x3 FP16 64 609
ImageNet 分类 EfficientNetB4 224x224x3 FP16 64 451
ImageNet 分类 EfficientNetB5 224x224x3 FP16 32 318
COCO 对象检测 DDETR+RN50 960x544x3 FP16 4 25.8
COCO 对象检测 DDETR + GCViT-T 960x544x3 FP16 4 14.2
COCO 对象检测 DINO + RN50 960x544x3 FP16 4 22
COCO 对象检测 DINO + FAN-S 960x544x3 FP16 4 11.2
COCO 对象检测 DINO + GC-ViT-T 960x544x3 FP16 4 13
COCO 对象检测 DINO + FAN-L 960x544x3 FP16 1 6.2
Cityscapes 分割 SegFormer + FAN-T-H 224x224x3 FP16
Cityscapes 分割 Segformer + FAN-S-H 224x224x3 FP16
Cityscapes 分割 SegFormer + FAN-B-H 224x224x3 FP16
Cityscapes 分割 SegFormer + FAN-L-H 224x224x3 FP16
RetailObjectDetection v2.0 - 二元 Efficientdet-D5 960x544x3 FP16
RetailObjectDetection v2.0 - 二元 DINO-FAN_base 960x544x3 FP16 1 8.1
RetailObjectDetection v2.0 - Meta DINO-FAN_base 960x544x3 FP16 1 8.1
RetailObjectEmbedding v2.0 FAN-B-H 224x224x3 FP16 8 161
RetailObjectEmbedding v2.0 FAN-L-H 224x224x3 FP16 8 112
RetailObjectEmbedding v2.0 NVCLIP-B 224x224x3 FP16 32 1541
Siamese Optical Inspection Siamese CNN 2x512x128x3 FP16 32 1538
OCDNet DCN-RN18 640x640x3 FP16 4 120
OCDNet DCN-RN50 640x640x3 FP16
OCRNet ResNet50 + Bi-LSTM 剪枝 32x100x3 FP16 128 3876
OCRNet ResNet50 + Bi-LSTM 未剪枝 32x100x3 FP16 128 2950
PCB 检测 GC-ViT-xxTiny 224x224x3 FP16 16 560
CitySemSegFormer v2.0 Segformer + MIT 1024x1024x3 FP16 1 4.8
CitySemSegFormer v2.0 SegFormer + FAN -B-H 1024x1024x3 FP16 1 4.4
PeopleSemSegFormer v2.0 SegFormer + FAN-B-H 512x512x3 FP16
Visual ChangeNet Classification Visual ChangeNet + FAN -S-H 512x128x3 FP16 16 113.2
Visual ChangeNet Segmentation Visual ChangeNet + FAN -B-H 256x256x3 FP16 16 55
CenterPose DLA34 512x512x3 FP16 1 57.04
CenterPose FAN-S-H 512x512x3 FP16 1 28.03

模型名称

架构

推理分辨率

精度

GPU BS

GPU FPS

PeopleNet DetectNet_v2 - ResNet18 960x544x3 INT8 64 4228
PeopleNet (v2.3) DetectNet_v2 - ResNet34 960x544x3 INT8 32 3160
PeopleNet (v2.5 未剪枝) DetectNet_v2 - ResNet34 960x544x3 INT8 32 1603
TrafficCamNet DetectNet_v2 - ResNet18 960x544x3 INT8 64 5082
DashCamNet DetectNet_v2 - ResNet18 960x544x3 INT8 64 4900
FaceDetect-IR DetectNet_v2 - ResNet18 384x240x3 INT8 128 27100
VehilceMakeNet ResNet18 224x224x3 INT8 256 46200
VehicleTypeNet ResNet18 224x224x3 INT8 128 37200
FaceDetect (剪枝) DetectNet_v2 - ResNet18 736x416x3 INT8 64 7700
License Plate Detection v1.0 DetectNet_v2 - ResNet18 640x480x3 INT8 128 12500
License Plate Recognition ResNet 96x48x3 FP16 128 12400
面部地标 80x80x1 FP16 128 12400
GazeNet 224x224x1, 224x224x1, 224x224x1, 25x25x1 FP16 512 12321
GestureNet 160x160x3 FP16 512 47361
BodyPose 288x384x3 INT8 32 1596
Action Recognition 2D RGB 2D CNN 224x224x96 FP16 16 6000
Action Recognition 3D RGB 3D CNN 224x224x32x3 FP16 4 380
Action Recognition 2D OF 2D 光流 224x224x96 FP16 32 8940
Action Recognition 3D OF 3D 光流 224x224x32x3 FP16 16 461
Point Pillar Point Pillar FP16 1 271
姿态分类 ST-GCN FP16 64 1121.68
3D 姿态 - 精度 FP16 32 1913.92
3D 姿态 - 性能 FP16 32 2241.83
PeopleSemSegNet_v2 - Shuffle UNET - Shuffle 960x544x3 FP16 64 2862.76
PeopleSemSegNet_v2 - Vanilla UNET - Vanilla 960x544x3 FP16 16 253.77
PeopleNet Transformer D-DETR 960x544x3 FP16 16 135
ReidentificationNet ResNet50 3x256x18 FP16 128 9649
RetailObjectDetection v1.0 - 100 类 EfficientNet-D5 416x416x3 FP16 64 485
RetailObjectDetection v1.0 - 二元 EfficientNet-D5 416x416x3 FP16 64 450
RetailObjectEmbedding v1.0 ResNet101 3x224x224 FP16 64 4791
CitySemSegFormer v1.0 SegFormer FP16 1 6.4
ImageNet 分类 FAN-T-H 224x224x3 FP16 32 1806
ImageNet 分类 FAN-S-H 224x224x3 FP16 32 1185
ImageNet 分类 FAN-B-H 224x224x3 FP16 16 769
ImageNet 分类 FAN-L-H 224x224x3 FP16 16 548
ImageNet 分类 FAN-XL-H 224x224x3 FP16 16 423
ImageNet 分类 GC-ViT-xxTiny 224x224x3 FP16 32 3105
ImageNet 分类 GC-ViT-xTiny 224x224x3 FP16 32 2339
ImageNet 分类 GC-ViT-T 224x224x3 FP16 32 1658
ImageNet 分类 GC-ViT-S 224x224x3 FP16 16 1077
ImageNet 分类 GC-ViT-B 224x224x3 FP16 16 711
ImageNet 分类 GC-ViT-L 224x224x3 FP16 16 388
ImageNet 分类 GC-ViT-L-384 384x384x3 FP16 8 151
ImageNet 分类 FAN-B-H-384 (384 分辨率) 384x384x3 FP16 16 260
ImageNet 分类 FAN-L-H-384 384x384x3 FP16 8 179
ImageNet 分类 EfficientNetB0 224x224x3 FP16 64 8361
ImageNet 分类 EfficientNetB1 224x224x3 FP16 64 3245
ImageNet 分类 EfficientNetB2 224x224x3 FP16 64 3078
ImageNet 分类 EfficientNetB3 224x224x3 FP16 64 2320
ImageNet 分类 EfficientNetB4 224x224x3 FP16 64 1669
ImageNet 分类 EfficientNetB5 224x224x3 FP16 64 1203
COCO 对象检测 DDETR+RN50 960x544x3 FP16 8 141
COCO 对象检测 DDETR + GCViT-T 960x544x3 FP16 8 87
COCO 对象检测 DINO + RN50 960x544x3 FP16 8 115
COCO 对象检测 DINO + FAN-S 960x544x3 FP16 4 56
COCO 对象检测 DINO + GC-ViT-T 960x544x3 FP16 8 77
COCO 对象检测 DINO + FAN-L 960x544x3 FP16 8 33.4
Cityscapes 分割 SegFormer + FAN-T-H 224x224x3 FP16 16 1098
Cityscapes 分割 Segformer + FAN-S-H 224x224x3 FP16 16 834
Cityscapes 分割 SegFormer + FAN-B-H 224x224x3 FP16 16 606
Cityscapes 分割 SegFormer + FAN-L-H 224x224x3 FP16 16 465
RetailObjectDetection v2.0 - 二元 Efficientdet-D5 960x544x3 FP16
RetailObjectDetection v2.0 - 二元 DINO-FAN_base 960x544x3 FP16 8 44.2
RetailObjectDetection v2.0 - Meta DINO-FAN_base 960x544x3 FP16 8 44
RetailObjectEmbedding v2.0 FAN-B-H 224x224x3 FP16 16 734
RetailObjectEmbedding v2.0 FAN-L-H 224x224x3 FP16 16 522
RetailObjectEmbedding v2.0 NVCLIP-B 224x224x3 FP16 16 5886
Siamese Optical Inspection Siamese CNN 2x512x128x3 FP16 32 6318
OCDNet DCN-RN18 640x640x3 FP16 16 387
OCDNet DCN-RN50 640x640x3 FP16 8 186.6
OCRNet ResNet50 + Bi-LSTM 剪枝 32x100x3 FP16 128 12122
OCRNet ResNet50 + Bi-LSTM 未剪枝 32x100x3 FP16 128 9656
PCB 检测 GC-ViT-xxTiny 224x224x3 FP16 32 3221
CitySemSegFormer v2.0 Segformer + MIT 1024x1024x3 FP16 4 29.3
CitySemSegFormer v2.0 SegFormer + FAN -B-H 1024x1024x3 FP16 4 23.7
PeopleSemSegFormer v2.0 SegFormer + FAN-B-H 512x512x3 FP16 8 116.8
Visual ChangeNet Classification Visual ChangeNet + FAN -S-H 512x128x3 FP16 16 436
Visual ChangeNet Segmentation Visual ChangeNet + FAN -B-H 256x256x3 FP16 16 204
CenterPose DLA34 512x512x3 FP16 1 57.46
CenterPose FAN-S-H 512x512x3 FP16 1 26.73

模型名称

架构

推理分辨率

精度

GPU BS

GPU FPS

PeopleNet DetectNet_v2 - ResNet18 960x544x3 INT8 64 3819
PeopleNet (v2.3) DetectNet_v2 - ResNet34 960x544x3 INT8 32 2568
PeopleNet (v2.5 未剪枝) DetectNet_v2 - ResNet34 960x544x3 INT8 32 1007
TrafficCamNet DetectNet_v2 - ResNet18 960x544x3 INT8 64 4754
DashCamNet DetectNet_v2 - ResNet18 960x544x3 INT8 64 4600
FaceDetect-IR DetectNet_v2 - ResNet18 384x240x3 INT8 128 26900
VehilceMakeNet ResNet18 224x224x3 INT8 256 44800
VehicleTypeNet ResNet18 224x224x3 INT8 256 31500
FaceDetect (剪枝) DetectNet_v2 - ResNet18 736x416x3 INT8 64 6000
License Plate Detection v1.0 DetectNet_v2 - ResNet18 640x480x3 INT8 256 13900
License Plate Recognition ResNet 96x48x3 FP16 256 9000
面部地标 80x80x1 FP16 512 9600
GazeNet 224x224x1, 224x224x1, 224x224x1, 25x25x1 FP16 512 10718
GestureNet 160x160x3 FP16 512 35371
BodyPose 288x384x3 INT8 32 1334
Action Recognition 2D RGB 2D CNN 224x224x96 FP16 16 4600
Action Recognition 3D RGB 3D CNN 224x224x32x3 FP16 4 265
Action Recognition 2D OF 2D 光流 224x224x96 FP16 32 6500
Action Recognition 3D OF 3D 光流 224x224x32x3 FP16 16 284
Point Pillar Point Pillar FP16 1 246
姿态分类 ST-GCN FP16 64 825.75
3D 姿态 - 精度 FP16 32 1286.05
3D 姿态 - 性能 FP16 32 1558.21
PeopleSemSegNet_v2 - Shuffle UNET - Shuffle 960x544x3 FP16 64 2429.62
PeopleSemSegNet_v2 - Vanilla UNET - Vanilla 960x544x3 FP16 16 180.04
PeopleNet Transformer D-DETR 960x544x3 FP16 16 106
ReidentificationNet ResNet50 3x256x18 FP16 128 6129
RetailObjectDetection v1.0 - 100 类 EfficientNet-D5 416x416x3 FP16 64 367
RetailObjectDetection v1.0 - 二元 EfficientNet-D5 416x416x3 FP16 64 341
RetailObjectEmbedding v1.0 ResNet101 3x224x224 FP16 64 3105
CitySemSegFormer v1.0 SegFormer FP16 1 4.5

模型名称

架构

推理分辨率

精度

GPU BS

GPU FPS

ImageNet 分类 FAN-T-H 224x224x3 FP16 4 99.1
ImageNet 分类 FAN-S-H 224x224x3 FP16 4 64.5
ImageNet 分类 FAN-B-H 224x224x3 FP16 4 42.3
ImageNet 分类 FAN-L-H 224x224x3 FP16 4 29.8
ImageNet 分类 FAN-XL-H 224x224x3 FP16 4 27
ImageNet 分类 GC-ViT-xxTiny 224x224x3 FP16 8 146
ImageNet 分类 GC-ViT-xTiny 224x224x3 FP16 8 111
ImageNet 分类 GC-ViT-T 224x224x3 FP16 8 75
ImageNet 分类 GC-ViT-S 224x224x3 FP16
ImageNet 分类 GC-ViT-B 224x224x3 FP16 4 35.2
ImageNet 分类 GC-ViT-L 224x224x3 FP16 4 19.8
ImageNet 分类 GC-ViT-L-384 384x384x3 FP16
ImageNet 分类 FAN-B-H-384 (384 分辨率) 384x384x3 FP16 4 16
ImageNet 分类 FAN-L-H-384 384x384x3 FP16
ImageNet 分类 EfficientNetB0 224x224x3 FP16 32 571
ImageNet 分类 EfficientNetB1 224x224x3 FP16 32 227
ImageNet 分类 EfficientNetB2 224x224x3 FP16 16 208
ImageNet 分类 EfficientNetB3 224x224x3 FP16 16 155
ImageNet 分类 EfficientNetB4 224x224x3 FP16 16 116
ImageNet 分类 EfficientNetB5 224x224x3 FP16 8 81
COCO 对象检测 DDETR+RN50 960x544x3 FP16 1 6.6
COCO 对象检测 DDETR + GCViT-T 960x544x3 FP16 1 3.6
COCO 对象检测 DINO + RN50 960x544x3 FP16 1 5.7
COCO 对象检测 DINO + FAN-S 960x544x3 FP16 1 3.1
COCO 对象检测 DINO + GC-ViT-T 960x544x3 FP16 1 3.3
COCO 对象检测 DINO + FAN-L 960x544x3 FP16 1 1.8
Cityscapes 分割 SegFormer + FAN-T-H 224x224x3 FP16
Cityscapes 分割 Segformer + FAN-S-H 224x224x3 FP16
Cityscapes 分割 SegFormer + FAN-B-H 224x224x3 FP16
Cityscapes 分割 SegFormer + FAN-L-H 224x224x3 FP16
RetailObjectDetection v2.0 - 二元 Efficientdet-D5 960x544x3 FP16
RetailObjectDetection v2.0 - 二元 DINO-FAN_base 960x544x3 FP16 1 2.3
RetailObjectDetection v2.0 - Meta DINO-FAN_base 960x544x3 FP16 1 2.3
RetailObjectEmbedding v2.0 FAN-B-H 224x224x3 FP16 4 40.2
RetailObjectEmbedding v2.0 FAN-L-H 224x224x3 FP16 4 28.4
RetailObjectEmbedding v2.0 NVCLIP-B 224x224x3 FP16 16 393
Siamese Optical Inspection Siamese CNN 2x512x128x3 FP16 16 399
OCDNet DCN-RN18 640x640x3 FP16
OCDNet DCN-RN50 640x640x3 FP16
OCRNet ResNet50 + Bi-LSTM 剪枝 32x100x3 FP16 64 935
OCRNet ResNet50 + Bi-LSTM 未剪枝 32x100x3 FP16 64 715
PCB 检测 GC-ViT-xxTiny 224x224x3 FP16 4 133.9
CitySemSegFormer v2.0 Segformer + MIT 1024x1024x3 FP16 1 1.36
CitySemSegFormer v2.0 SegFormer + FAN -B-H 1024x1024x3 FP16 1 1.2
PeopleSemSegFormer v2.0 SegFormer + FAN-B-H 512x512x3 FP16
Visual ChangeNet Classification Visual ChangeNet + FAN -S-H 512x128x3 FP16 16 31
Visual ChangeNet Segmentation Visual ChangeNet + FAN -B-H 256x256x3 FP16 16 15.2
CenterPose DLA34 512x512x3 FP16 1 19.16
CenterPose FAN-S-H 512x512x3 FP16 1 7.94

模型名称

架构

推理分辨率

精度

GPU BS

GPU FPS

PeopleNet DetectNet_v2 - ResNet18 960x544x3 INT8 128 8500
PeopleNet (v2.3) DetectNet_v2 - ResNet34 960x544x3 INT8 64 6245
PeopleNet (v2.5 未剪枝) DetectNet_v2 - ResNet34 960x544x3 INT8 64 3291
TrafficCamNet DetectNet_v2 - ResNet18 960x544x3 INT8 256 9717
DashCamNet DetectNet_v2 - ResNet18 960x544x3 INT8 256 9500
FaceDetect-IR DetectNet_v2 - ResNet18 384x240x3 INT8 256 51600
VehilceMakeNet ResNet18 224x224x3 INT8 1024 88300
VehicleTypeNet ResNet18 224x224x3 INT8 512 72300
FaceDetect (剪枝) DetectNet_v2 - ResNet18 736x416x3 INT8 256 14900
License Plate Detection v1.0 DetectNet_v2 - ResNet18 640x480x3 INT8 256 23200
License Plate Recognition ResNet 96x48x3 FP16 256 27200
面部地标 80x80x1 FP16 256 19600
GazeNet 224x224x1, 224x224x1, 224x224x1, 25x25x1 FP16 1024 25394
GestureNet 160x160x3 FP16 1024 94555
BodyPose 288x384x3 INT8 16 3180
Action Recognition 2D RGB 2D CNN 224x224x96 FP16 32 12600
Action Recognition 3D RGB 3D CNN 224x224x32x3 FP16 16 797
Action Recognition 2D OF 2D 光流 224x224x96 FP16 64 17535
Action Recognition 3D OF 3D 光流 224x224x32x3 FP16 16 899
Point Pillar Point Pillar FP16 1 425
姿态分类 ST-GCN FP16 64 2144.84
3D 姿态 - 精度 FP16 32 3466.34
3D 姿态 - 性能 FP16 32 4176.37
PeopleSemSegNet_v2 - Shuffle UNET - Shuffle 960x544x3 FP16 64 5745.79
PeopleSemSegNet_v2 - Vanilla UNET - Vanilla 960x544x3 FP16 16 496.34
PeopleNet Transformer D-DETR 960x544x3 FP16 16 267
ReidentificationNet ResNet50 3x256x18 FP16 256 20781
RetailObjectDetection v1.0 - 100 类 EfficientNet-D5 416x416x3 FP16 64 1012
RetailObjectDetection v1.0 - 二元 EfficientNet-D5 416x416x3 FP16 64 947
RetailObjectEmbedding v1.0 ResNet101 3x224x224 FP16 64 9851
CitySemSegFormer v1.0 SegFormer FP16 4 13
ImageNet 分类 FAN-T-H 224x224x3 FP16 128 3867
ImageNet 分类 FAN-S-H 224x224x3 FP16 128 2576
ImageNet 分类 FAN-B-H 224x224x3 FP16 64 1692
ImageNet 分类 FAN-L-H 224x224x3 FP16 64 1196
ImageNet 分类 FAN-XL-H 224x224x3 FP16 32 1046
ImageNet 分类 GC-ViT-xxTiny 224x224x3 FP16 128 6863
ImageNet 分类 GC-ViT-xTiny 224x224x3 FP16 128 5162
ImageNet 分类 GC-ViT-T 224x224x3 FP16 128 3600
ImageNet 分类 GC-ViT-S 224x224x3 FP16 64 2435
ImageNet 分类 GC-ViT-B 224x224x3 FP16 64 1663
ImageNet 分类 GC-ViT-L 224x224x3 FP16 64 917
ImageNet 分类 GC-ViT-L-384 384x384x3 FP16 32 344
ImageNet 分类 FAN-B-H-384 (384 分辨率) 384x384x3 FP16 64 577
ImageNet 分类 FAN-L-H-384 384x384x3 FP16 64 402
ImageNet 分类 EfficientNetB0 224x224x3 FP16 256 17909
ImageNet 分类 EfficientNetB1 224x224x3 FP16 256 6994
ImageNet 分类 EfficientNetB2 224x224x3 FP16 256 6665
ImageNet 分类 EfficientNetB3 224x224x3 FP16 256 4987
ImageNet 分类 EfficientNetB4 224x224x3 FP16 64 3577
ImageNet 分类 EfficientNetB5 224x224x3 FP16 256 2583
COCO 对象检测 DDETR+RN50 960x544x3 FP16 32 296
COCO 对象检测 DDETR + GCViT-T 960x544x3 FP16 32 184
COCO 对象检测 DINO + RN50 960x544x3 FP16 32 244
COCO 对象检测 DINO + FAN-S 960x544x3 FP16 32 121
COCO 对象检测 DINO + GC-ViT-T 960x544x3 FP16 32 165
COCO 对象检测 DINO + FAN-L 960x544x3 FP16 16 70.6
Cityscapes 分割 SegFormer + FAN-T-H 224x224x3 FP16 64 2381
Cityscapes 分割 Segformer + FAN-S-H 224x224x3 FP16 64 1808
Cityscapes 分割 SegFormer + FAN-B-H 224x224x3 FP16 64 1338
Cityscapes 分割 SegFormer + FAN-L-H 224x224x3 FP16 64 1000
RetailObjectDetection v2.0 - 二元 Efficientdet-D5 960x544x3 FP16
RetailObjectDetection v2.0 - 二元 DINO-FAN_base 960x544x3 FP16 32 94.3
RetailObjectDetection v2.0 - Meta DINO-FAN_base 960x544x3 FP16 32 94.2
RetailObjectEmbedding v2.0 FAN-B-H 224x224x3 FP16 64 1621
RetailObjectEmbedding v2.0 FAN-L-H 224x224x3 FP16 64 1155
RetailObjectEmbedding v2.0 NVCLIP-B 224x224x3 FP16 64 15584
Siamese Optical Inspection Siamese CNN 2x512x128x3 FP16 128 15660
OCDNet DCN-RN18 640x640x3 FP16 64 724
OCDNet DCN-RN50 640x640x3 FP16 64 351
OCRNet ResNet50 + Bi-LSTM 剪枝 32x100x3 FP16 512 28297
OCRNet ResNet50 + Bi-LSTM 未剪枝 32x100x3 FP16 512 21212
PCB 检测 GC-ViT-xxTiny 224x224x3 FP16 128 7095
CitySemSegFormer v2.0 Segformer + MIT 1024x1024x3 FP16 8 62.2
CitySemSegFormer v2.0 SegFormer + FAN -B-H 1024x1024x3 FP16 8 50.4
PeopleSemSegFormer v2.0 SegFormer + FAN-B-H 512x512x3 FP16 32 254
Visual ChangeNet Classification Visual ChangeNet + FAN -S-H 512x128x3 FP16 16 920
Visual ChangeNet Segmentation Visual ChangeNet + FAN -B-H 256x256x3 FP16 16 435
CenterPose DLA34 512x512x3 FP16 1 82.16
CenterPose FAN-S-H 512x512x3 FP16 1 49.99

模型名称

架构

推理分辨率

精度

GPU BS

GPU FPS

PeopleNet DetectNet_v2 - ResNet18 960x544x3 INT8 64 1379
PeopleNet (v2.3) DetectNet_v2 - ResNet34 960x544x3 INT8 32 1064
PeopleNet (v2.5 未剪枝) DetectNet_v2 - ResNet34 960x544x3 INT8 32 465
TrafficCamNet DetectNet_v2 - ResNet18 960x544x3 INT8 64 1725
DashCamNet DetectNet_v2 - ResNet18 960x544x3 INT8 64 1676
FaceDetect-IR DetectNet_v2 - ResNet18 384x240x3 INT8 128 9810
VehilceMakeNet ResNet18 224x224x3 INT8 256 16500
VehicleTypeNet ResNet18 224x224x3 INT8 128 12500
FaceDetect (剪枝) DetectNet_v2 - ResNet18 736x416x3 INT8 64 2578
License Plate Detection v1.0 DetectNet_v2 - ResNet18 640x480x3 INT8 128 6123
License Plate Recognition ResNet 96x48x3 FP16 128 3959
面部地标 80x80x1 FP16 128 4622
GazeNet 224x224x1, 224x224x1, 224x224x1, 25x25x1 FP16 512 4563
GestureNet 160x160x3 FP16 512 15377
BodyPose 288x384x3 INT8 32 598
Action Recognition 2D RGB 2D CNN 224x224x96 FP16 16 1897
Action Recognition 3D RGB 3D CNN 224x224x32x3 FP16 4 139
Action Recognition 2D OF 2D 光流 224x224x96 FP16 32 3320
Action Recognition 3D OF 3D 光流 224x224x32x3 FP16 16 192
Point Pillar Point Pillar FP16 1 111
姿态分类 ST-GCN FP16 64 376.4
3D 姿态 - 精度 FP16 32 614.98
3D 姿态 - 性能 FP16 32 712.94
PeopleSemSegNet_v2 - Shuffle UNET - Shuffle 960x544x3 FP16 64 1027.85
PeopleSemSegNet_v2 - Vanilla UNET - Vanilla 960x544x3 FP16 16 79.08
PeopleNet Transformer D-DETR 960x544x3 FP16 4 48
ReidentificationNet ResNet50 3x256x18 FP16 64 2586
RetailObjectDetection v1.0 - 100 类 EfficientNet-D5 416x416x3 FP16 32 162
RetailObjectDetection v1.0 - 二元 EfficientNet-D5 416x416x3 FP16 32 151
RetailObjectEmbedding v1.0 ResNet101 3x224x224 FP16 32 1270
CitySemSegFormer v1.0 SegFormer FP16 1 2
ImageNet 分类 FAN-T-H 224x224x3 FP16 16 624
ImageNet 分类 FAN-S-H 224x224x3 FP16 8 403
ImageNet 分类 FAN-B-H 224x224x3 FP16 8 259
ImageNet 分类 FAN-L-H 224x224x3 FP16 16 188
ImageNet 分类 FAN-XL-H 224x224x3 FP16 16 166
ImageNet 分类 GC-ViT-xxTiny 224x224x3 FP16 16 999
ImageNet 分类 GC-ViT-xTiny 224x224x3 FP16 32 739
ImageNet 分类 GC-ViT-T 224x224x3 FP16 16 517
ImageNet 分类 GC-ViT-S 224x224x3 FP16 8 335
ImageNet 分类 GC-ViT-B 224x224x3 FP16 4 223
ImageNet 分类 GC-ViT-L 224x224x3 FP16 16 122
ImageNet 分类 GC-ViT-L-384 384x384x3 FP16 4 45.1
ImageNet 分类 FAN-B-H-384 (384 分辨率) 384x384x3 FP16 8 91
ImageNet 分类 FAN-L-H-384 384x384x3 FP16 4 62
ImageNet 分类 EfficientNetB0 224x224x3 FP16 64 2735
ImageNet 分类 EfficientNetB1 224x224x3 FP16 64 1099
ImageNet 分类 EfficientNetB2 224x224x3 FP16 32 1006
ImageNet 分类 EfficientNetB3 224x224x3 FP16 32 753
ImageNet 分类 EfficientNetB4 224x224x3 FP16 16 526
ImageNet 分类 EfficientNetB5 224x224x3 FP16 16 375
COCO 对象检测 DDETR+RN50 960x544x3 FP16 1 46.5
COCO 对象检测 DDETR + GCViT-T 960x544x3 FP16 4 30.3
COCO 对象检测 DINO + RN50 960x544x3 FP16 4 38.9
COCO 对象检测 DINO + FAN-S 960x544x3 FP16 4 20
COCO 对象检测 DINO + GC-ViT-T 960x544x3 FP16 8 26.7
COCO 对象检测 DINO + FAN-L 960x544x3 FP16 4 10.9
Cityscapes 分割 SegFormer + FAN-T-H 224x224x3 FP16 16 374
Cityscapes 分割 Segformer + FAN-S-H 224x224x3 FP16 8 272
Cityscapes 分割 SegFormer + FAN-B-H 224x224x3 FP16 8 198
Cityscapes 分割 SegFormer + FAN-L-H 224x224x3 FP16 16 156.7
RetailObjectDetection v2.0 - 二元 Efficientdet-D5 960x544x3 FP16
RetailObjectDetection v2.0 - 二元 DINO-FAN_base 960x544x3 FP16 2 15.2
RetailObjectDetection v2.0 - Meta DINO-FAN_base 960x544x3 FP16 4 15.4
RetailObjectEmbedding v2.0 FAN-B-H 224x224x3 FP16 8 253
RetailObjectEmbedding v2.0 FAN-L-H 224x224x3 FP16 16 184
RetailObjectEmbedding v2.0 NVCLIP-B 224x224x3 FP16 16 1838
Siamese Optical Inspection Siamese CNN 2x512x128x3 FP16 32 2314
OCDNet DCN-RN18 640x640x3 FP16 16 155
OCDNet DCN-RN50 640x640x3 FP16 1 72.5
OCRNet ResNet50 + Bi-LSTM 剪枝 32x100x3 FP16 128 3649
OCRNet ResNet50 + Bi-LSTM 未剪枝 32x100x3 FP16 128 2673
PCB 检测 GC-ViT-xxTiny 224x224x3 FP16 16 1012
CitySemSegFormer v2.0 Segformer + MIT 1024x1024x3 FP16 1 9.4
CitySemSegFormer v2.0 SegFormer + FAN -B-H 1024x1024x3 FP16 1 7.3
PeopleSemSegFormer v2.0 SegFormer + FAN-B-H 512x512x3 FP16 4 39.6
Visual ChangeNet Classification Visual ChangeNet + FAN -S-H 512x128x3 FP16 16 146
Visual ChangeNet Segmentation Visual ChangeNet + FAN -B-H 256x256x3 FP16 16 59.7
CenterPose DLA34 512x512x3 FP16 1 24.27
CenterPose FAN-S-H 512x512x3 FP16 1 9.77

模型名称

架构

推理分辨率

精度

GPU BS

GPU FPS

ImageNet 分类 FAN-T-H 224x224x3 FP16 16 4249
ImageNet 分类 FAN-S-H 224x224x3 FP16 8 2647
ImageNet 分类 FAN-B-H 224x224x3 FP16 8 1720
ImageNet 分类 FAN-L-H 224x224x3 FP16 8 1154
ImageNet 分类 FAN-XL-H 224x224x3 FP16 8 1005
ImageNet 分类 GC-ViT-xxTiny 224x224x3 FP16 16 6282
ImageNet 分类 GC-ViT-xTiny 224x224x3 FP16 16 4632
ImageNet 分类 GC-ViT-T 224x224x3 FP16 16 3118
ImageNet 分类 GC-ViT-S 224x224x3 FP16 8 2022
ImageNet 分类 GC-ViT-B 224x224x3 FP16 8 1282
ImageNet 分类 GC-ViT-L 224x224x3 FP16 4 628
ImageNet 分类 GC-ViT-L-384 384x384x3 FP16 2 247
ImageNet 分类 FAN-B-H-384 (384 分辨率) 384x384x3 FP16 4 558
ImageNet 分类 FAN-L-H-384 384x384x3 FP16 4 366
ImageNet 分类 EfficientNetB0 224x224x3 FP16 32 19577
ImageNet 分类 EfficientNetB1 224x224x3 FP16 16 7723
ImageNet 分类 EfficientNetB2 224x224x3 FP16 16 7234
ImageNet 分类 EfficientNetB3 224x224x3 FP16 16 5063
ImageNet 分类 EfficientNetB4 224x224x3 FP16 16 3740
ImageNet 分类 EfficientNetB5 224x224x3 FP16 16 2671
COCO 对象检测 DDETR+RN50 960x544x3 FP16 1 283
COCO 对象检测 DDETR + GCViT-T 960x544x3 FP16 1 182
COCO 对象检测 DINO + RN50 960x544x3 FP16 1 215
COCO 对象检测 DINO + FAN-S 960x544x3 FP16 1 119.5
COCO 对象检测 DINO + GC-ViT-T 960x544x3 FP16 1 151
COCO 对象检测 DINO + FAN-L 960x544x3 FP16 1 68.5
Cityscapes 分割 SegFormer + FAN-T-H 224x224x3 FP16 8 1985
Cityscapes 分割 Segformer + FAN-S-H 224x224x3 FP16 8 1510
Cityscapes 分割 SegFormer + FAN-B-H 224x224x3 FP16 8 1144
Cityscapes 分割 SegFormer + FAN-L-H 224x224x3 FP16 8 840
RetailObjectDetection v2.0 - 二元 Efficientdet-D5 960x544x3 FP16
RetailObjectDetection v2.0 - 二元 DINO-FAN_base 960x544x3 FP16 1 88.5
RetailObjectDetection v2.0 - Meta DINO-FAN_base 960x544x3 FP16 1 88.6
RetailObjectEmbedding v2.0 FAN-B-H 224x224x3 FP16 8 1648
RetailObjectEmbedding v2.0 FAN-L-H 224x224x3 FP16 8 1124
RetailObjectEmbedding v2.0 NVCLIP-B 224x224x3 FP16 32 9407
Siamese Optical Inspection Siamese CNN 2x512x128x3 FP16 128 10390
OCDNet DCN-RN18 640x640x3 FP16 4 940
OCDNet DCN-RN50 640x640x3 FP16 4 445
OCRNet ResNet50 + Bi-LSTM 剪枝 32x100x3 FP16 128 18971
OCRNet ResNet50 + Bi-LSTM 未剪枝 32x100x3 FP16 256 13950
PCB 检测 GC-ViT-xxTiny 224x224x3 FP16 16 6619
CitySemSegFormer v2.0 Segformer + MIT 1024x1024x3 FP16 1 47.3
CitySemSegFormer v2.0 SegFormer + FAN -B-H 1024x1024x3 FP16 1 40.9
PeopleSemSegFormer v2.0 SegFormer + FAN-B-H 512x512x3 FP16 2 210
Visual ChangeNet Classification Visual ChangeNet + FAN -S-H 512x128x3 FP16 4 980
Visual ChangeNet Segmentation Visual ChangeNet + FAN -B-H 256x256x3 FP16 8 364
CenterPose DLA34 512x512x3 FP16 1 106.70
CenterPose FAN-S-H 512x512x3 FP16 1 56.65

模型名称

架构

推理分辨率

精度

GPU BS

GPU FPS

ImageNet 分类 FAN-T-H 224x224x3 FP16 8 1604
ImageNet 分类 FAN-S-H 224x224x3 FP16 8 949
ImageNet 分类 FAN-B-H 224x224x3 FP16 4 632
ImageNet 分类 FAN-L-H 224x224x3 FP16 4 442
ImageNet 分类 FAN-XL-H 224x224x3 FP16 4 365
ImageNet 分类 GC-ViT-xxTiny 224x224x3 FP16 8 2440
ImageNet 分类 GC-ViT-xTiny 224x224x3 FP16 8 1797
ImageNet 分类 GC-ViT-T 224x224x3 FP16 16 1266
ImageNet 分类 GC-ViT-S 224x224x3 FP16 8 817
ImageNet 分类 GC-ViT-B 224x224x3 FP16 8 546
ImageNet 分类 GC-ViT-L 224x224x3 FP16 8 268
ImageNet 分类 GC-ViT-L-384 384x384x3 FP16 4 101
ImageNet 分类 FAN-B-H-384 (384 分辨率) 384x384x3 FP16 4 207
ImageNet 分类 FAN-L-H-384 384x384x3 FP16 4 145
ImageNet 分类 EfficientNetB0 224x224x3 FP16 16 7072
ImageNet 分类 EfficientNetB1 224x224x3 FP16 16 2454
ImageNet 分类 EfficientNetB2 224x224x3 FP16 16 2306
ImageNet 分类 EfficientNetB3 224x224x3 FP16 16 1527
ImageNet 分类 EfficientNetB4 224x224x3 FP16 16 1134
ImageNet 分类 EfficientNetB5 224x224x3 FP16 16 780
COCO 对象检测 DDETR+RN50 960x544x3 FP16 1 107
COCO 对象检测 DDETR + GCViT-T 960x544x3 FP16 1 70
COCO 对象检测 DINO + RN50 960x544x3 FP16 1 79.6
COCO 对象检测 DINO + FAN-S 960x544x3 FP16 1 44
COCO 对象检测 DINO + GC-ViT-T 960x544x3 FP16 1 56.6
COCO 对象检测 DINO + FAN-L 960x544x3 FP16 1 26.4
Cityscapes 分割 SegFormer + FAN-T-H 224x224x3 FP16 4 750
Cityscapes 分割 Segformer + FAN-S-H 224x224x3 FP16 4 581
Cityscapes 分割 SegFormer + FAN-B-H 224x224x3 FP16 4 442
Cityscapes 分割 SegFormer + FAN-L-H 224x224x3 FP16 4 341
RetailObjectDetection v2.0 - 二元 Efficientdet-D5 960x544x3 FP16
RetailObjectDetection v2.0 - 二元 DINO-FAN_base 960x544x3 FP16 1 34.1
RetailObjectDetection v2.0 - Meta DINO-FAN_base 960x544x3 FP16 1 34.1
RetailObjectEmbedding v2.0 FAN-B-H 224x224x3 FP16 4 603
RetailObjectEmbedding v2.0 FAN-L-H 224x224x3 FP16 4 430
RetailObjectEmbedding v2.0 NVCLIP-B 224x224x3 FP16 16 4375
Siamese Optical Inspection Siamese CNN 2x512x128x3 FP16 32 2821
OCDNet DCN-RN18 640x640x3 FP16 1 333
OCDNet DCN-RN50 640x640x3 FP16 1 169
OCRNet ResNet50 + Bi-LSTM 剪枝 32x100x3 FP16 128 8036
OCRNet ResNet50 + Bi-LSTM 未剪枝 32x100x3 FP16 64 6045
PCB 检测 GC-ViT-xxTiny 224x224x3 FP16 8 2543
CitySemSegFormer v2.0 Segformer + MIT 1024x1024x3 FP16 1 17.8
CitySemSegFormer v2.0 SegFormer + FAN -B-H 1024x1024x3 FP16 1 15.7
PeopleSemSegFormer v2.0 SegFormer + FAN-B-H 512x512x3 FP16 1 83.4
Visual ChangeNet Classification Visual ChangeNet + FAN -S-H 512x128x3 FP16 4 344
Visual ChangeNet Segmentation Visual ChangeNet + FAN -B-H 256x256x3 FP16 8 131.48
CenterPose DLA34 512x512x3 FP16 1 40.68
CenterPose FAN-S-H 512x512x3 FP16 1 18.69

模型名称

架构

推理分辨率

精度

GPU BS

GPU FPS

PeopleNet DetectNet_v2 - ResNet18 960x544x3 INT8 32 749
PeopleNet (v2.3) DetectNet_v2 - ResNet34 960x544x3 INT8 32 581
PeopleNet (v2.5 未剪枝) DetectNet_v2 - ResNet34 960x544x3 INT8 32 231
TrafficCamNet DetectNet_v2 - ResNet18 960x544x3 INT8 32 916
DashCamNet DetectNet_v2 - ResNet18 960x544x3 INT8 32 865
FaceDetect-IR DetectNet_v2 - ResNet18 384x240x3 INT8 64 4982
VehilceMakeNet ResNet18 224x224x3 INT8 128 8000
VehicleTypeNet ResNet18 224x224x3 INT8 128 6302
FaceDetect (剪枝) DetectNet_v2 - ResNet18 736x416x3 INT8 32 1174
License Plate Detection v1.0 DetectNet_v2 - ResNet18 640x480x3 INT8 128 2570
License Plate Recognition ResNet 96x48x3 FP16 128 2180
面部地标 80x80x1 FP16 256 2800
GazeNet 224x224x1, 224x224x1, 224x224x1, 25x25x1 FP16 256 2488
GestureNet 160x160x3 FP16 256 7690
BodyPose 288x384x3 INT8 16 278
Action Recognition 2D RGB 2D CNN 224x224x96 FP16 8 1044
Action Recognition 3D RGB 3D CNN 224x224x32x3 FP16 4 56
Action Recognition 2D OF 2D 光流 224x224x96 FP16 16 1419
Action Recognition 3D OF 3D 光流 224x224x32x3 FP16 2 58
Point Pillar Point Pillar FP16 1 63
姿态分类 ST-GCN FP16 64 211.5
3D 姿态 - 精度 FP16 32 370.13
3D 姿态 - 性能 FP16 32 471.81
PeopleSemSegNet_v2 - Shuffle UNET - Shuffle 960x544x3 FP16 16 631.31
PeopleSemSegNet_v2 - Vanilla UNET - Vanilla 960x544x3 FP16 16 44.09
PeopleNet Transformer D-DETR 960x544x3 FP16 4 27
ReidentificationNet ResNet50 3x256x18 FP16 64 1570
RetailObjectDetection v1.0 - 100 类 EfficientNet-D5 416x416x3 FP16 32 106
RetailObjectDetection v1.0 - 二元 EfficientNet-D5 416x416x3 FP16 32 99
RetailObjectEmbedding v1.0 ResNet101 3x224x224 FP16 32 803
CitySemSegFormer v1.0 SegFormer FP16 1 1.3
ImageNet 分类 FAN-T-H 224x224x3 FP16 16 399
ImageNet 分类 FAN-S-H 224x224x3 FP16 16 256
ImageNet 分类 FAN-B-H 224x224x3 FP16 16 168
ImageNet 分类 FAN-L-H 224x224x3 FP16 16 118
ImageNet 分类 FAN-XL-H 224x224x3 FP16 8 103
ImageNet 分类 GC-ViT-xxTiny 224x224x3 FP16 16 666
ImageNet 分类 GC-ViT-xTiny 224x224x3 FP16 32 492
ImageNet 分类 GC-ViT-T 224x224x3 FP16 32 336
ImageNet 分类 GC-ViT-S 224x224x3 FP16 16 213
ImageNet 分类 GC-ViT-B 224x224x3 FP16 16 137
ImageNet 分类 GC-ViT-L 224x224x3 FP16 16 67
ImageNet 分类 GC-ViT-L-384 384x384x3 FP16 2 26
ImageNet 分类 FAN-B-H-384 (384 分辨率) 384x384x3 FP16 8 55.5
ImageNet 分类 FAN-L-H-384 384x384x3 FP16 1 38
ImageNet 分类 EfficientNetB0 224x224x3 FP16 64 1870
ImageNet 分类 EfficientNetB1 224x224x3 FP16 64 726
ImageNet 分类 EfficientNetB2 224x224x3 FP16 64 690
ImageNet 分类 EfficientNetB3 224x224x3 FP16 64 518
ImageNet 分类 EfficientNetB4 224x224x3 FP16 32 363
ImageNet 分类 EfficientNetB5 224x224x3 FP16 32 265
COCO 对象检测 DDETR+RN50 960x544x3 FP16 1 27.7
COCO 对象检测 DDETR + GCViT-T 960x544x3 FP16 1 17.9
COCO 对象检测 DINO + RN50 960x544x3 FP16 1 22.5
COCO 对象检测 DINO + FAN-S 960x544x3 FP16 1 11.7
COCO 对象检测 DINO + GC-ViT-T 960x544x3 FP16 1 15.7
COCO 对象检测 DINO + FAN-L 960x544x3 FP16 1 6.7
Cityscapes 分割 SegFormer + FAN-T-H 224x224x3 FP16 16 230
Cityscapes 分割 Segformer + FAN-S-H 224x224x3 FP16 16 174
Cityscapes 分割 SegFormer + FAN-B-H 224x224x3 FP16 16 129
Cityscapes 分割 SegFormer + FAN-L-H 224x224x3 FP16 16 97.7
RetailObjectDetection v2.0 - 二元 Efficientdet-D5 960x544x3 FP16
RetailObjectDetection v2.0 - 二元 DINO-FAN_base 960x544x3 FP16 1 8.9
RetailObjectDetection v2.0 - Meta DINO-FAN_base 960x544x3 FP16 1 8.8
RetailObjectEmbedding v2.0 FAN-B-H 224x224x3 FP16 16 161
RetailObjectEmbedding v2.0 FAN-L-H 224x224x3 FP16 16 113
RetailObjectEmbedding v2.0 NVCLIP-B 224x224x3 FP16 16 1200
Siamese Optical Inspection Siamese CNN 2x512x128x3 FP16 32 1391
OCDNet DCN-RN18 640x640x3 FP16 8 93
OCDNet DCN-RN50 640x640x3 FP16 1 45.5
OCRNet ResNet50 + Bi-LSTM 剪枝 32x100x3 FP16 128 2094
OCRNet ResNet50 + Bi-LSTM 未剪枝 32x100x3 FP16 128 1482
PCB 检测 GC-ViT-xxTiny 224x224x3 FP16 32 688
CitySemSegFormer v2.0 Segformer + MIT 1024x1024x3 FP16 1 5.8
CitySemSegFormer v2.0 SegFormer + FAN -B-H 1024x1024x3 FP16 1 4.4
PeopleSemSegFormer v2.0 SegFormer + FAN-B-H 512x512x3 FP16 1 23.3
Visual ChangeNet Classification Visual ChangeNet + FAN -S-H 512x128x3 FP16 16 95.81
Visual ChangeNet Segmentation Visual ChangeNet + FAN -B-H 256x256x3 FP16 16 36.02
CenterPose DLA34 512x512x3 FP16 1 15.69
CenterPose FAN-S-H 512x512x3 FP16 1 5.80

模型名称

架构

推理分辨率

精度

GPU BS

GPU FPS

ImageNet 分类 FAN-T-H 224x224x3 FP16 128 6555
ImageNet 分类 FAN-S-H 224x224x3 FP16 128 4393
ImageNet 分类 FAN-B-H 224x224x3 FP16 64 2833
ImageNet 分类 FAN-L-H 224x224x3 FP16 64 1982
ImageNet 分类 FAN-XL-H 224x224x3 FP16 32 1692
ImageNet 分类 GC-ViT-xxTiny 224x224x3 FP16 128 11942
ImageNet 分类 GC-ViT-xTiny 224x224x3 FP16 128 9094
ImageNet 分类 GC-ViT-T 224x224x3 FP16 128 6381
ImageNet 分类 GC-ViT-S 224x224x3 FP16 64 4145
ImageNet 分类 GC-ViT-B 224x224x3 FP16 64 3040
ImageNet 分类 GC-ViT-L 224x224x3 FP16 64 1618
ImageNet 分类 GC-ViT-L-384 384x384x3 FP16 32 613
ImageNet 分类 FAN-B-H-384 (384 分辨率) 384x384x3 FP16 64 985
ImageNet 分类 FAN-L-H-384 384x384x3 FP16 64 681
ImageNet 分类 EfficientNetB0 224x224x3 FP16 256 28765
ImageNet 分类 EfficientNetB1 224x224x3 FP16 256 11363
ImageNet 分类 EfficientNetB2 224x224x3 FP16 256 10830
ImageNet 分类 EfficientNetB3 224x224x3 FP16 256 8115
ImageNet 分类 EfficientNetB4 224x224x3 FP16 64 5915
ImageNet 分类 EfficientNetB5 224x224x3 FP16 256 4323
COCO 对象检测 DDETR+RN50 960x544x3 FP16 32 526
COCO 对象检测 DDETR + GCViT-T 960x544x3 FP16 32 317
COCO 对象检测 DINO + RN50 960x544x3 FP16 32 442
COCO 对象检测 DINO + FAN-S 960x544x3 FP16 32 213
COCO 对象检测 DINO + GC-ViT-T 960x544x3 FP16 32 290
COCO 对象检测 DINO + FAN-L 960x544x3 FP16 32 125.5
Cityscapes 分割 SegFormer + FAN-T-H 224x224x3 FP16 64 4189
Cityscapes 分割 Segformer + FAN-S-H 224x224x3 FP16 64 3143
Cityscapes 分割 SegFormer + FAN-B-H 224x224x3 FP16 64 2306
Cityscapes 分割 SegFormer + FAN-L-H 224x224x3 FP16 64 1732
RetailObjectDetection v2.0 - 二元 Efficientdet-D5 960x544x3 FP16
RetailObjectDetection v2.0 - 二元 DINO-FAN_base 960x544x3 FP16 32 167
RetailObjectDetection v2.0 - Meta DINO-FAN_base 960x544x3 FP16 32 167
RetailObjectEmbedding v2.0 FAN-B-H 224x224x3 FP16 64 2686
RetailObjectEmbedding v2.0 FAN-L-H 224x224x3 FP16 64 1919
RetailObjectEmbedding v2.0 NVCLIP-B 224x224x3 FP16 64 29070
Siamese Optical Inspection Siamese CNN 2x512x128x3 FP16 128 24107
OCDNet DCN-RN18 640x640x3 FP16 64 1468
OCDNet DCN-RN50 640x640x3 FP16 64 706
OCRNet ResNet50 + Bi-LSTM 剪枝 32x100x3 FP16 512 55717
OCRNet ResNet50 + Bi-LSTM 未剪枝 32x100x3 FP16 512 48492
PCB 检测 GC-ViT-xxTiny 224x224x3 FP16 128 12273
CitySemSegFormer v2.0 Segformer + MIT 1024x1024x3 FP16 8 108
CitySemSegFormer v2.0 SegFormer + FAN -B-H 1024x1024x3 FP16 8 89.5
PeopleSemSegFormer v2.0 SegFormer + FAN-B-H 512x512x3 FP16 32 454
Visual ChangeNet Classification Visual ChangeNet + FAN -S-H 512x128x3 FP16 64 1581
Visual ChangeNet Segmentation Visual ChangeNet + FAN -B-H 256x256x3 FP16 32 841
CenterPose DLA34 512x512x3 FP16 1 105.84
CenterPose FAN-S-H 512x512x3 FP16 1 76.26

通用计算机视觉模型

使用通用模型,您可以训练图像分类模型、对象检测模型或实例分割模型。

  • 对于分类,您可以使用可用的架构之一进行训练,例如 ResNet、EfficientNet、VGG、MobileNet、GoogLeNet、SqueezeNet 或 DarkNet。

  • 对于对象检测任务,您可以从流行的 YOLOv3/v4/v4-tiny、FasterRCNN、SSD、RetinaNet 和 DSSD 架构以及 NVIDIA 自己的 DetectNet_v2 架构中进行选择。

  • 对于实例分割,您可以使用 MaskRCNN 进行实例分割,或使用 UNET 进行语义分割。

这使您可以灵活地构建用于任何数量应用程序的 AI 模型,从用于边缘 GPU 的更小、轻量级模型到用于更复杂任务的更大模型。有关所有排列和组合,请参阅下表。

主干网络

重识别

度量学习识别

NvDINOv2 X
GcViT
ViT X
FAN
FasterViT
ResNet X X
Swin X
EfficientNet
ST-GCN(图卷积网络)
MIT-b

主干网络

图像分类

NvDINOv2 X
GcViT X
ViT X
FAN X
FasterViT X
ResNet X
Swin X
EfficientNet X
ST-GCN(图卷积网络)
MIT-b

主干网络

DINO

D-DETR

Grounding DINO

EfficientDet

NvDINOv2 X
GcViT X X
ViT X X
FAN X
FasterViT
ResNet X X
Swin X
EfficientNet X
ST-GCN(图卷积网络)
MIT-b

主干网络

MAL

Mask GroundingDINO

Mask2Former

NvDINOv2
GcViT
ViT X
FAN
FasterViT
ResNet
Swin X X
EfficientNet
ST-GCN(图卷积网络)
MIT-b

主干网络

SegFormer

Mask2Former

NvDINOv2
GcViT
ViT
FAN X
FasterViT
ResNet
Swin X
EfficientNet
ST-GCN(图卷积网络)
MIT-b X

主干网络

Mask2Former

NvDINOv2
GcViT
ViT
FAN
FasterViT
ResNet
Swin X
EfficientNet
ST-GCN(图卷积网络)
MIT-b

主干网络

OCD

OCR

NvDINOv2
GcViT
ViT
FAN X X
FasterViT
ResNet X X
Swin
EfficientNet
ST-GCN(图卷积网络)
MIT-b

主干网络

分类

分割

NvDINOv2 X X
GcViT
ViT X X
FAN X X
FasterViT
ResNet
Swin
EfficientNet
ST-GCN(图卷积网络)
MIT-b

主干网络

姿态分类

NvDINOv2
GcViT
ViT
FAN
FasterViT
ResNet
Swin
EfficientNet
ST-GCN(图卷积网络) X
MIT-b

计算机视觉功能摘要

下表总结了计算机视觉模型和启用的功能。

功能摘要

CV 任务

模型

22-05 新增

TAO 4.0 新增

TAO 5.0 新增

TAO 5.5 新增

剪枝

知识蒸馏

QAT

AutoML

REST API

通道式 QAT

类别权重

可视化 (TB)

MLOPs 集成 (W&B/ClearML)

BYOM

多节点

多 GPU

AMP

提前停止

框架

注释格式

DLA

分类 ResNet10/18/34/50/101 clearml,wandb tf1 ImageNet
分类 VGG16/19 clearml,wandb tf1 ImageNet
分类 GoogleNet clearml,wandb tf1 ImageNet
分类 MobileNet_v1/v2 clearml,wandb tf1 ImageNet
分类 SqueezeNet clearml,wandb tf1 ImageNet
分类 DarkNet19/53 clearml,wandb tf1 ImageNet
分类 EfficientNet_B0-B7 clearml,wandb tf1 ImageNet
分类 CSPDarkNet19/53 clearml,wandb tf1 ImageNet
分类 CSPDarkNet-Tiny clearml,wandb tf1 ImageNet
分类 EfficientNet_B0-B5 clearml,wandb tf2 ImageNet
分类 GcViT pyt ImageNet
分类 FAN pyt ImageNet
检测 EfficientDet clearml,wandb tf2 COCO
检测 RetinaNet clearml,wandb tf1 KITTI/COCO
检测 DetectNet_v2 clearml,wandb tf1 KITTI/COCO
检测 SSD clearml,wandb tf1 KITTI/COCO
检测 DSSD clearml,wandb tf1 KITTI/COCO
检测 Deformable DETR wandb pyt COCO
检测 DINO wandb pyt COCO
检测 GroundingDINO wandb pyt ODVG/COCO
检测 BevFusion wandb pyt KITTI/Nuscenes
多任务分类 所有分类 clearml tf1 自定义
实例/全景/语义分割 Mask2Former wandb pyt COCO
实例分割 MaskRCNN clearml,wandb tf1 COCO
语义分割 Segformer pyt CityScape - PNG
语义分割 UNET clearml,wandb tf1 CityScape - PNG
OCR LPR tf1 自定义 - txt 文件
关键点 2D 人体姿态 否,但 PTQ tf1 COCO
关键点 2D 人体姿态 否,但 PTQ tf1 COCO
点云 PointPillars pyt KITTI
动作识别 2D 动作识别 RGB wandb pyt 自定义
动作识别 3D 动作识别 RGB wandb pyt 自定义
动作识别 2D 动作识别 OF wandb pyt 自定义
动作识别 3D 动作识别 OF wandb pyt 自定义
其他 姿态动作分类 wandb pyt COCO
其他 HeartRateNet tf1 NVIDIA 定义
其他 GazeNet tf1 NVIDIA 定义
其他 EmotionNet tf1 NVIDIA 定义
其他 GestureNet tf1 NVIDIA 定义
特征嵌入 ResNet50 pyt Market1501
其他 OpticalInspection 是(假阳性率采样) wandb pyt NVIDIA 定义
其他 Optical Character Detection wandb pyt NVDIA 定义
OCR 光学字符识别 wandb pyt NVIDIA 定义
上一篇 高级用户
下一篇 在云端运行 TAO
© 版权所有 2024, NVIDIA。 上次更新于 2024 年 10 月 15 日。