概述

TAO 提供了一个广泛的模型库，其中包含用于计算机视觉用例的预训练模型。

计算机视觉模型库

您可以从以下三种类型的预训练模型开始

基础模型：基础模型是大规模机器学习模型，它们是在海量数据上大规模训练的。这些模型通常使用某种形式的自监督或半监督训练算法进行训练。基础模型的主要目标是作为一个起点，可以适应各种下游任务。
专用预训练模型：这些是高精度的模型，它们在数千个数据输入上针对特定任务进行训练。这些面向领域的模型可以直接用于推理，也可以与 TAO 一起用于在您自己的数据集上进行迁移学习。
预训练权重：这些模型的预训练权重仅作为构建更复杂模型的起点。对于计算机视觉用例，这些预训练权重是在 Open Image 数据集上训练的，与从随机初始化权重开始相比，它们为训练提供了更好的起点。

您可以从 100 多种模型架构和主干的排列组合中选择通用视觉模型。

基础模型

模型名称	描述	NGC 实例	TAO 微调
TAO 商用预训练 NV-CLIP 模型	TAO 商用预训练 NV-CLIP ViT-H 模型	nvidia/tao/nvclip_vit	否
TAO 商用预训练 NV-Dinov2 模型	TAO 商用预训练 NV-Dinov2 模型 ViT-G 主干	nvidia/tao/nvdinov2_vitg	使用 classification_pyt、DINO 和 visual changenet 进行下游微调
SegIC	在商业数据上训练的上下文分割模型。	nvidia/tao/segic	否
Mask Grounding DINO	在商业数据上训练的开放词汇多模态实例分割模型。	nvidia/tao/mask_grounding_dino	是
Grounding DINO	在商业数据上训练的开放词汇多模态对象检测模型。	nvidia/tao/grounding_dino	是
TAO Toolkit ODISE 1.1	从先前的 OCDNet 模型识别字符的模型。	nvidia/tao/odise	是（仅限源代码）
Mask Auto Label	用于生成语义分割标签的预训练模型。	nvidia/tao/mask_auto_label	是
FoundationPose	6-DoF 对象姿态估计和跟踪，提供对象姿态和 3D 边界框	nvidia/tao/foundationpose	否

专用模型

模型名称	描述	NGC 实例	TAO 微调
用于 3D 对象检测的 BEVFusion	用于从点云和 RGB 数据检测 3D 对象的 BEVFusion 模型。	nvidia/tao/bevfusion	是
Action Recognition Net	5 类动作识别网络，用于识别图像中人们在做什么。	nvidia/tao/actionrecognitionnet	是
ReidentifcationNet Transformer	基于 SWIN Transformer 的重识别网络，用于生成嵌入，以识别不同场景中的人物。	nvidia/tao/reidentificationnet_transformer	是
ReIdentificationNet	重识别网络，用于生成嵌入，以识别不同场景中的人物。	nvidia/tao/reidentificationnet	是
CenterPose - ISAAC Ros	用于零售物体的 3 姿态检测模型。	nvidia/tao/centerpose_ros	是
光学字符识别	从先前的 OCDNet 模型识别字符的模型。	nvidia/tao/ocrnet	是
零售对象检测	基于 DINO（具有改进的去噪锚框的 DETR）的对象检测网络，用于检测结账柜台上的零售物体。	nvidia/tao/retail_object_detection	是
姿态分类	姿态分类网络，用于从人的骨骼对人的姿势进行分类。	nvidia/tao/poseclassificationnet	是
PointPillarNet	用于从 LIDAR 点云文件检测一个或多个对象并返回 3D 边界框的模型。	nvidia/tao/pointpillarnet	是
PeopleSemSegNet - AMR	图像中人物的语义分割。	nvidia/tao/peoplesemsegnet_amr	是
PeopleSemSegnet	图像中人物的语义分割。	nvidia/tao/peoplesemsegnet	是
PeopleSegNet	1 类实例分割网络，用于检测和分割图像中人的实例。	nvidia/tao/peoplesegnet	是
PeopleNet Transformer	3 类对象检测网络，用于检测图像中的人物。	nvidia/tao/peoplenet_transformer	是
PeopleNet - AMR	3 类对象检测网络，用于检测图像中的人物。	nvidia/tao/peoplenet_amr	是
PeopleNet	3 类对象检测网络，用于检测图像中的人物。	nvidia/tao/peoplenet	是
Multiple 3D CenterPose	用于类别级对象姿态估计的单阶段、基于关键点的方法	nvidia/tao/multiclass_3d_centerpose	是
零售对象识别	用于识别结账柜台上物体的嵌入生成器模型。	nvidia/tao/retail_object_recognition	是
PeopleSemSegformer	用于分割图像中人物的模型。	nvidia/tao/peoplesemsegformer	是
PeopleNet Transformer v2.0	3 类对象检测网络，用于检测图像中的人物。	nvidia/tao/peoplenet_transformer_v2	是
Visual ChangeNet - Segmentation	Visual ChangeNet - Segmentation	nvidia/tao/visual_changenet_segmentation_landsatscd	是
CenterPose	用于零售物体的 3 姿态检测模型。	nvidia/tao/centerpose	是
Visual ChangeNet Segmentation - MvTEC	变更分割模型。	nvidia/tao/visual_changenet_segmentation_mvtec	是
光学检测	用于检测印刷电路板上焊接组件缺陷的模型。	nvidia/tao/optical_inspection	是
PCB 缺陷分类	用于对印刷电路板上焊接组件的缺陷进行分类的模型。	nvidia/tao/pcb_classification	是
Visual ChangeNet Segmentation - (仅限研究)	Visual ChangeNet-Segmentation（仅限研究）	nvidia/tao/visual_changenet_segmentation_levircd	是
Visual ChangeNet Classification	Visual ChangeNet - 分类模型	nvidia/tao/visual_changenet_classification	是
FaceDetect	从图像中检测人脸。	nvidia/tao/facenet	是
FaceDetectIR	1 类对象检测网络，用于检测图像中的人脸。	nvidia/tao/facedetectir	是
HeartRateNet	从 RGB 面部视频非侵入式地估计心率。	nvidia/tao/heartratenet	是
Gaze Estimation	检测人的注视点和注视向量。	nvidia/tao/gazenet	是
Facial Landmarks Estimation	从人脸图像中检测基准关键点。	nvidia/tao/fpenet	是
EmotionNet	用于对面部表情进行分类的网络。	nvidia/tao/emotionnet	是
GestureNet	从手部裁剪图像中对手势进行分类。	nvidia/tao/gesturenet	是
License Plate Recognition	用于识别车牌裁剪图像中字符的模型。	nvidia/tao/lprnet	是
LPDNet	对象检测网络，用于检测汽车图像中的车牌。	nvidia/tao/lpdnet	是
DashCamNet	4 类对象检测网络，用于检测图像中的汽车。	nvidia/tao/dashcamnet	是
CitySemSegFormer	图像中人物的语义分割。	nvidia/tao/citysemsegformer	是
BodyPoseNet	从图像中检测人体姿势。	nvidia/tao/bodyposenet	是
Optical Character Detection	用于检测图像中字符的网络。	nvidia/tao/ocdnet	是
VehicleTypeNet	Resnet18 模型，用于将汽车裁剪图像分类为 6 种汽车类型之一。	nvidia/tao/vehicletypenet	是
VehicleMakeNet	Resnet18 模型，用于将汽车裁剪图像分类为 20 个汽车品牌之一。	nvidia/tao/vehiclemakenet	是
TrafficCamNet	4 类对象检测网络，用于检测图像中的汽车。	nvidia/tao/trafficcamnet	是
BodyPose3DNet	3D 人体姿态估计网络，用于预测图像中人的 34 个 3D 关键点。	nvidia/tao/bodypose3dnet	否

预训练模型

模型名称	描述	NGC 实例
Mask2Former	在 COCO 数据上训练的二元实例分割模型。	nvidia/tao/mask2former
TAO 预训练语义分割	预训练权重，以使用迁移学习工具包促进迁移学习。	nvidia/tao/pretrained_semantic_segmentation
TAO 预训练实例分割	预训练权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_instance_segmentation
TAO 预训练 EfficientDet	预训练权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_efficientdet
TAO 预训练 DetectNet V2	预训练权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_detectnet_v2
TAO 预训练分类	预训练权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_classification
TAO 预训练对象检测	预训练权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_object_detection
预训练 SegFormer ImageNet 权重	在 ImageNet 上训练的预训练 SegFormer 权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_segformer_imagenet
预训练 EfficientDet NvImageNet 主干	在 NvImageNet 上训练的预训练 EfficientNet 主干权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_efficientdet_tf2_nvimagenet
在 COCO 上训练的预训练 EfficientDet 模型	在 COCO 上训练的预训练 EfficientDet 模型，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_efficientdet_tf2_coco
Deformable DETR	在 COCO2017 上训练的模型，用于检测和分类对象。	nvidia/tao/pretrained_deformable_detr_coco
DINO	在 COCO2017 上训练的模型，用于检测和分类对象。	nvidia/tao/pretrained_dino_coco
TAO 预训练 DINO 与基础模型主干	TAO 预训练 DINO 与基础模型主干	nvidia/tao/dino_with_fm_backbone
在 COCO 上使用 NVDinoV2 主干的 DINO	在 COCO2017 上训练的模型，用于检测和分类对象。	nvidia/tao/pretrained_nvdinov2_dino_coco
预训练基于 FasterViT 的 ImageNet 分类权重	在 ImageNet 上训练的预训练 FasterViT 权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_fastervit_classification_imagenet
预训练基于 FasterViT 的 NVImageNet 分类权重	在 NVImageNet 上训练的预训练 FasterViT 权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_fastervit_classification_nvimagenet
预训练 GCViT ImageNet 分类权重	在 ImageNet 上训练的预训练 GCViT 权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_gcvit_classification_imagenet
预训练 Deformable DETR NvImageNet 权重	在 NvImageNet 上训练的预训练 deformable_detr 权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_deformable_detr_nvimagenet
预训练基于 FAN 的 ImageNet 分类权重	在 ImageNet 上训练的预训练 FAN 权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_fan_classification_imagenet
预训练基于 FAN 的 NVImageNet 分类权重	在 NVImageNet 上训练的预训练 FAN 权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_fan_classification_nvimagenet
预训练 DINO ImageNet 权重	在 ImageNet 上训练的预训练 DINO 权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_dino_imagenet
预训练 Segformer - CityScapes	在 CityScapes 上训练的预训练 segformer 模型。	nvidia/tao/pretrained_segformer_cityscapes
预训练 SegFormer NvImageNet 权重	在 NvImageNet 上训练的预训练 SegFormer 权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_segformer_nvimagenet
预训练 GCViT NVImageNet 分类权重	在 NVImageNet 上训练的预训练 GcViT 权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_gcvit_classification_nvimagenet
预训练 DINO NvImageNet 权重	在 NvImageNet 上训练的预训练 DINO 权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_dino_nvimagenet
预训练 Deformable DETR ImageNet 权重	在 ImageNet 上训练的预训练 deformable_detr 权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_deformable_detr_imagenet
预训练 Mask Auto Label	预训练模型，以促进 TAO Toolkit 上 MAL 的迁移学习	nvidia/tao/pretrained_mask_auto_label
预训练 ImageNet 主干权重	在 ImageNet 上训练的预训练权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_imagenet_backbones
预训练 NVImageNet 主干权重	在 NVImageNet 上训练的预训练权重，以使用 TAO Toolkit 促进迁移学习。	nvidia/tao/pretrained_nvimagenet_backbones
TAO 预训练 EfficientDet-TF2	用于 TAO Toolkit 的 efficientdet-tf2 的预训练 efficientnet 主干	nvidia/tao/pretrained_efficientdet_tf2
TAO 预训练 Classification-TF2	用于 TAO Toolkit TF2 图像分类的预训练主干	nvidia/tao/pretrained_classification_tf2

性能指标

下表总结了这些预训练模型在各种 NVIDIA 平台上的性能。表中的数字是使用 TensorRT 示例中的 trtexec 工具测量的推理性能。

Orin NX 16GB
AGX ORIN 64GB
A30
A10
Orin Nano 8GB
A100
T4
L40
L4
A2
H100

模型名称	架构	推理分辨率	精度	GPU BS	GPU FPS	DLA1 + DLA2 BS	DLA1 + DLA2 FPS
PeopleNet	DetectNet_v2 - ResNet18	960x544x3	INT8	16	400	16	300
PeopleNet (v2.3)	DetectNet_v2 - ResNet34	960x544x3	INT8	32	314	32	226
PeopleNet (v2.5 未剪枝)	DetectNet_v2 - ResNet34	960x544x3	INT8	16	140	32	70
TrafficCamNet	DetectNet_v2 - ResNet18	960x544x3	INT8	16	457	16	352
DashCamNet	DetectNet_v2 - ResNet18	960x544x3	INT8	32	479	64	358
FaceDetect-IR	DetectNet_v2 - ResNet18	384x240x3	INT8	64	2588	64	1700
VehilceMakeNet	ResNet18	224x224x3	INT8	64	4261	64	2218
VehicleTypeNet	ResNet18	224x224x3	INT8	64	3391	64	2044
FaceDetect (剪枝)	DetectNet_v2 - ResNet18	736x416x3	INT8	32	613	32	492
License Plate Detection v1.0	DetectNet_v2 - ResNet18	640x480x3	INT8	32		32
License Plate Recognition	ResNet	96x48x3	FP16	128	1498	–	–
面部地标		80x80x1	FP16	32	1606	–	–
GazeNet		224x224x1, 224x224x1, 224x224x1, 25x25x1	FP16	64	1241	–	–
GestureNet		160x160x3	FP16	64	5420	–	–
BodyPose		288x384x3	INT8	16	195	–	–
Action Recognition 2D RGB	2D CNN	224x224x96	FP16	32	577	–	–
Action Recognition 3D RGB	3D CNN	224x224x32x3	FP16	4	38	–	–
Action Recognition 2D OF	2D 光流	224x224x96	FP16	16	826	–	–
Action Recognition 3D OF	3D 光流	224x224x32x3	FP16	4	42	–	–
Point Pillar	Point Pillar		FP16	1	38	–	–
姿态分类	ST-GCN		FP16	8	105	–	–
3D 姿态 - 精度			FP16	16	241	–	–
3D 姿态 - 性能			FP16	16	295	–	–
PeopleSemSegNet_v2 - Shuffle	UNET - Shuffle	960x544x3	FP16	16	289	–	–
PeopleSemSegNet_v2 - Vanilla	UNET - Vanilla	960x544x3	FP16	4	27	–	–
PeopleNet Transformer	D-DETR	960x544x3	FP16	2	13	–	–
ReidentificationNet	ResNet50	3x256x18	FP16	64	1049	–	–
RetailObjectDetection v1.0 - 100 类	EfficientNet-D5	416x416x3	FP16	16	48	–	–
RetailObjectDetection v1.0 - 二元	EfficientNet-D5	416x416x3	FP16	16	45	–	–
RetailObjectEmbedding v1.0	ResNet101	3x224x224	FP16	32	544	–	–
CitySemSegFormer v1.0	SegFormer		FP16	1	0.6	–	–
ImageNet 分类	FAN-T-H	224x224x3	FP16	4	146.6	–	–
ImageNet 分类	FAN-S-H	224x224x3	FP16	4	94.5	–	–
ImageNet 分类	FAN-B-H	224x224x3	FP16	4	62	–	–
ImageNet 分类	FAN-L-H	224x224x3	FP16	4	43.9	–	–
ImageNet 分类	FAN-XL-H	224x224x3	FP16	4	39.9	–	–
ImageNet 分类	GC-ViT-xxTiny	224x224x3	FP16	8	212	–	–
ImageNet 分类	GC-ViT-xTiny	224x224x3	FP16	8	163	–	–
ImageNet 分类	GC-ViT-T	224x224x3	FP16	8	110	–	–
ImageNet 分类	GC-ViT-S	224x224x3	FP16			–	–
ImageNet 分类	GC-ViT-B	224x224x3	FP16	4	51.2	–	–
ImageNet 分类	GC-ViT-L	224x224x3	FP16	4	28.8	–	–
ImageNet 分类	GC-ViT-L-384	384x384x3	FP16	1	10.4	–	–
ImageNet 分类	FAN-B-H-384 (384 分辨率)	384x384x3	FP16	4	23.4	–	–
ImageNet 分类	FAN-L-H-384	384x384x3	FP16			–	–
ImageNet 分类	EfficientNetB0	224x224x3	FP16	64	870	–	–
ImageNet 分类	EfficientNetB1	224x224x3	FP16	64	344	–	–
ImageNet 分类	EfficientNetB2	224x224x3	FP16	32	313	–	–
ImageNet 分类	EfficientNetB3	224x224x3	FP16	32	234	–	–
ImageNet 分类	EfficientNetB4	224x224x3	FP16	32	175	–	–
ImageNet 分类	EfficientNetB5	224x224x3	FP16	16	123	–	–
COCO 对象检测	DDETR+RN50	960x544x3	FP16	1	9.6	–	–
COCO 对象检测	DDETR + GCViT-T	960x544x3	FP16	1	5.2	–	–
COCO 对象检测	DINO + RN50	960x544x3	FP16	1	8.4	–	–
COCO 对象检测	DINO + FAN-S	960x544x3	FP16	1	4.4	–	–
COCO 对象检测	DINO + GC-ViT-T	960x544x3	FP16	1	4.9	–	–
COCO 对象检测	DINO + FAN-L	960x544x3	FP16	1	2.6	–	–
Cityscapes 分割	SegFormer + FAN-T-H	224x224x3	FP16			–	–
Cityscapes 分割	Segformer + FAN-S-H	224x224x3	FP16			–	–
Cityscapes 分割	SegFormer + FAN-B-H	224x224x3	FP16			–	–
Cityscapes 分割	SegFormer + FAN-L-H	224x224x3	FP16			–	–
RetailObjectDetection v2.0 - 二元	Efficientdet-D5	960x544x3	FP16			–	–
RetailObjectDetection v2.0 - 二元	DINO-FAN_base	960x544x3	FP16	1	3.4	–	–
RetailObjectDetection v2.0 - Meta	DINO-FAN_base	960x544x3	FP16	1	3.4	–	–
RetailObjectEmbedding v2.0	FAN-B-H	224x224x3	FP16	4	59.8	–	–
RetailObjectEmbedding v2.0	FAN-L-H	224x224x3	FP16	4	41.9	–	–
RetailObjectEmbedding v2.0	NVCLIP-B	224x224x3	FP16	16	575	–	–
Siamese Optical Inspection	Siamese CNN	2x512x128x3	FP16	16	482	–	–
OCDNet	DCN-RN18	640x640x3	FP16	2	45	–	–
OCDNet	DCN-RN50	640x640x3	FP16	2	22	–	–
OCRNet	ResNet50 + Bi-LSTM 剪枝	32x100x3	FP16	64	1373	–	–
OCRNet	ResNet50 + Bi-LSTM 未剪枝	32x100x3	FP16	64	1051	–	–
PCB 检测	GC-ViT-xxTiny	224x224x3	FP16	4	198	–	–
CitySemSegFormer v2.0	Segformer + MIT	1024x1024x3	FP16	1	1.9	–	–
CitySemSegFormer v2.0	SegFormer + FAN -B-H	1024x1024x3	FP16	1	1.78	–	–
PeopleSemSegFormer v2.0	SegFormer + FAN-B-H	512x512x3	FP16			–	–
Visual ChangeNet Classification	Visual ChangeNet + FAN -S-H	512x128x3	FP16	16	44.7	–	–
Visual ChangeNet Segmentation	Visual ChangeNet + FAN -B-H	256x256x3	FP16	16	21.92	–	–
CenterPose	DLA34	512x512x3	FP16	1	27.74	–	–
CenterPose	FAN-S-H	512x512x3	FP16	1	11.35	–	–

模型名称	架构	推理分辨率	精度	GPU BS	GPU FPS	DLA1 + DLA2 BS	DLA1 + DLA2 FPS
PeopleNet	DetectNet_v2 - ResNet18	960x544x3	INT8	32	1116	32	528
PeopleNet (v2.3)	DetectNet_v2 - ResNet34	960x544x3	INT8	32	890	32	404
PeopleNet (v2.5 未剪枝)	DetectNet_v2 - ResNet34	960x544x3	INT8	16	421	32	104
TrafficCamNet	DetectNet_v2 - ResNet18	960x544x3	INT8	32	1268	32	594
DashCamNet	DetectNet_v2 - ResNet18	960x544x3	INT8	32	1308	64	587
FaceDetect-IR	DetectNet_v2 - ResNet18	384x240x3	INT8	128	7462	128	2720
VehilceMakeNet	ResNet18	224x224x3	INT8	128	11872	128	3956
VehicleTypeNet	ResNet18	224x224x3	INT8	128	9815	128	3494
FaceDetect (剪枝)	DetectNet_v2 - ResNet18	736x416x3	INT8	64	1700	64	870
License Plate Detection v1.0	DetectNet_v2 - ResNet18	640x480x3	INT8	64		64
License Plate Recognition	ResNet	96x48x3	FP16	128	4118	–	–
面部地标		80x80x1	FP16	64		–	–
GazeNet		224x224x1, 224x224x1, 224x224x1, 25x25x1	FP16	128	3226	–	–
GestureNet		160x160x3	FP16	128	15133	–	–
BodyPose		288x384x3	INT8	16	559	–	–
Action Recognition 2D RGB	2D CNN	224x224x96	FP16	64	1577	–	–
Action Recognition 3D RGB	3D CNN	224x224x32x3	FP16	8	105	–	–
Action Recognition 2D OF	2D 光流	224x224x96	FP16	32	1702	–	–
Action Recognition 3D OF	3D 光流	224x224x32x3	FP16	4	109	–	–
Point Pillar	Point Pillar		FP16	1	90	–	–
姿态分类	ST-GCN		FP16	16	262	–	–
3D 姿态 - 精度			FP16	16	597	–	–
3D 姿态 - 性能			FP16	16	711	–	–
PeopleSemSegNet_v2 - Shuffle	UNET - Shuffle	960x544x3	FP16	32	703	–	–
PeopleSemSegNet_v2 - Vanilla	UNET - Vanilla	960x544x3	FP16	4	75	–	–
PeopleNet Transformer	D-DETR	960x544x3	FP16	2	33	–	–
ReidentificationNet	ResNet50	3x256x18	FP16	64	2772	–	–
RetailObjectDetection v1.0 - 100 类	EfficientNet-D5	416x416x3	FP16	16	121	–	–
RetailObjectDetection v1.0 - 二元	EfficientNet-D5	416x416x3	FP16	16	114	–	–
RetailObjectEmbedding v1.0	ResNet101	3x224x224	FP16	32	1355	–	–
CitySemSegFormer v1.0	SegFormer		FP16	1	1.5	–	–
ImageNet 分类	FAN-T-H	224x224x3	FP16	8	385	–	–
ImageNet 分类	FAN-S-H	224x224x3	FP16	8	255	–	–
ImageNet 分类	FAN-B-H	224x224x3	FP16	8	166	–	–
ImageNet 分类	FAN-L-H	224x224x3	FP16	8	117	–	–
ImageNet 分类	FAN-XL-H	224x224x3	FP16	8	106	–	–
ImageNet 分类	GC-ViT-xxTiny	224x224x3	FP16	16	559	–	–
ImageNet 分类	GC-ViT-xTiny	224x224x3	FP16	16	431	–	–
ImageNet 分类	GC-ViT-T	224x224x3	FP16	16	293	–	–
ImageNet 分类	GC-ViT-S	224x224x3	FP16			–	–
ImageNet 分类	GC-ViT-B	224x224x3	FP16	8	138	–	–
ImageNet 分类	GC-ViT-L	224x224x3	FP16	8	80.7	–	–
ImageNet 分类	GC-ViT-L-384	384x384x3	FP16	4	28.1	–	–
ImageNet 分类	FAN-B-H-384 (384 分辨率)	384x384x3	FP16	8	61.2	–	–
ImageNet 分类	FAN-L-H-384	384x384x3	FP16			–	–
ImageNet 分类	EfficientNetB0	224x224x3	FP16	64	2152	–	–
ImageNet 分类	EfficientNetB1	224x224x3	FP16	64	860	–	–
ImageNet 分类	EfficientNetB2	224x224x3	FP16	64	811	–	–
ImageNet 分类	EfficientNetB3	224x224x3	FP16	64	609	–	–
ImageNet 分类	EfficientNetB4	224x224x3	FP16	64	451	–	–
ImageNet 分类	EfficientNetB5	224x224x3	FP16	32	318	–	–
COCO 对象检测	DDETR+RN50	960x544x3	FP16	4	25.8	–	–
COCO 对象检测	DDETR + GCViT-T	960x544x3	FP16	4	14.2	–	–
COCO 对象检测	DINO + RN50	960x544x3	FP16	4	22	–	–
COCO 对象检测	DINO + FAN-S	960x544x3	FP16	4	11.2	–	–
COCO 对象检测	DINO + GC-ViT-T	960x544x3	FP16	4	13	–	–
COCO 对象检测	DINO + FAN-L	960x544x3	FP16	1	6.2	–	–
Cityscapes 分割	SegFormer + FAN-T-H	224x224x3	FP16			–	–
Cityscapes 分割	Segformer + FAN-S-H	224x224x3	FP16			–	–
Cityscapes 分割	SegFormer + FAN-B-H	224x224x3	FP16			–	–
Cityscapes 分割	SegFormer + FAN-L-H	224x224x3	FP16			–	–
RetailObjectDetection v2.0 - 二元	Efficientdet-D5	960x544x3	FP16			–	–
RetailObjectDetection v2.0 - 二元	DINO-FAN_base	960x544x3	FP16	1	8.1	–	–
RetailObjectDetection v2.0 - Meta	DINO-FAN_base	960x544x3	FP16	1	8.1	–	–
RetailObjectEmbedding v2.0	FAN-B-H	224x224x3	FP16	8	161	–	–
RetailObjectEmbedding v2.0	FAN-L-H	224x224x3	FP16	8	112	–	–
RetailObjectEmbedding v2.0	NVCLIP-B	224x224x3	FP16	32	1541	–	–
Siamese Optical Inspection	Siamese CNN	2x512x128x3	FP16	32	1538	–	–
OCDNet	DCN-RN18	640x640x3	FP16	4	120	–	–
OCDNet	DCN-RN50	640x640x3	FP16			–	–
OCRNet	ResNet50 + Bi-LSTM 剪枝	32x100x3	FP16	128	3876	–	–
OCRNet	ResNet50 + Bi-LSTM 未剪枝	32x100x3	FP16	128	2950	–	–
PCB 检测	GC-ViT-xxTiny	224x224x3	FP16	16	560	–	–
CitySemSegFormer v2.0	Segformer + MIT	1024x1024x3	FP16	1	4.8	–	–
CitySemSegFormer v2.0	SegFormer + FAN -B-H	1024x1024x3	FP16	1	4.4	–	–
PeopleSemSegFormer v2.0	SegFormer + FAN-B-H	512x512x3	FP16			–	–
Visual ChangeNet Classification	Visual ChangeNet + FAN -S-H	512x128x3	FP16	16	113.2	–	–
Visual ChangeNet Segmentation	Visual ChangeNet + FAN -B-H	256x256x3	FP16	16	55	–	–
CenterPose	DLA34	512x512x3	FP16	1	57.04	–	–
CenterPose	FAN-S-H	512x512x3	FP16	1	28.03	–	–

模型名称	架构	推理分辨率	精度	GPU BS	GPU FPS
PeopleNet	DetectNet_v2 - ResNet18	960x544x3	INT8	64	4228
PeopleNet (v2.3)	DetectNet_v2 - ResNet34	960x544x3	INT8	32	3160
PeopleNet (v2.5 未剪枝)	DetectNet_v2 - ResNet34	960x544x3	INT8	32	1603
TrafficCamNet	DetectNet_v2 - ResNet18	960x544x3	INT8	64	5082
DashCamNet	DetectNet_v2 - ResNet18	960x544x3	INT8	64	4900
FaceDetect-IR	DetectNet_v2 - ResNet18	384x240x3	INT8	128	27100
VehilceMakeNet	ResNet18	224x224x3	INT8	256	46200
VehicleTypeNet	ResNet18	224x224x3	INT8	128	37200
FaceDetect (剪枝)	DetectNet_v2 - ResNet18	736x416x3	INT8	64	7700
License Plate Detection v1.0	DetectNet_v2 - ResNet18	640x480x3	INT8	128	12500
License Plate Recognition	ResNet	96x48x3	FP16	128	12400
面部地标		80x80x1	FP16	128	12400
GazeNet		224x224x1, 224x224x1, 224x224x1, 25x25x1	FP16	512	12321
GestureNet		160x160x3	FP16	512	47361
BodyPose		288x384x3	INT8	32	1596
Action Recognition 2D RGB	2D CNN	224x224x96	FP16	16	6000
Action Recognition 3D RGB	3D CNN	224x224x32x3	FP16	4	380
Action Recognition 2D OF	2D 光流	224x224x96	FP16	32	8940
Action Recognition 3D OF	3D 光流	224x224x32x3	FP16	16	461
Point Pillar	Point Pillar		FP16	1	271
姿态分类	ST-GCN		FP16	64	1121.68
3D 姿态 - 精度			FP16	32	1913.92
3D 姿态 - 性能			FP16	32	2241.83
PeopleSemSegNet_v2 - Shuffle	UNET - Shuffle	960x544x3	FP16	64	2862.76
PeopleSemSegNet_v2 - Vanilla	UNET - Vanilla	960x544x3	FP16	16	253.77
PeopleNet Transformer	D-DETR	960x544x3	FP16	16	135
ReidentificationNet	ResNet50	3x256x18	FP16	128	9649
RetailObjectDetection v1.0 - 100 类	EfficientNet-D5	416x416x3	FP16	64	485
RetailObjectDetection v1.0 - 二元	EfficientNet-D5	416x416x3	FP16	64	450
RetailObjectEmbedding v1.0	ResNet101	3x224x224	FP16	64	4791
CitySemSegFormer v1.0	SegFormer		FP16	1	6.4
ImageNet 分类	FAN-T-H	224x224x3	FP16	32	1806
ImageNet 分类	FAN-S-H	224x224x3	FP16	32	1185
ImageNet 分类	FAN-B-H	224x224x3	FP16	16	769
ImageNet 分类	FAN-L-H	224x224x3	FP16	16	548
ImageNet 分类	FAN-XL-H	224x224x3	FP16	16	423
ImageNet 分类	GC-ViT-xxTiny	224x224x3	FP16	32	3105
ImageNet 分类	GC-ViT-xTiny	224x224x3	FP16	32	2339
ImageNet 分类	GC-ViT-T	224x224x3	FP16	32	1658
ImageNet 分类	GC-ViT-S	224x224x3	FP16	16	1077
ImageNet 分类	GC-ViT-B	224x224x3	FP16	16	711
ImageNet 分类	GC-ViT-L	224x224x3	FP16	16	388
ImageNet 分类	GC-ViT-L-384	384x384x3	FP16	8	151
ImageNet 分类	FAN-B-H-384 (384 分辨率)	384x384x3	FP16	16	260
ImageNet 分类	FAN-L-H-384	384x384x3	FP16	8	179
ImageNet 分类	EfficientNetB0	224x224x3	FP16	64	8361
ImageNet 分类	EfficientNetB1	224x224x3	FP16	64	3245
ImageNet 分类	EfficientNetB2	224x224x3	FP16	64	3078
ImageNet 分类	EfficientNetB3	224x224x3	FP16	64	2320
ImageNet 分类	EfficientNetB4	224x224x3	FP16	64	1669
ImageNet 分类	EfficientNetB5	224x224x3	FP16	64	1203
COCO 对象检测	DDETR+RN50	960x544x3	FP16	8	141
COCO 对象检测	DDETR + GCViT-T	960x544x3	FP16	8	87
COCO 对象检测	DINO + RN50	960x544x3	FP16	8	115
COCO 对象检测	DINO + FAN-S	960x544x3	FP16	4	56
COCO 对象检测	DINO + GC-ViT-T	960x544x3	FP16	8	77
COCO 对象检测	DINO + FAN-L	960x544x3	FP16	8	33.4
Cityscapes 分割	SegFormer + FAN-T-H	224x224x3	FP16	16	1098
Cityscapes 分割	Segformer + FAN-S-H	224x224x3	FP16	16	834
Cityscapes 分割	SegFormer + FAN-B-H	224x224x3	FP16	16	606
Cityscapes 分割	SegFormer + FAN-L-H	224x224x3	FP16	16	465
RetailObjectDetection v2.0 - 二元	Efficientdet-D5	960x544x3	FP16
RetailObjectDetection v2.0 - 二元	DINO-FAN_base	960x544x3	FP16	8	44.2
RetailObjectDetection v2.0 - Meta	DINO-FAN_base	960x544x3	FP16	8	44
RetailObjectEmbedding v2.0	FAN-B-H	224x224x3	FP16	16	734
RetailObjectEmbedding v2.0	FAN-L-H	224x224x3	FP16	16	522
RetailObjectEmbedding v2.0	NVCLIP-B	224x224x3	FP16	16	5886
Siamese Optical Inspection	Siamese CNN	2x512x128x3	FP16	32	6318
OCDNet	DCN-RN18	640x640x3	FP16	16	387
OCDNet	DCN-RN50	640x640x3	FP16	8	186.6
OCRNet	ResNet50 + Bi-LSTM 剪枝	32x100x3	FP16	128	12122
OCRNet	ResNet50 + Bi-LSTM 未剪枝	32x100x3	FP16	128	9656
PCB 检测	GC-ViT-xxTiny	224x224x3	FP16	32	3221
CitySemSegFormer v2.0	Segformer + MIT	1024x1024x3	FP16	4	29.3
CitySemSegFormer v2.0	SegFormer + FAN -B-H	1024x1024x3	FP16	4	23.7
PeopleSemSegFormer v2.0	SegFormer + FAN-B-H	512x512x3	FP16	8	116.8
Visual ChangeNet Classification	Visual ChangeNet + FAN -S-H	512x128x3	FP16	16	436
Visual ChangeNet Segmentation	Visual ChangeNet + FAN -B-H	256x256x3	FP16	16	204
CenterPose	DLA34	512x512x3	FP16	1	57.46
CenterPose	FAN-S-H	512x512x3	FP16	1	26.73

模型名称	架构	推理分辨率	精度	GPU BS	GPU FPS
PeopleNet	DetectNet_v2 - ResNet18	960x544x3	INT8	64	3819
PeopleNet (v2.3)	DetectNet_v2 - ResNet34	960x544x3	INT8	32	2568
PeopleNet (v2.5 未剪枝)	DetectNet_v2 - ResNet34	960x544x3	INT8	32	1007
TrafficCamNet	DetectNet_v2 - ResNet18	960x544x3	INT8	64	4754
DashCamNet	DetectNet_v2 - ResNet18	960x544x3	INT8	64	4600
FaceDetect-IR	DetectNet_v2 - ResNet18	384x240x3	INT8	128	26900
VehilceMakeNet	ResNet18	224x224x3	INT8	256	44800
VehicleTypeNet	ResNet18	224x224x3	INT8	256	31500
FaceDetect (剪枝)	DetectNet_v2 - ResNet18	736x416x3	INT8	64	6000
License Plate Detection v1.0	DetectNet_v2 - ResNet18	640x480x3	INT8	256	13900
License Plate Recognition	ResNet	96x48x3	FP16	256	9000
面部地标		80x80x1	FP16	512	9600
GazeNet		224x224x1, 224x224x1, 224x224x1, 25x25x1	FP16	512	10718
GestureNet		160x160x3	FP16	512	35371
BodyPose		288x384x3	INT8	32	1334
Action Recognition 2D RGB	2D CNN	224x224x96	FP16	16	4600
Action Recognition 3D RGB	3D CNN	224x224x32x3	FP16	4	265
Action Recognition 2D OF	2D 光流	224x224x96	FP16	32	6500
Action Recognition 3D OF	3D 光流	224x224x32x3	FP16	16	284
Point Pillar	Point Pillar		FP16	1	246
姿态分类	ST-GCN		FP16	64	825.75
3D 姿态 - 精度			FP16	32	1286.05
3D 姿态 - 性能			FP16	32	1558.21
PeopleSemSegNet_v2 - Shuffle	UNET - Shuffle	960x544x3	FP16	64	2429.62
PeopleSemSegNet_v2 - Vanilla	UNET - Vanilla	960x544x3	FP16	16	180.04
PeopleNet Transformer	D-DETR	960x544x3	FP16	16	106
ReidentificationNet	ResNet50	3x256x18	FP16	128	6129
RetailObjectDetection v1.0 - 100 类	EfficientNet-D5	416x416x3	FP16	64	367
RetailObjectDetection v1.0 - 二元	EfficientNet-D5	416x416x3	FP16	64	341
RetailObjectEmbedding v1.0	ResNet101	3x224x224	FP16	64	3105
CitySemSegFormer v1.0	SegFormer		FP16	1	4.5

模型名称	架构	推理分辨率	精度	GPU BS	GPU FPS
ImageNet 分类	FAN-T-H	224x224x3	FP16	4	99.1
ImageNet 分类	FAN-S-H	224x224x3	FP16	4	64.5
ImageNet 分类	FAN-B-H	224x224x3	FP16	4	42.3
ImageNet 分类	FAN-L-H	224x224x3	FP16	4	29.8
ImageNet 分类	FAN-XL-H	224x224x3	FP16	4	27
ImageNet 分类	GC-ViT-xxTiny	224x224x3	FP16	8	146
ImageNet 分类	GC-ViT-xTiny	224x224x3	FP16	8	111
ImageNet 分类	GC-ViT-T	224x224x3	FP16	8	75
ImageNet 分类	GC-ViT-S	224x224x3	FP16
ImageNet 分类	GC-ViT-B	224x224x3	FP16	4	35.2
ImageNet 分类	GC-ViT-L	224x224x3	FP16	4	19.8
ImageNet 分类	GC-ViT-L-384	384x384x3	FP16
ImageNet 分类	FAN-B-H-384 (384 分辨率)	384x384x3	FP16	4	16
ImageNet 分类	FAN-L-H-384	384x384x3	FP16
ImageNet 分类	EfficientNetB0	224x224x3	FP16	32	571
ImageNet 分类	EfficientNetB1	224x224x3	FP16	32	227
ImageNet 分类	EfficientNetB2	224x224x3	FP16	16	208
ImageNet 分类	EfficientNetB3	224x224x3	FP16	16	155
ImageNet 分类	EfficientNetB4	224x224x3	FP16	16	116
ImageNet 分类	EfficientNetB5	224x224x3	FP16	8	81
COCO 对象检测	DDETR+RN50	960x544x3	FP16	1	6.6
COCO 对象检测	DDETR + GCViT-T	960x544x3	FP16	1	3.6
COCO 对象检测	DINO + RN50	960x544x3	FP16	1	5.7
COCO 对象检测	DINO + FAN-S	960x544x3	FP16	1	3.1
COCO 对象检测	DINO + GC-ViT-T	960x544x3	FP16	1	3.3
COCO 对象检测	DINO + FAN-L	960x544x3	FP16	1	1.8
Cityscapes 分割	SegFormer + FAN-T-H	224x224x3	FP16
Cityscapes 分割	Segformer + FAN-S-H	224x224x3	FP16
Cityscapes 分割	SegFormer + FAN-B-H	224x224x3	FP16
Cityscapes 分割	SegFormer + FAN-L-H	224x224x3	FP16
RetailObjectDetection v2.0 - 二元	Efficientdet-D5	960x544x3	FP16
RetailObjectDetection v2.0 - 二元	DINO-FAN_base	960x544x3	FP16	1	2.3
RetailObjectDetection v2.0 - Meta	DINO-FAN_base	960x544x3	FP16	1	2.3
RetailObjectEmbedding v2.0	FAN-B-H	224x224x3	FP16	4	40.2
RetailObjectEmbedding v2.0	FAN-L-H	224x224x3	FP16	4	28.4
RetailObjectEmbedding v2.0	NVCLIP-B	224x224x3	FP16	16	393
Siamese Optical Inspection	Siamese CNN	2x512x128x3	FP16	16	399
OCDNet	DCN-RN18	640x640x3	FP16
OCDNet	DCN-RN50	640x640x3	FP16
OCRNet	ResNet50 + Bi-LSTM 剪枝	32x100x3	FP16	64	935
OCRNet	ResNet50 + Bi-LSTM 未剪枝	32x100x3	FP16	64	715
PCB 检测	GC-ViT-xxTiny	224x224x3	FP16	4	133.9
CitySemSegFormer v2.0	Segformer + MIT	1024x1024x3	FP16	1	1.36
CitySemSegFormer v2.0	SegFormer + FAN -B-H	1024x1024x3	FP16	1	1.2
PeopleSemSegFormer v2.0	SegFormer + FAN-B-H	512x512x3	FP16
Visual ChangeNet Classification	Visual ChangeNet + FAN -S-H	512x128x3	FP16	16	31
Visual ChangeNet Segmentation	Visual ChangeNet + FAN -B-H	256x256x3	FP16	16	15.2
CenterPose	DLA34	512x512x3	FP16	1	19.16
CenterPose	FAN-S-H	512x512x3	FP16	1	7.94

模型名称	架构	推理分辨率	精度	GPU BS	GPU FPS
PeopleNet	DetectNet_v2 - ResNet18	960x544x3	INT8	128	8500
PeopleNet (v2.3)	DetectNet_v2 - ResNet34	960x544x3	INT8	64	6245
PeopleNet (v2.5 未剪枝)	DetectNet_v2 - ResNet34	960x544x3	INT8	64	3291
TrafficCamNet	DetectNet_v2 - ResNet18	960x544x3	INT8	256	9717
DashCamNet	DetectNet_v2 - ResNet18	960x544x3	INT8	256	9500
FaceDetect-IR	DetectNet_v2 - ResNet18	384x240x3	INT8	256	51600
VehilceMakeNet	ResNet18	224x224x3	INT8	1024	88300
VehicleTypeNet	ResNet18	224x224x3	INT8	512	72300
FaceDetect (剪枝)	DetectNet_v2 - ResNet18	736x416x3	INT8	256	14900
License Plate Detection v1.0	DetectNet_v2 - ResNet18	640x480x3	INT8	256	23200
License Plate Recognition	ResNet	96x48x3	FP16	256	27200
面部地标		80x80x1	FP16	256	19600
GazeNet		224x224x1, 224x224x1, 224x224x1, 25x25x1	FP16	1024	25394
GestureNet		160x160x3	FP16	1024	94555
BodyPose		288x384x3	INT8	16	3180
Action Recognition 2D RGB	2D CNN	224x224x96	FP16	32	12600
Action Recognition 3D RGB	3D CNN	224x224x32x3	FP16	16	797
Action Recognition 2D OF	2D 光流	224x224x96	FP16	64	17535
Action Recognition 3D OF	3D 光流	224x224x32x3	FP16	16	899
Point Pillar	Point Pillar		FP16	1	425
姿态分类	ST-GCN		FP16	64	2144.84
3D 姿态 - 精度			FP16	32	3466.34
3D 姿态 - 性能			FP16	32	4176.37
PeopleSemSegNet_v2 - Shuffle	UNET - Shuffle	960x544x3	FP16	64	5745.79
PeopleSemSegNet_v2 - Vanilla	UNET - Vanilla	960x544x3	FP16	16	496.34
PeopleNet Transformer	D-DETR	960x544x3	FP16	16	267
ReidentificationNet	ResNet50	3x256x18	FP16	256	20781
RetailObjectDetection v1.0 - 100 类	EfficientNet-D5	416x416x3	FP16	64	1012
RetailObjectDetection v1.0 - 二元	EfficientNet-D5	416x416x3	FP16	64	947
RetailObjectEmbedding v1.0	ResNet101	3x224x224	FP16	64	9851
CitySemSegFormer v1.0	SegFormer		FP16	4	13
ImageNet 分类	FAN-T-H	224x224x3	FP16	128	3867
ImageNet 分类	FAN-S-H	224x224x3	FP16	128	2576
ImageNet 分类	FAN-B-H	224x224x3	FP16	64	1692
ImageNet 分类	FAN-L-H	224x224x3	FP16	64	1196
ImageNet 分类	FAN-XL-H	224x224x3	FP16	32	1046
ImageNet 分类	GC-ViT-xxTiny	224x224x3	FP16	128	6863
ImageNet 分类	GC-ViT-xTiny	224x224x3	FP16	128	5162
ImageNet 分类	GC-ViT-T	224x224x3	FP16	128	3600
ImageNet 分类	GC-ViT-S	224x224x3	FP16	64	2435
ImageNet 分类	GC-ViT-B	224x224x3	FP16	64	1663
ImageNet 分类	GC-ViT-L	224x224x3	FP16	64	917
ImageNet 分类	GC-ViT-L-384	384x384x3	FP16	32	344
ImageNet 分类	FAN-B-H-384 (384 分辨率)	384x384x3	FP16	64	577
ImageNet 分类	FAN-L-H-384	384x384x3	FP16	64	402
ImageNet 分类	EfficientNetB0	224x224x3	FP16	256	17909
ImageNet 分类	EfficientNetB1	224x224x3	FP16	256	6994
ImageNet 分类	EfficientNetB2	224x224x3	FP16	256	6665
ImageNet 分类	EfficientNetB3	224x224x3	FP16	256	4987
ImageNet 分类	EfficientNetB4	224x224x3	FP16	64	3577
ImageNet 分类	EfficientNetB5	224x224x3	FP16	256	2583
COCO 对象检测	DDETR+RN50	960x544x3	FP16	32	296
COCO 对象检测	DDETR + GCViT-T	960x544x3	FP16	32	184
COCO 对象检测	DINO + RN50	960x544x3	FP16	32	244
COCO 对象检测	DINO + FAN-S	960x544x3	FP16	32	121
COCO 对象检测	DINO + GC-ViT-T	960x544x3	FP16	32	165
COCO 对象检测	DINO + FAN-L	960x544x3	FP16	16	70.6
Cityscapes 分割	SegFormer + FAN-T-H	224x224x3	FP16	64	2381
Cityscapes 分割	Segformer + FAN-S-H	224x224x3	FP16	64	1808
Cityscapes 分割	SegFormer + FAN-B-H	224x224x3	FP16	64	1338
Cityscapes 分割	SegFormer + FAN-L-H	224x224x3	FP16	64	1000
RetailObjectDetection v2.0 - 二元	Efficientdet-D5	960x544x3	FP16
RetailObjectDetection v2.0 - 二元	DINO-FAN_base	960x544x3	FP16	32	94.3
RetailObjectDetection v2.0 - Meta	DINO-FAN_base	960x544x3	FP16	32	94.2
RetailObjectEmbedding v2.0	FAN-B-H	224x224x3	FP16	64	1621
RetailObjectEmbedding v2.0	FAN-L-H	224x224x3	FP16	64	1155
RetailObjectEmbedding v2.0	NVCLIP-B	224x224x3	FP16	64	15584
Siamese Optical Inspection	Siamese CNN	2x512x128x3	FP16	128	15660
OCDNet	DCN-RN18	640x640x3	FP16	64	724
OCDNet	DCN-RN50	640x640x3	FP16	64	351
OCRNet	ResNet50 + Bi-LSTM 剪枝	32x100x3	FP16	512	28297
OCRNet	ResNet50 + Bi-LSTM 未剪枝	32x100x3	FP16	512	21212
PCB 检测	GC-ViT-xxTiny	224x224x3	FP16	128	7095
CitySemSegFormer v2.0	Segformer + MIT	1024x1024x3	FP16	8	62.2
CitySemSegFormer v2.0	SegFormer + FAN -B-H	1024x1024x3	FP16	8	50.4
PeopleSemSegFormer v2.0	SegFormer + FAN-B-H	512x512x3	FP16	32	254
Visual ChangeNet Classification	Visual ChangeNet + FAN -S-H	512x128x3	FP16	16	920
Visual ChangeNet Segmentation	Visual ChangeNet + FAN -B-H	256x256x3	FP16	16	435
CenterPose	DLA34	512x512x3	FP16	1	82.16
CenterPose	FAN-S-H	512x512x3	FP16	1	49.99

模型名称	架构	推理分辨率	精度	GPU BS	GPU FPS
PeopleNet	DetectNet_v2 - ResNet18	960x544x3	INT8	64	1379
PeopleNet (v2.3)	DetectNet_v2 - ResNet34	960x544x3	INT8	32	1064
PeopleNet (v2.5 未剪枝)	DetectNet_v2 - ResNet34	960x544x3	INT8	32	465
TrafficCamNet	DetectNet_v2 - ResNet18	960x544x3	INT8	64	1725
DashCamNet	DetectNet_v2 - ResNet18	960x544x3	INT8	64	1676
FaceDetect-IR	DetectNet_v2 - ResNet18	384x240x3	INT8	128	9810
VehilceMakeNet	ResNet18	224x224x3	INT8	256	16500
VehicleTypeNet	ResNet18	224x224x3	INT8	128	12500
FaceDetect (剪枝)	DetectNet_v2 - ResNet18	736x416x3	INT8	64	2578
License Plate Detection v1.0	DetectNet_v2 - ResNet18	640x480x3	INT8	128	6123
License Plate Recognition	ResNet	96x48x3	FP16	128	3959
面部地标		80x80x1	FP16	128	4622
GazeNet		224x224x1, 224x224x1, 224x224x1, 25x25x1	FP16	512	4563
GestureNet		160x160x3	FP16	512	15377
BodyPose		288x384x3	INT8	32	598
Action Recognition 2D RGB	2D CNN	224x224x96	FP16	16	1897
Action Recognition 3D RGB	3D CNN	224x224x32x3	FP16	4	139
Action Recognition 2D OF	2D 光流	224x224x96	FP16	32	3320
Action Recognition 3D OF	3D 光流	224x224x32x3	FP16	16	192
Point Pillar	Point Pillar		FP16	1	111
姿态分类	ST-GCN		FP16	64	376.4
3D 姿态 - 精度			FP16	32	614.98
3D 姿态 - 性能			FP16	32	712.94
PeopleSemSegNet_v2 - Shuffle	UNET - Shuffle	960x544x3	FP16	64	1027.85
PeopleSemSegNet_v2 - Vanilla	UNET - Vanilla	960x544x3	FP16	16	79.08
PeopleNet Transformer	D-DETR	960x544x3	FP16	4	48
ReidentificationNet	ResNet50	3x256x18	FP16	64	2586
RetailObjectDetection v1.0 - 100 类	EfficientNet-D5	416x416x3	FP16	32	162
RetailObjectDetection v1.0 - 二元	EfficientNet-D5	416x416x3	FP16	32	151
RetailObjectEmbedding v1.0	ResNet101	3x224x224	FP16	32	1270
CitySemSegFormer v1.0	SegFormer		FP16	1	2
ImageNet 分类	FAN-T-H	224x224x3	FP16	16	624
ImageNet 分类	FAN-S-H	224x224x3	FP16	8	403
ImageNet 分类	FAN-B-H	224x224x3	FP16	8	259
ImageNet 分类	FAN-L-H	224x224x3	FP16	16	188
ImageNet 分类	FAN-XL-H	224x224x3	FP16	16	166
ImageNet 分类	GC-ViT-xxTiny	224x224x3	FP16	16	999
ImageNet 分类	GC-ViT-xTiny	224x224x3	FP16	32	739
ImageNet 分类	GC-ViT-T	224x224x3	FP16	16	517
ImageNet 分类	GC-ViT-S	224x224x3	FP16	8	335
ImageNet 分类	GC-ViT-B	224x224x3	FP16	4	223
ImageNet 分类	GC-ViT-L	224x224x3	FP16	16	122
ImageNet 分类	GC-ViT-L-384	384x384x3	FP16	4	45.1
ImageNet 分类	FAN-B-H-384 (384 分辨率)	384x384x3	FP16	8	91
ImageNet 分类	FAN-L-H-384	384x384x3	FP16	4	62
ImageNet 分类	EfficientNetB0	224x224x3	FP16	64	2735
ImageNet 分类	EfficientNetB1	224x224x3	FP16	64	1099
ImageNet 分类	EfficientNetB2	224x224x3	FP16	32	1006
ImageNet 分类	EfficientNetB3	224x224x3	FP16	32	753
ImageNet 分类	EfficientNetB4	224x224x3	FP16	16	526
ImageNet 分类	EfficientNetB5	224x224x3	FP16	16	375
COCO 对象检测	DDETR+RN50	960x544x3	FP16	1	46.5
COCO 对象检测	DDETR + GCViT-T	960x544x3	FP16	4	30.3
COCO 对象检测	DINO + RN50	960x544x3	FP16	4	38.9
COCO 对象检测	DINO + FAN-S	960x544x3	FP16	4	20
COCO 对象检测	DINO + GC-ViT-T	960x544x3	FP16	8	26.7
COCO 对象检测	DINO + FAN-L	960x544x3	FP16	4	10.9
Cityscapes 分割	SegFormer + FAN-T-H	224x224x3	FP16	16	374
Cityscapes 分割	Segformer + FAN-S-H	224x224x3	FP16	8	272
Cityscapes 分割	SegFormer + FAN-B-H	224x224x3	FP16	8	198
Cityscapes 分割	SegFormer + FAN-L-H	224x224x3	FP16	16	156.7
RetailObjectDetection v2.0 - 二元	Efficientdet-D5	960x544x3	FP16
RetailObjectDetection v2.0 - 二元	DINO-FAN_base	960x544x3	FP16	2	15.2
RetailObjectDetection v2.0 - Meta	DINO-FAN_base	960x544x3	FP16	4	15.4
RetailObjectEmbedding v2.0	FAN-B-H	224x224x3	FP16	8	253
RetailObjectEmbedding v2.0	FAN-L-H	224x224x3	FP16	16	184
RetailObjectEmbedding v2.0	NVCLIP-B	224x224x3	FP16	16	1838
Siamese Optical Inspection	Siamese CNN	2x512x128x3	FP16	32	2314
OCDNet	DCN-RN18	640x640x3	FP16	16	155
OCDNet	DCN-RN50	640x640x3	FP16	1	72.5
OCRNet	ResNet50 + Bi-LSTM 剪枝	32x100x3	FP16	128	3649
OCRNet	ResNet50 + Bi-LSTM 未剪枝	32x100x3	FP16	128	2673
PCB 检测	GC-ViT-xxTiny	224x224x3	FP16	16	1012
CitySemSegFormer v2.0	Segformer + MIT	1024x1024x3	FP16	1	9.4
CitySemSegFormer v2.0	SegFormer + FAN -B-H	1024x1024x3	FP16	1	7.3
PeopleSemSegFormer v2.0	SegFormer + FAN-B-H	512x512x3	FP16	4	39.6
Visual ChangeNet Classification	Visual ChangeNet + FAN -S-H	512x128x3	FP16	16	146
Visual ChangeNet Segmentation	Visual ChangeNet + FAN -B-H	256x256x3	FP16	16	59.7
CenterPose	DLA34	512x512x3	FP16	1	24.27
CenterPose	FAN-S-H	512x512x3	FP16	1	9.77

模型名称	架构	推理分辨率	精度	GPU BS	GPU FPS
ImageNet 分类	FAN-T-H	224x224x3	FP16	16	4249
ImageNet 分类	FAN-S-H	224x224x3	FP16	8	2647
ImageNet 分类	FAN-B-H	224x224x3	FP16	8	1720
ImageNet 分类	FAN-L-H	224x224x3	FP16	8	1154
ImageNet 分类	FAN-XL-H	224x224x3	FP16	8	1005
ImageNet 分类	GC-ViT-xxTiny	224x224x3	FP16	16	6282
ImageNet 分类	GC-ViT-xTiny	224x224x3	FP16	16	4632
ImageNet 分类	GC-ViT-T	224x224x3	FP16	16	3118
ImageNet 分类	GC-ViT-S	224x224x3	FP16	8	2022
ImageNet 分类	GC-ViT-B	224x224x3	FP16	8	1282
ImageNet 分类	GC-ViT-L	224x224x3	FP16	4	628
ImageNet 分类	GC-ViT-L-384	384x384x3	FP16	2	247
ImageNet 分类	FAN-B-H-384 (384 分辨率)	384x384x3	FP16	4	558
ImageNet 分类	FAN-L-H-384	384x384x3	FP16	4	366
ImageNet 分类	EfficientNetB0	224x224x3	FP16	32	19577
ImageNet 分类	EfficientNetB1	224x224x3	FP16	16	7723
ImageNet 分类	EfficientNetB2	224x224x3	FP16	16	7234
ImageNet 分类	EfficientNetB3	224x224x3	FP16	16	5063
ImageNet 分类	EfficientNetB4	224x224x3	FP16	16	3740
ImageNet 分类	EfficientNetB5	224x224x3	FP16	16	2671
COCO 对象检测	DDETR+RN50	960x544x3	FP16	1	283
COCO 对象检测	DDETR + GCViT-T	960x544x3	FP16	1	182
COCO 对象检测	DINO + RN50	960x544x3	FP16	1	215
COCO 对象检测	DINO + FAN-S	960x544x3	FP16	1	119.5
COCO 对象检测	DINO + GC-ViT-T	960x544x3	FP16	1	151
COCO 对象检测	DINO + FAN-L	960x544x3	FP16	1	68.5
Cityscapes 分割	SegFormer + FAN-T-H	224x224x3	FP16	8	1985
Cityscapes 分割	Segformer + FAN-S-H	224x224x3	FP16	8	1510
Cityscapes 分割	SegFormer + FAN-B-H	224x224x3	FP16	8	1144
Cityscapes 分割	SegFormer + FAN-L-H	224x224x3	FP16	8	840
RetailObjectDetection v2.0 - 二元	Efficientdet-D5	960x544x3	FP16
RetailObjectDetection v2.0 - 二元	DINO-FAN_base	960x544x3	FP16	1	88.5
RetailObjectDetection v2.0 - Meta	DINO-FAN_base	960x544x3	FP16	1	88.6
RetailObjectEmbedding v2.0	FAN-B-H	224x224x3	FP16	8	1648
RetailObjectEmbedding v2.0	FAN-L-H	224x224x3	FP16	8	1124
RetailObjectEmbedding v2.0	NVCLIP-B	224x224x3	FP16	32	9407
Siamese Optical Inspection	Siamese CNN	2x512x128x3	FP16	128	10390
OCDNet	DCN-RN18	640x640x3	FP16	4	940
OCDNet	DCN-RN50	640x640x3	FP16	4	445
OCRNet	ResNet50 + Bi-LSTM 剪枝	32x100x3	FP16	128	18971
OCRNet	ResNet50 + Bi-LSTM 未剪枝	32x100x3	FP16	256	13950
PCB 检测	GC-ViT-xxTiny	224x224x3	FP16	16	6619
CitySemSegFormer v2.0	Segformer + MIT	1024x1024x3	FP16	1	47.3
CitySemSegFormer v2.0	SegFormer + FAN -B-H	1024x1024x3	FP16	1	40.9
PeopleSemSegFormer v2.0	SegFormer + FAN-B-H	512x512x3	FP16	2	210
Visual ChangeNet Classification	Visual ChangeNet + FAN -S-H	512x128x3	FP16	4	980
Visual ChangeNet Segmentation	Visual ChangeNet + FAN -B-H	256x256x3	FP16	8	364
CenterPose	DLA34	512x512x3	FP16	1	106.70
CenterPose	FAN-S-H	512x512x3	FP16	1	56.65

模型名称	架构	推理分辨率	精度	GPU BS	GPU FPS
ImageNet 分类	FAN-T-H	224x224x3	FP16	8	1604
ImageNet 分类	FAN-S-H	224x224x3	FP16	8	949
ImageNet 分类	FAN-B-H	224x224x3	FP16	4	632
ImageNet 分类	FAN-L-H	224x224x3	FP16	4	442
ImageNet 分类	FAN-XL-H	224x224x3	FP16	4	365
ImageNet 分类	GC-ViT-xxTiny	224x224x3	FP16	8	2440
ImageNet 分类	GC-ViT-xTiny	224x224x3	FP16	8	1797
ImageNet 分类	GC-ViT-T	224x224x3	FP16	16	1266
ImageNet 分类	GC-ViT-S	224x224x3	FP16	8	817
ImageNet 分类	GC-ViT-B	224x224x3	FP16	8	546
ImageNet 分类	GC-ViT-L	224x224x3	FP16	8	268
ImageNet 分类	GC-ViT-L-384	384x384x3	FP16	4	101
ImageNet 分类	FAN-B-H-384 (384 分辨率)	384x384x3	FP16	4	207
ImageNet 分类	FAN-L-H-384	384x384x3	FP16	4	145
ImageNet 分类	EfficientNetB0	224x224x3	FP16	16	7072
ImageNet 分类	EfficientNetB1	224x224x3	FP16	16	2454
ImageNet 分类	EfficientNetB2	224x224x3	FP16	16	2306
ImageNet 分类	EfficientNetB3	224x224x3	FP16	16	1527
ImageNet 分类	EfficientNetB4	224x224x3	FP16	16	1134
ImageNet 分类	EfficientNetB5	224x224x3	FP16	16	780
COCO 对象检测	DDETR+RN50	960x544x3	FP16	1	107
COCO 对象检测	DDETR + GCViT-T	960x544x3	FP16	1	70
COCO 对象检测	DINO + RN50	960x544x3	FP16	1	79.6
COCO 对象检测	DINO + FAN-S	960x544x3	FP16	1	44
COCO 对象检测	DINO + GC-ViT-T	960x544x3	FP16	1	56.6
COCO 对象检测	DINO + FAN-L	960x544x3	FP16	1	26.4
Cityscapes 分割	SegFormer + FAN-T-H	224x224x3	FP16	4	750
Cityscapes 分割	Segformer + FAN-S-H	224x224x3	FP16	4	581
Cityscapes 分割	SegFormer + FAN-B-H	224x224x3	FP16	4	442
Cityscapes 分割	SegFormer + FAN-L-H	224x224x3	FP16	4	341
RetailObjectDetection v2.0 - 二元	Efficientdet-D5	960x544x3	FP16
RetailObjectDetection v2.0 - 二元	DINO-FAN_base	960x544x3	FP16	1	34.1
RetailObjectDetection v2.0 - Meta	DINO-FAN_base	960x544x3	FP16	1	34.1
RetailObjectEmbedding v2.0	FAN-B-H	224x224x3	FP16	4	603
RetailObjectEmbedding v2.0	FAN-L-H	224x224x3	FP16	4	430
RetailObjectEmbedding v2.0	NVCLIP-B	224x224x3	FP16	16	4375
Siamese Optical Inspection	Siamese CNN	2x512x128x3	FP16	32	2821
OCDNet	DCN-RN18	640x640x3	FP16	1	333
OCDNet	DCN-RN50	640x640x3	FP16	1	169
OCRNet	ResNet50 + Bi-LSTM 剪枝	32x100x3	FP16	128	8036
OCRNet	ResNet50 + Bi-LSTM 未剪枝	32x100x3	FP16	64	6045
PCB 检测	GC-ViT-xxTiny	224x224x3	FP16	8	2543
CitySemSegFormer v2.0	Segformer + MIT	1024x1024x3	FP16	1	17.8
CitySemSegFormer v2.0	SegFormer + FAN -B-H	1024x1024x3	FP16	1	15.7
PeopleSemSegFormer v2.0	SegFormer + FAN-B-H	512x512x3	FP16	1	83.4
Visual ChangeNet Classification	Visual ChangeNet + FAN -S-H	512x128x3	FP16	4	344
Visual ChangeNet Segmentation	Visual ChangeNet + FAN -B-H	256x256x3	FP16	8	131.48
CenterPose	DLA34	512x512x3	FP16	1	40.68
CenterPose	FAN-S-H	512x512x3	FP16	1	18.69

模型名称	架构	推理分辨率	精度	GPU BS	GPU FPS
PeopleNet	DetectNet_v2 - ResNet18	960x544x3	INT8	32	749
PeopleNet (v2.3)	DetectNet_v2 - ResNet34	960x544x3	INT8	32	581
PeopleNet (v2.5 未剪枝)	DetectNet_v2 - ResNet34	960x544x3	INT8	32	231
TrafficCamNet	DetectNet_v2 - ResNet18	960x544x3	INT8	32	916
DashCamNet	DetectNet_v2 - ResNet18	960x544x3	INT8	32	865
FaceDetect-IR	DetectNet_v2 - ResNet18	384x240x3	INT8	64	4982
VehilceMakeNet	ResNet18	224x224x3	INT8	128	8000
VehicleTypeNet	ResNet18	224x224x3	INT8	128	6302
FaceDetect (剪枝)	DetectNet_v2 - ResNet18	736x416x3	INT8	32	1174
License Plate Detection v1.0	DetectNet_v2 - ResNet18	640x480x3	INT8	128	2570
License Plate Recognition	ResNet	96x48x3	FP16	128	2180
面部地标		80x80x1	FP16	256	2800
GazeNet		224x224x1, 224x224x1, 224x224x1, 25x25x1	FP16	256	2488
GestureNet		160x160x3	FP16	256	7690
BodyPose		288x384x3	INT8	16	278
Action Recognition 2D RGB	2D CNN	224x224x96	FP16	8	1044
Action Recognition 3D RGB	3D CNN	224x224x32x3	FP16	4	56
Action Recognition 2D OF	2D 光流	224x224x96	FP16	16	1419
Action Recognition 3D OF	3D 光流	224x224x32x3	FP16	2	58
Point Pillar	Point Pillar		FP16	1	63
姿态分类	ST-GCN		FP16	64	211.5
3D 姿态 - 精度			FP16	32	370.13
3D 姿态 - 性能			FP16	32	471.81
PeopleSemSegNet_v2 - Shuffle	UNET - Shuffle	960x544x3	FP16	16	631.31
PeopleSemSegNet_v2 - Vanilla	UNET - Vanilla	960x544x3	FP16	16	44.09
PeopleNet Transformer	D-DETR	960x544x3	FP16	4	27
ReidentificationNet	ResNet50	3x256x18	FP16	64	1570
RetailObjectDetection v1.0 - 100 类	EfficientNet-D5	416x416x3	FP16	32	106
RetailObjectDetection v1.0 - 二元	EfficientNet-D5	416x416x3	FP16	32	99
RetailObjectEmbedding v1.0	ResNet101	3x224x224	FP16	32	803
CitySemSegFormer v1.0	SegFormer		FP16	1	1.3
ImageNet 分类	FAN-T-H	224x224x3	FP16	16	399
ImageNet 分类	FAN-S-H	224x224x3	FP16	16	256
ImageNet 分类	FAN-B-H	224x224x3	FP16	16	168
ImageNet 分类	FAN-L-H	224x224x3	FP16	16	118
ImageNet 分类	FAN-XL-H	224x224x3	FP16	8	103
ImageNet 分类	GC-ViT-xxTiny	224x224x3	FP16	16	666
ImageNet 分类	GC-ViT-xTiny	224x224x3	FP16	32	492
ImageNet 分类	GC-ViT-T	224x224x3	FP16	32	336
ImageNet 分类	GC-ViT-S	224x224x3	FP16	16	213
ImageNet 分类	GC-ViT-B	224x224x3	FP16	16	137
ImageNet 分类	GC-ViT-L	224x224x3	FP16	16	67
ImageNet 分类	GC-ViT-L-384	384x384x3	FP16	2	26
ImageNet 分类	FAN-B-H-384 (384 分辨率)	384x384x3	FP16	8	55.5
ImageNet 分类	FAN-L-H-384	384x384x3	FP16	1	38
ImageNet 分类	EfficientNetB0	224x224x3	FP16	64	1870
ImageNet 分类	EfficientNetB1	224x224x3	FP16	64	726
ImageNet 分类	EfficientNetB2	224x224x3	FP16	64	690
ImageNet 分类	EfficientNetB3	224x224x3	FP16	64	518
ImageNet 分类	EfficientNetB4	224x224x3	FP16	32	363
ImageNet 分类	EfficientNetB5	224x224x3	FP16	32	265
COCO 对象检测	DDETR+RN50	960x544x3	FP16	1	27.7
COCO 对象检测	DDETR + GCViT-T	960x544x3	FP16	1	17.9
COCO 对象检测	DINO + RN50	960x544x3	FP16	1	22.5
COCO 对象检测	DINO + FAN-S	960x544x3	FP16	1	11.7
COCO 对象检测	DINO + GC-ViT-T	960x544x3	FP16	1	15.7
COCO 对象检测	DINO + FAN-L	960x544x3	FP16	1	6.7
Cityscapes 分割	SegFormer + FAN-T-H	224x224x3	FP16	16	230
Cityscapes 分割	Segformer + FAN-S-H	224x224x3	FP16	16	174
Cityscapes 分割	SegFormer + FAN-B-H	224x224x3	FP16	16	129
Cityscapes 分割	SegFormer + FAN-L-H	224x224x3	FP16	16	97.7
RetailObjectDetection v2.0 - 二元	Efficientdet-D5	960x544x3	FP16
RetailObjectDetection v2.0 - 二元	DINO-FAN_base	960x544x3	FP16	1	8.9
RetailObjectDetection v2.0 - Meta	DINO-FAN_base	960x544x3	FP16	1	8.8
RetailObjectEmbedding v2.0	FAN-B-H	224x224x3	FP16	16	161
RetailObjectEmbedding v2.0	FAN-L-H	224x224x3	FP16	16	113
RetailObjectEmbedding v2.0	NVCLIP-B	224x224x3	FP16	16	1200
Siamese Optical Inspection	Siamese CNN	2x512x128x3	FP16	32	1391
OCDNet	DCN-RN18	640x640x3	FP16	8	93
OCDNet	DCN-RN50	640x640x3	FP16	1	45.5
OCRNet	ResNet50 + Bi-LSTM 剪枝	32x100x3	FP16	128	2094
OCRNet	ResNet50 + Bi-LSTM 未剪枝	32x100x3	FP16	128	1482
PCB 检测	GC-ViT-xxTiny	224x224x3	FP16	32	688
CitySemSegFormer v2.0	Segformer + MIT	1024x1024x3	FP16	1	5.8
CitySemSegFormer v2.0	SegFormer + FAN -B-H	1024x1024x3	FP16	1	4.4
PeopleSemSegFormer v2.0	SegFormer + FAN-B-H	512x512x3	FP16	1	23.3
Visual ChangeNet Classification	Visual ChangeNet + FAN -S-H	512x128x3	FP16	16	95.81
Visual ChangeNet Segmentation	Visual ChangeNet + FAN -B-H	256x256x3	FP16	16	36.02
CenterPose	DLA34	512x512x3	FP16	1	15.69
CenterPose	FAN-S-H	512x512x3	FP16	1	5.80

模型名称	架构	推理分辨率	精度	GPU BS	GPU FPS
ImageNet 分类	FAN-T-H	224x224x3	FP16	128	6555
ImageNet 分类	FAN-S-H	224x224x3	FP16	128	4393
ImageNet 分类	FAN-B-H	224x224x3	FP16	64	2833
ImageNet 分类	FAN-L-H	224x224x3	FP16	64	1982
ImageNet 分类	FAN-XL-H	224x224x3	FP16	32	1692
ImageNet 分类	GC-ViT-xxTiny	224x224x3	FP16	128	11942
ImageNet 分类	GC-ViT-xTiny	224x224x3	FP16	128	9094
ImageNet 分类	GC-ViT-T	224x224x3	FP16	128	6381
ImageNet 分类	GC-ViT-S	224x224x3	FP16	64	4145
ImageNet 分类	GC-ViT-B	224x224x3	FP16	64	3040
ImageNet 分类	GC-ViT-L	224x224x3	FP16	64	1618
ImageNet 分类	GC-ViT-L-384	384x384x3	FP16	32	613
ImageNet 分类	FAN-B-H-384 (384 分辨率)	384x384x3	FP16	64	985
ImageNet 分类	FAN-L-H-384	384x384x3	FP16	64	681
ImageNet 分类	EfficientNetB0	224x224x3	FP16	256	28765
ImageNet 分类	EfficientNetB1	224x224x3	FP16	256	11363
ImageNet 分类	EfficientNetB2	224x224x3	FP16	256	10830
ImageNet 分类	EfficientNetB3	224x224x3	FP16	256	8115
ImageNet 分类	EfficientNetB4	224x224x3	FP16	64	5915
ImageNet 分类	EfficientNetB5	224x224x3	FP16	256	4323
COCO 对象检测	DDETR+RN50	960x544x3	FP16	32	526
COCO 对象检测	DDETR + GCViT-T	960x544x3	FP16	32	317
COCO 对象检测	DINO + RN50	960x544x3	FP16	32	442
COCO 对象检测	DINO + FAN-S	960x544x3	FP16	32	213
COCO 对象检测	DINO + GC-ViT-T	960x544x3	FP16	32	290
COCO 对象检测	DINO + FAN-L	960x544x3	FP16	32	125.5
Cityscapes 分割	SegFormer + FAN-T-H	224x224x3	FP16	64	4189
Cityscapes 分割	Segformer + FAN-S-H	224x224x3	FP16	64	3143
Cityscapes 分割	SegFormer + FAN-B-H	224x224x3	FP16	64	2306
Cityscapes 分割	SegFormer + FAN-L-H	224x224x3	FP16	64	1732
RetailObjectDetection v2.0 - 二元	Efficientdet-D5	960x544x3	FP16
RetailObjectDetection v2.0 - 二元	DINO-FAN_base	960x544x3	FP16	32	167
RetailObjectDetection v2.0 - Meta	DINO-FAN_base	960x544x3	FP16	32	167
RetailObjectEmbedding v2.0	FAN-B-H	224x224x3	FP16	64	2686
RetailObjectEmbedding v2.0	FAN-L-H	224x224x3	FP16	64	1919
RetailObjectEmbedding v2.0	NVCLIP-B	224x224x3	FP16	64	29070
Siamese Optical Inspection	Siamese CNN	2x512x128x3	FP16	128	24107
OCDNet	DCN-RN18	640x640x3	FP16	64	1468
OCDNet	DCN-RN50	640x640x3	FP16	64	706
OCRNet	ResNet50 + Bi-LSTM 剪枝	32x100x3	FP16	512	55717
OCRNet	ResNet50 + Bi-LSTM 未剪枝	32x100x3	FP16	512	48492
PCB 检测	GC-ViT-xxTiny	224x224x3	FP16	128	12273
CitySemSegFormer v2.0	Segformer + MIT	1024x1024x3	FP16	8	108
CitySemSegFormer v2.0	SegFormer + FAN -B-H	1024x1024x3	FP16	8	89.5
PeopleSemSegFormer v2.0	SegFormer + FAN-B-H	512x512x3	FP16	32	454
Visual ChangeNet Classification	Visual ChangeNet + FAN -S-H	512x128x3	FP16	64	1581
Visual ChangeNet Segmentation	Visual ChangeNet + FAN -B-H	256x256x3	FP16	32	841
CenterPose	DLA34	512x512x3	FP16	1	105.84
CenterPose	FAN-S-H	512x512x3	FP16	1	76.26

通用计算机视觉模型

使用通用模型，您可以训练图像分类模型、对象检测模型或实例分割模型。

对于分类，您可以使用可用的架构之一进行训练，例如 ResNet、EfficientNet、VGG、MobileNet、GoogLeNet、SqueezeNet 或 DarkNet。
对于对象检测任务，您可以从流行的 YOLOv3/v4/v4-tiny、FasterRCNN、SSD、RetinaNet 和 DSSD 架构以及 NVIDIA 自己的 DetectNet_v2 架构中进行选择。
对于实例分割，您可以使用 MaskRCNN 进行实例分割，或使用 UNET 进行语义分割。

这使您可以灵活地构建用于任何数量应用程序的 AI 模型，从用于边缘 GPU 的更小、轻量级模型到用于更复杂任务的更大模型。有关所有排列和组合，请参阅下表。

对象识别
图像分类
对象检测
实例分割
语义分割
全景分割
字符识别
Visual ChangeNet
姿态分类

主干网络	重识别	度量学习识别
NvDINOv2		X
GcViT
ViT		X
FAN
FasterViT
ResNet	X	X
Swin	X
EfficientNet
ST-GCN（图卷积网络）
MIT-b

主干网络	图像分类
NvDINOv2	X
GcViT	X
ViT	X
FAN	X
FasterViT	X
ResNet	X
Swin	X
EfficientNet	X
ST-GCN（图卷积网络）
MIT-b

主干网络	DINO	D-DETR	Grounding DINO	EfficientDet
NvDINOv2	X
GcViT	X	X
ViT	X	X
FAN	X
FasterViT
ResNet	X	X
Swin			X
EfficientNet				X
ST-GCN（图卷积网络）
MIT-b

主干网络	MAL	Mask GroundingDINO	Mask2Former
NvDINOv2
GcViT
ViT	X
FAN
FasterViT
ResNet
Swin		X	X
EfficientNet
ST-GCN（图卷积网络）
MIT-b

主干网络	SegFormer	Mask2Former
NvDINOv2
GcViT
ViT
FAN	X
FasterViT
ResNet
Swin		X
EfficientNet
ST-GCN（图卷积网络）
MIT-b	X

主干网络	Mask2Former
NvDINOv2
GcViT
ViT
FAN
FasterViT
ResNet
Swin	X
EfficientNet
ST-GCN（图卷积网络）
MIT-b

主干网络	OCD	OCR
NvDINOv2
GcViT
ViT
FAN	X	X
FasterViT
ResNet	X	X
Swin
EfficientNet
ST-GCN（图卷积网络）
MIT-b

主干网络	分类	分割
NvDINOv2	X	X
GcViT
ViT	X	X
FAN	X	X
FasterViT
ResNet
Swin
EfficientNet
ST-GCN（图卷积网络）
MIT-b

主干网络	姿态分类
NvDINOv2
GcViT
ViT
FAN
FasterViT
ResNet
Swin
EfficientNet
ST-GCN（图卷积网络）	X
MIT-b

计算机视觉功能摘要

下表总结了计算机视觉模型和启用的功能。

*功能摘要*
CV 任务	模型	22-05 新增	TAO 4.0 新增	TAO 5.0 新增	TAO 5.5 新增	剪枝	知识蒸馏	QAT	AutoML	REST API	通道式 QAT	类别权重	可视化 (TB)	MLOPs 集成 (W&B/ClearML)	BYOM	多节点	多 GPU	AMP	提前停止	框架	注释格式	DLA
分类	ResNet10/18/34/50/101	否	否	否	否	是	否	否	是	是	否	否	是	clearml,wandb	是	是	是	是	否	tf1	ImageNet	是
分类	VGG16/19	否	否	否	否	是	否	否	是	是	否	否	是	clearml,wandb	是	是	是	是	否	tf1	ImageNet	是
分类	GoogleNet	否	否	否	否	是	否	否	是	是	否	否	是	clearml,wandb	是	是	是	是	否	tf1	ImageNet	是
分类	MobileNet_v1/v2	否	否	否	否	是	否	否	是	是	否	否	是	clearml,wandb	是	是	是	是	否	tf1	ImageNet	是
分类	SqueezeNet	否	否	否	否	是	否	否	是	是	否	否	是	clearml,wandb	是	是	是	是	否	tf1	ImageNet	是
分类	DarkNet19/53	否	否	否	否	是	否	否	是	是	否	否	是	clearml,wandb	是	是	是	是	否	tf1	ImageNet	是
分类	EfficientNet_B0-B7	否	否	否	否	是	否	否	是	是	否	否	是	clearml,wandb	是	是	是	是	否	tf1	ImageNet	是
分类	CSPDarkNet19/53	否	否	否	否	是	否	否	是	是	否	否	是	clearml,wandb	是	是	是	是	否	tf1	ImageNet	是
分类	CSPDarkNet-Tiny	否	否	否	否	是	否	否	是	是	否	否	是	clearml,wandb	是	是	是	是	否	tf1	ImageNet	是
分类	EfficientNet_B0-B5	否	否	否	否	是	否	否	是	是	是	否	是	clearml,wandb	是	是	是	是	否	tf2	ImageNet	是
分类	GcViT	否	否	是	否	否	否	否	是	是	否	是	否	否	否	是	是	是	否	pyt	ImageNet	否
分类	FAN	否	否	是	否	否	否	否	是	是	否	是	否	否	否	是	是	是	否	pyt	ImageNet	否
检测	EfficientDet	否	否	否	否	是	否	否	是	否	是	否	是	clearml,wandb	否	是	是	是	否	tf2	COCO	是
检测	RetinaNet	否	否	否	否	是	否	是	是	是	否	是	是	clearml,wandb	否	是	是	是	是	tf1	KITTI/COCO	是
检测	DetectNet_v2	否	否	否	否	是	否	是	是	是	否	是	是	clearml,wandb	否	是	是	是	是	tf1	KITTI/COCO	是
检测	SSD	否	否	否	否	是	否	是	是	是	否	否	是	clearml,wandb	否	是	是	是	是	tf1	KITTI/COCO	是
检测	DSSD	否	否	否	否	是	否	是	是	是	否	否	是	clearml,wandb	否	是	是	是	是	tf1	KITTI/COCO	是
检测	Deformable DETR	是	否	否	否	否	否	否	是	是	否	否	否	wandb	否	是	是	是	否	pyt	COCO	否
检测	DINO	否	否	是	否	否	是	否	是	是	否	否	否	wandb	否	是	是	是	否	pyt	COCO	否
检测	GroundingDINO	否	否	否	是	否	否	否	是	是	否	否	否	wandb	否	是	是	是	否	pyt	ODVG/COCO	否
检测	BevFusion	否	否	否	是	否	否	否	否	否	否	否	否	wandb	否	是	是	是	否	pyt	KITTI/Nuscenes	否
多任务分类	所有分类	否	否	否	否	是	否	否	是	是	否	否	是	clearml	否	是	是	是	否	tf1	自定义	是
实例/全景/语义分割	Mask2Former	否	否	否	是	否	否	否	否	否	否	否	否	wandb	否	是	是	是	否	pyt	COCO	否
实例分割	MaskRCNN	否	否	否	否	是	否	否	是	是	否	否	是	clearml,wandb	否	是	是	是	否	tf1	COCO	否
语义分割	Segformer	是	否	否	否	否	否	否	是	是	否	否	否	否	否	是	否	否	否	pyt	CityScape - PNG	否
语义分割	UNET	否	否	否	否	是	否	是	是	是	否	否	是	clearml,wandb	是	是	是	是	否	tf1	CityScape - PNG	否
OCR	LPR	否	否	否	否	否	否	否	是	是	否	否	是	否	否	是	是	是	是	tf1	自定义 - txt 文件	否
关键点	2D 人体姿态	否	否	否	否	是	否	否，但 PTQ	是	是	否	否	否	否	否	是	是	是	否	tf1	COCO	否
关键点	2D 人体姿态	否	否	否	否	是	否	否，但 PTQ	是	是	否	否	否	否	否	是	是	是	否	tf1	COCO	否
点云	PointPillars	是	否	否	否	是	否	否	是	是	否	否	否	否	否	是	是	是	否	pyt	KITTI	否
动作识别	2D 动作识别 RGB	否	否	否	否	否	否	否	是	是	否	否	否	wandb	否	否	是	是	否	pyt	自定义	否
动作识别	3D 动作识别 RGB	否	否	否	否	否	否	否	是	是	否	否	否	wandb	否	否	是	是	否	pyt	自定义	否
动作识别	2D 动作识别 OF	否	否	否	否	否	否	否	是	是	否	否	否	wandb	否	否	是	是	否	pyt	自定义	否
动作识别	3D 动作识别 OF	否	否	否	否	否	否	否	是	是	否	否	否	wandb	否	否	是	是	否	pyt	自定义	否
其他	姿态动作分类	是	否	否	否	否	否	否	是	是	否	否	否	wandb	否	否	是	是	否	pyt	COCO	否
其他	HeartRateNet	否	否	否	否	否	否	否	是	是	否	否	否	否	否	否	是	是	否	tf1	NVIDIA 定义	否
其他	GazeNet	否	否	否	否	否	否	否	是	是	否	否	否	否	否	否	是	是	否	tf1	NVIDIA 定义	否
其他	EmotionNet	否	否	否	否	否	否	否	是	否	否	否	是	否	否	否	否	是	否	tf1	NVIDIA 定义	否
其他	GestureNet	否	否	否	否	否	否	否	是	否	否	否	否	否	否	是	是	是	否	tf1	NVIDIA 定义	否
特征嵌入	ResNet50	是	否	否	否	否	否	否	是	否	否	否	否	否	否	是	否	否	否	pyt	Market1501	否
其他	OpticalInspection	否	否	是	否	否	否	否	是	是	否	是（假阳性率采样）	是	wandb	否	否	是	否	否	pyt	NVIDIA 定义	是
其他	Optical Character Detection	否	否	是	否	是	否	否	是	是	否	否	否	wandb	否	是	是	否	否	pyt	NVDIA 定义	否
OCR	光学字符识别	否	否	是	否	是	否	否	是	是	否	否	否	wandb	否	是	是	否	否	pyt	NVIDIA 定义	否

上一篇高级用户

下一篇在云端运行 TAO