性能#

评估流程#

本节展示了 Riva NMT 服务在不同 GPU 上的延迟和吞吐量数据。

这些数据是在从我们的快速入门脚本部署预配置的 NMT 管道后捕获的。

用于测量性能的命令是

riva_nmt_t2t_client
  --riva_uri=0.0.0.0:50051
  --model_name=<model name>
  --batch_size=<batch size>
  --target_language_code=<target language code>
  --source_language_code=<source language code>
  --text_file=<wmt_filename>

riva_nmt_t2t_client 返回以下延迟测量值

  • latency:所有返回响应的总体延迟。这是下表中所列的内容。

结果#

延迟和吞吐量测量值在下表中报告。吞吐量以每秒翻译的句子数来衡量。

有关收集这些测量值的硬件规格,请参阅硬件规格部分。

批大小

翻译/秒

p90

p95

p99

1

1.92653

0.954677

1.28243

2.06551

2

2.01023

1.93301

2.56391

3.94762

4

1.89053

4.20276

4.92518

8.14669

8

1.62168

9.02602

11.5092

22.478

硬件规格#

GPU

NVIDIA DGX A100 40 GB

CPU

型号

AMD EPYC 7742 64 核处理器

每核线程数

2

插槽数

2

每插槽核心数

64

NUMA 节点数

8

频率加速

已启用

CPU 最大 MHz

2250

CPU 最小 MHz

1500

RAM

型号

Micron DDR4 36ASF8G72PZ-3G2B2 3200MHz

配置的内存速度

2933 MT/s

RAM 大小

32x64GB (总共 2048GB)