性能 — NVIDIA Riva - NVIDIA 文档

评估过程#

本节介绍 Riva 文本到语音 (TTS) 服务在不同 GPU 上的延迟和吞吐量数据。TTS 服务的性能是在不同数量的并行流下测量的。每个并行流对来自 LJSpeech 数据集的 10 个输入字符串执行 20 次迭代。每个流向 Riva 服务器发送请求，并等待接收到所有音频块后才发送另一个请求。测量了到第一个音频块的延迟、连续音频块之间的延迟以及吞吐量。下图显示了延迟的测量方式。

Schematic Diagram of Latencies Measured by Riva Streaming TTS Client

测试了 FastPitch 和 HiFi-GAN 模型。

Riva 镜像中提供的 Riva TTS 性能客户端 riva_tts_perf_client 用于测量性能。客户端的源代码可以从 https://github.com/nvidia-riva/cpp-clients 获取。

以下命令用于生成下表

riva_tts_perf_client \
    --num_parallel_requests=<num_streams> \
    --voice_name=English-US.Female-1 \
    --num_iterations=<20*num_streams> \
    --online=true \
    --text_file=$test_file \
    --write_output_audio=false

其中 test_file 是指向 ljs_audio_text_test_filelist_small.txt 文件的路径。

结果#

以下表格报告了到第一个音频块的延迟、音频块之间的延迟和吞吐量。吞吐量以 RTFX（生成的音频时长 / 计算时间）为单位进行测量。

注意

--num_iterations 对于 Xavier AGX、Xavier NX 和 Orin AGX 等于 100，对于所有其他测量等于 20。

注意

表格中的值是 3 次试验的平均值。表格中的值根据 3 次试验计算的标准偏差四舍五入到最后一位有效数字。如果标准偏差小于平均值的 0.001，则将对应的值四舍五入，就好像标准偏差等于该值的 0.001。

有关收集这些测量的硬件规格，请参阅硬件规格部分。请注意，

AWS 和 GCP 上的结果是使用 Riva 2.4.0 计算的
本地结果是使用 Riva 2.15.0 计算的。

AWS 和 GCP 的云实例描述。

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	22	24.2	25	25.3	2.84	3.1	3.15	4.02	150.8
4	40	50	60	70	5	8	9	12	340
8	63	84	90	100	8	12	14	18	420
16	120	143	154	200	14.3	17.8	19.4	23	460
32	323	340	355	390	14.5	17.9	19.9	23.9	440

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	22.35	25	25	26.15	3.75	4.1	4.5	5	130.5
4	47	64	70	80	7	12.6	15	17.4	200
8	90	116	120	140	10	17	20	27	300
16	200	200	220	2000	15.8	26	30.4	38	300
32	360	425	440	500	17	27	32	40.4	400

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	24	27	28	30	3.71	4.94	5.05	5.3	126
4	50	67	74	90	6.8	12	14.4	18	260
8	100	120	130	500	10	20	22	28	300
16	182	220	240	1100	17.34	28	33	44	286
32	398.5	480	500	540	18.7	30	35.5	45	365

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	22.8	25	25.8	26.6	3.5	4.13	4.26	5	134
4	48.3	65.3	70.7	80	7.26	13.5	16	19.2	254
8	100	130	139	300	10.8	19	22	28	280
16	194	256	280	500	19.8	33	38	49	300
32	480	564	593	700	22.4	36	41.3	53	300

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	17	19	19.3	20	2.5	3.035	3.08	3.16	185
4	30	42	50	60	4	6	7	9	430
8	60	80	80	90	6	10	11	14	500
16	100	120	130	2000	7.7	13	14.6	18.2	500
32	200	230	242	500	9.5	13	14.6	18.63	700

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	27.6	31	32	33	4.95	5.25	6	6.1	102.8
4	70	84	90	1000	8.43	15.4	18	21	200
8	130	163	174	300	11.75	19.5	22	28	230
16	207	260	290	500	21	32	36.5	45	280
32	500	580	600	700	23.3	35.76	41	50	290

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	34	38.4	39.3	50	6.92	8.2	9.2	12	78.2
4	100	140	150	200	16.8	33	37	43.6	114
8	220	285	304	900	28.4	45	50	64	120
16	430	568	620	1000	48.5	79	90	110	130
32	1100	1300	1340	2000	52	87	100.6	124	130

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	22.6	25.1	26	27	3.5	4.09	4.19	5	135
4	50	66	70	83	7.5	14.3	17.33	20.07	250
8	98	129	138	154	12	22	26	33	274
16	200	280	300	700	21.6	37.8	44	56.7	270
32	520	610	650	800	24	41	47.7	62	280

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	21.5	24.3	24.7	25.5	2.4	3.3	3.5	4	162
4	40	55	60	70	5	7	8	10	300
8	60	80	86	100	6.8	10	11	13	440
16	100	122	133	170	9.7	14.4	16.4	21	600
32	300	310	320	2000	12	17	19.4	24	500

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	32.6	32.95	33.1	134.8	4.86	5.72	5.74	6.72	38.25

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	30	31	40	60	6.9	7.2	7.5	9	80
4	94	125	140	200	17.5	30	36	44	118
6	150	200	220	300	25	42	50	63	117
8	190	260	290	350	34.4	55	64	79.7	119
10	216	300	330	400	38	61	70	87	119.2

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	76	77	78	90	44	48	48	50	18
4	690	940	1000	1100	70	115	148	200	22.6
6	1130	1510	1590	1750	91	170	210	296	22.5
8	1637	2100	2200	2400	101	186	230	320	22.53
10	2050	2500	2610	2900	110	200	246	340	22.9

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	30	27	40	40	5.05	6.2	7	8	100
4	53	70	80	100	9.4	16.1	18.2	24	215
6	77	108.4	120	150	12.25	20.8	23.8	30	233
8	100	140	150	180	15.5	25.6	30	40	240
10	113	157	170	200	17.2	28	32	42	245

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	60	54.8	55	56	27.4	29.6	30.2	31	28
4	330	444	470	530	30.8	47	56	77	48.9
6	500	650	690	770	35	57	70	100	53.4
8	670	860	900	990	39	68	83	120	55.9
10	840	1050	1140	1350	43	76	94	130	56.5

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	30	30	50	60	5.6	6.17	6.24	6.4	90
4	57	80	90	100	9.3	16	17.5	26	210
6	82	120	130	150	12	19.2	22	28	230
8	113	158	170	200	15	24	27	33	230
10	122	170	184	200	17	26.8	30	37	236

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	66	67.6	68.4	70	33.1	35.8	36	37	23
4	356	480	510	564	32	50	57	76	45.5
6	530	700	740	800	37	60	70	100	50.4
8	710	930	980	1060	40	66	80	110	53.2
10	870	1070	1160	1360	43	73	90	130	55

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	30	25.1	40	50	3.8	4.7	5.1	5.4	120
4	38	50	60	90	5.9	9.97	11.7	15	320
6	51	70	76	100	7.2	12.4	14.6	19	370
8	63	85	90	100	8.5	15	17	23	400
10	68	94	102	120	9.3	17	20	26	420

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	40	42.3	42.7	45	19.9	21.8	22.4	23	38
4	194	268	285	310	18	27	30	36	83
6	270	350	370	410	20	30	36	47	97
8	350	450	470	510	21	34	40	50	105
10	430	525	560	680	22.4	35	41	56	109

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	30	26	40	50	3.4	4.04	4.14	4.6	120
4	40	55	60	90	5.3	9	10	13	320
6	54	75	80	100	6.7	11.1	13.02	17	370
8	64	87	95	100	8.2	14.07	16.4	21.5	410
10	68	94	100	120	9	16	19	25	430

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	45	45.1	45.8	50	21.33	24	24.1	24.6	36
4	197	280	296	320	18	27	31	37	83
6	267	345	360	394	19	30	34	42	99
8	336	430	450	500	21.6	34	39	50	108
10	414	496	526	660	22.3	35	40	53	113

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	30	34.4	50	70	7.7	8.2	8.4	10	70
4	98	135	150	200	18.4	31	36	46	113
6	156	225	240	300	25	40.5	45	57	114
8	205	290	310	360	33	52	60	72	116
10	230	320	340	400	37	56	63	80	118

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	80	83	84	100	44.6	48.6	49.2	50.4	17.6
4	650	900	950	1050	69	116	144	190	23.4
6	1056	1390	1470	1600	85	157	190	270	23.97
8	1520	2000	2100	2270	95	174	220	300	24.25
10	1890	2350	2500	3000	105	200	240	350	24.45

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	30	27.6	40	50	5.6	6.16	6.24	6.5	100
4	58	80.5	90	100	9.8	16	18.5	28	200
6	83	120	130	150	13	20.6	24	32	220
8	112.3	157	170	200	16	26	30	37	223
10	124	172	183	200	18.3	28.4	32	40	227

流数	首个音频延迟 (毫秒)				音频块之间延迟 (毫秒)				吞吐量 (RTFX)
	平均值	p90	p95	p99	平均值	p90	p95	p99
1	63	65	66	67	32.5	35.1	35.7	36.4	24
4	366	500	520	600	32.7	50	60	80	44.7
6	540	710	754	820	37	60	75	106	49.5
8	720	930	980	1080	40.5	68	83	115	52.7
10	900	1100	1200	1400	43.4	76	95	130	53.5

本地硬件规格#

GPU
NVIDIA DGX A100 40 GB
CPU
型号	AMD EPYC 7742 64 核处理器
每核线程数	2
插槽数	2
每插槽核心数	64
NUMA 节点数	8
频率加速	已启用
CPU 最大 MHz	2250
CPU 最小 MHz	1500
内存
型号	Micron DDR4 36ASF8G72PZ-3G2B2 3200MHz
配置内存速度	2933 MT/s
内存大小	32x64GB (总共 2048GB)

GPU
NVIDIA A40
CPU
型号	AMD EPYC 7763 64 核处理器
每核线程数	1
插槽数	2
每插槽核心数	64
NUMA 节点数	8
频率加速	已启用
CPU 最大 MHz	3529
CPU 最小 MHz	1500
内存
型号	Samsung DDR4 M393A4K40DB3-CWE 3200MHz
配置内存速度	3200 MT/s
内存大小	16x32GB (总共 512GB)

GPU
NVIDIA A30
CPU
型号	AMD EPYC 7742 64 核处理器
每核线程数	1
插槽数	2
每插槽核心数	64
NUMA 节点数	2
频率加速	已禁用
CPU 最大 MHz	2250.0000
CPU 最小 MHz	1500.0000
内存
型号	Samsung DDR4 M393A4K40DB3-CWE 3200MHz
配置内存速度	3200 MT/s
内存大小	32x64GB (总共 2048GB)

GPU
NVIDIA A10
CPU
型号	AMD EPYC 7763 64 核处理器
每核线程数	1
插槽数	2
每插槽核心数	64
NUMA 节点数	8
频率加速	已启用
CPU 最大 MHz	2450
CPU 最小 MHz	1500
内存
型号	Samsung DDR4 M393A4K40DB3-CWE 3200 MHz
配置内存速度	3200 MT/s
内存大小	16x32GB (总共 512GB)

GPU
NVIDIA H100 80GB HBM3
CPU
型号	Intel(R) Xeon(R) Platinum 8480CL
每核线程数	2
插槽数	2
每插槽核心数	56
NUMA 节点数	2
CPU 最大 MHz	3800
CPU 最小 MHz	800
内存
型号	Micron DDR5 MTC40F2046S1RC48BA1 4800MHz
配置内存速度	4400 MT/s
内存大小	32x64GB (总共 2048GB)

GPU
NVIDIA V100 SXM2 16 GB
CPU
型号	Intel(R) Xeon(R) CPU E5-2698 v4 @ 2.20GHz
每核线程数	2
插槽数	2
每插槽核心数	20
NUMA 节点数	2
CPU 最大 MHz	3600
CPU 最小 MHz	1200
内存
型号	Micron DDR4 36ASF4G72PZ-2G6D1 2667MHz
配置内存速度	2133 MT/s
内存大小	16x32GB (总共 512GB)

GPU
NVIDIA T4
CPU
型号	Intel(R) Xeon(R) Gold 6240 CPU @ 2.60GHz
每核线程数	2
插槽数	2
每插槽核心数	18
NUMA 节点数	2
CPU 最大 MHz	3900
CPU 最小 MHz	1000
内存
型号	Samsung DDR4 M393A2K43BB1-CTD 2666MHz
配置内存速度	2666 MT/s
内存大小	24x16GB (总共 384GB)

GPU
NVIDIA L4
CPU
型号	AMD EPYC 7763 64 核处理器
每核线程数	1
插槽数	2
每插槽核心数	64
NUMA 节点数	8
频率加速	已启用
CPU 最大 MHz	3529
CPU 最小 MHz	1500
内存
型号	Samsung DDR4 M393A4K40DB3-CWE 3200MHz
配置内存速度	3200 MT/s
内存大小	16x32GB (总共 512GB)

GPU
NVIDIA L40
CPU
型号	AMD EPYC 7763 64 核处理器
每核线程数	1
插槽数	2
每插槽核心数	64
NUMA 节点数	8
频率加速	已启用
CPU 最大 MHz	3529
CPU 最小 MHz	1500
内存
型号	Samsung DDR4 M393A4K40DB3-CWE 3200MHz
配置内存速度	3200 MT/s
内存大小	16x32GB (总共 512GB)

性能考虑因素#

当服务器负载较高时，请求可能会超时，因为服务器在完全生成前一个请求之前不会开始新请求的推理，以便可以释放推理槽。这样做是为了最大限度地提高 TTS 服务的吞吐量并允许实时交互。

NVIDIA Riva

性能

目录

性能#

评估过程#

结果#

本地硬件规格#

性能考虑因素#