发行说明
目录
发行说明#
重要提示
如果您是从以前的 Riva 版本升级,请参阅升级部分。
发行说明中发布的所有功能都经过了充分的测试和验证,已知限制已记录在案。要分享对此版本的反馈,请访问我们的 NVIDIA Riva 开发者论坛。
Riva Release 2.18.0#
主要特性和增强功能#
Riva 现在使用 Triton 2.50.0 和 TensorRT 10.4。
Riva 迁移到统一容器,同时支持服务器和服务构建器功能。现在已移除单独的服务构建器镜像。
添加了对将 Silero 语音活动检测器模型与 ASR 一起使用的支持。
添加了对离线模式下 Canary ASR 模型架构以及 AST 支持的支持。
添加了对 T5 TTS 模型架构的支持,该架构可提供更高的语音质量。
扩展了 Riva 服务器接口,以支持离线 ASR 模型的 HTTP/REST API。
在 NMT 管道中添加了对使用 BCP-47 语言代码训练的模型进行推理的支持。
添加了一个教程,演示了基于 Parakeet 架构的 ASR 模型的微调。
添加了对客户端为 NMT 文本翻译管道提供自定义翻译词典的支持。
模型更新#
添加了两个多语言统一 ASR 模型,采用 Parakeet-1.1b CTC 架构和 EMEA 多语言 ASR 模型,并支持语言模型 (LM)。
添加了以下 ASR 模型:Canary-1b、Canary-0.6b-turbo 和 Spanish-English parakeet-0.6b-unified。
添加了 T5 TTS 模型,具有高质量的男声和女声情感子语音。
更新了 English-GB conformer ASR 模型,并改进了语言模型 (LM)。
改进了普通话文本规范化 (TN) 模型,并增加了额外的后处理。
更新了德语 TTS 模型,并改进了 G2P 发音词典。
添加了西班牙语-英语逆文本规范化 (ITN) 模型。
更新了 NMT Megatron any-to-any 模型,以支持四种额外的语言。
已修复问题#
修复了离线 ASR 模型重复推理时出现的渐进式内存泄漏问题,尤其是在较长的音频输入中可见。
修复了由
riva-build
命令设置的max_batch_size
未能通过 TTS 管道传播的问题。修复了在某些环境中运行标点符号管道时可能导致间歇性崩溃的问题。
修复了 Whisper ASR 模型对支持的语言代码的报告,允许客户端在执行推理时将其指定为输入。
修复了错误地要求 Python TTS 客户端在推理期间设置
custom_dictionary
可选参数的问题。
已知问题#
Canary ASR 和 T5 TTS 模型使用 PyTorch 进行推理,与其他类似模型相比,吞吐量较低。
Canary、Whisper 和 Distil-Whisper ASR 模型不支持词语提升以及
.ogg
、.opus
音频输入编码格式。T5 TTS 模型目前仅限于支持
max_batch_size
为 1。parakeet-ctc-1.1b-unified-ml-cs 通用、concat 和 EMEA ASR 模型为 Beta 质量,不支持逆文本规范化 (ITN)。
parakeet-ctc-0.6b-unified 英语 ASR 模型可能会显示负置信度分数和部分 ITN 功能。此外,有时标点符号可能会在单独的最终转录中返回。
T5 TTS 和 zero shot TTS 模型在执行
riva_start.sh
时可能需要大约 3 分钟的较长加载时间。与 TTS 模型打包在一起的 Neural G2P 模型不支持句子的完整上下文,仅在单词级别为词汇表外的单词调用。
荷兰语(nl-NL 和 nl-BE)conformer ASR 模型为 Beta 质量,建议通过从客户端传递
--verbatim_transcripts=false
来启用 ITN 使用。建议 nl-BE 模型与启用的 Neural VAD 一起使用,以获得更好的准确性。T5 TTS、RADTTS++ 和 zero shot TTS 模型均为 Beta 质量,并且不完全支持所有功能,如音调、速率、音量 SSML 属性等。
普通话 TTS 输出对于某些多音字的发音不准确。
德语 Conformer 统一 ASR 模型在某些情况下可能准确率较低,尤其是在转录包含大写单词时进行逆文本规范化。
日语-英语 Conformer 统一多语言代码切换 ASR 模型结果仅包含字符时间戳,而不包含单词时间戳。
日语-英语 Conformer 统一多语言代码切换 ASR 模型结果转录仅包含日语文本的标点符号。
阿拉伯语 ITN 目前不会取消规范化时间、日期、货币和十进制数字。
Riva TTS cpp-clients 在将输出音频写入磁盘之前,会自动将 Opus 转换为 16 位脉冲编码调制 (PCM)。使用 Python 客户端接收 Opus 流。
在具有 ragged batching 支持的 FastPitch 模型上运行
nemo2riva
会导致有关ONNXRuntimeError INVALID_GRAPH
的警告。这些警告可以安全地忽略。加载具有 ragged batching 支持的 FastPitch 模型会导致 Triton 服务器记录有关
CleanUnusedInitializersAndNodeArgs
的警告。这些警告可以安全地忽略。阿拉伯语 ASR 声学模型的目标是现代标准阿拉伯语 (MSA),因此,黎巴嫩口音的准确性可能较差。
西班牙语 (es-ES) 和意大利语 Conformer-CTC-L 声学模型相对于其他语言而言,吞吐量较低且延迟较高。
在使用客户端 Docker 中的
riva_streaming_asr_client
和riva_asr_client
时,阿拉伯语的输出方向(单词时间戳)会中断。阿拉伯语 Conformer-CTC 模型的静音鲁棒性较差。为了获得更好的结果,请使用神经 VAD。
日语标点符号在数字和英文字符方面效果不佳。
离线说话人分离是 alpha 版本,启用该功能后会增加 ASR 延迟。
葡萄牙语标点符号模型在逗号方面准确性较差。
如果输入文本为空,Riva 标点符号模型会添加句点。
Riva 标点符号模型假定传入文本未加标点。如果传入文本已经加标点,则标点符号模型可能会使现有标点符号加倍。
在 Riva ASR 中使用新的基于神经的语音活动检测器对延迟和吞吐量有不可忽略的影响。在本地测试中,观察到这些指标下降了 25%-50% 左右。
由于 Riva 使用基于 CTC 的声学模型,这些模型在训练期间不学习对齐,因此 ASR 转录中的单词时间戳可能不准确。时间戳是根据正在使用的特定声学模型的最终权重估算的。这些时间戳的准确性可能因多种变量而异,包括音频时长、音频质量和模型的准确性。
在
riva_start.sh
之后,第一次 Riva TTS 调用会导致更长的延迟。后续调用将表现出正常的延迟。预配置的英国英语 (en-GB) ASR 管道使用 en-US 拼写转录一些 en-GB 特定单词。例如,对于具有“oe”、“ae”、“ell”的单词,会观察到这种情况。
使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。Riva 构建不支持以
.arpa
格式提供 1-gram 语言模型。这是由于 KenLM 实用程序构建语言模型二进制文件的限制。pitch
SSML 属性不符合 SSML 规范,并且不支持st
和%
更改。客户端不应将空字符串发送到 Riva Translation API,这些字符串可能会被错误地翻译成短句。
使用 FLAC 编码时,Riva ASR 客户端仅支持 16kHz 1 声道格式。
Riva Release 2.17.0#
主要特性和增强功能#
Riva 现在使用 Triton 2.47.0 和 TensorRT 10.1。
添加了对离线模式下的 Parakeet-RNNT、Whisper 和 Distil-Whisper ASR 模型架构的支持。
添加了使用离线 Whisper ASR 模型的 AST(自动语音翻译)支持。
添加了对将逆文本规范化 (ITN) 应用于中间转录以进行两遍话语结束检测的支持。
添加了对通过客户端的每个 gRPC 请求配置离线说话人分离的最大说话人数的支持。
更新了 TTS 管道,以添加对 SSML 输入中多个句子的支持,并取消了句子长度 400 个字符的限制。
在 TTS 中添加了一个参数,允许用户提供自定义 G2P 词典来覆盖特定单词的默认发音。
在 NMT 中添加了“请勿翻译”支持,使用
<dnt>
和</dnt>
标记将输入文本的指定部分排除在翻译之外。添加了对将音调、速率和音量属性应用于 S2S 输出以及在 S2S 和 S2T 管道中“请勿翻译”功能的支持。
模型更新#
添加了 ASR parakeet-1.1b RNNT 英语、whisper-large (v3) 和 distil-whisper-large (v3) 模型。
更新了 ASR 日语 conformer 模型,以支持通过代码切换进行日语和英语的转录。
更新了 TTS English-US 模型,以防止输入包含网站名称、特殊字符或缩写时出现发音错误。
更新了 TTS Spanish-US 模型,以改进 G2P 词典,使其发音更好。
已修复问题#
修复了 gRPC 服务器中的一个问题,该问题可能在使用多个 Triton 服务器进行推理时导致失败。
修复了 ASR 中在处理多个推理请求时发生的内存泄漏问题。
修复了 ASR 中在某些长时间音频输入的离线说话人分离期间发生的段错误。
修复了 TTS 中的一个问题,其中在 SSML 标记中提供
/l/
音素时,无法正确处理该音素。修复了 NMT 中影响输入文本中数字或数字翻译的多个问题。
已知问题#
Whisper 和 Distil-Whisper ASR 模型不支持单词提升以及
.ogg
、.opus
音频输入编码格式。parakeet-ctc-1.1b-unified-ml-cs EMEA ASR 模型为 Beta 质量,不支持逆文本规范化 (ITN)。
parakeet-ctc-0.6b-unified 英语 ASR 模型可能会显示负置信度分数和部分 ITN 功能。此外,有时标点符号可能会在单独的最终转录中返回。
zero shot TTS 模型在执行
riva_start.sh
时可能需要大约 3 分钟的较长加载时间。在极少数情况下,对此模型的第一次推理调用可能会抛出超时错误,但后续推理调用将正常进行。与 zero shot TTS 模型打包在一起的 Neural G2P 模型不支持句子的完整上下文,仅在单词级别为词汇表外的单词调用。
荷兰语(nl-NL 和 nl-BE)conformer ASR 模型为 Beta 质量,建议通过从客户端传递
--verbatim_transcripts=false
来启用 ITN 使用。建议 nl-BE 模型与启用的 Neural VAD 一起使用,以获得更好的准确性。RADTTS++ 和 zero shot TTS 模型均为 Beta 质量,并且不完全支持所有功能,如音调、速率、音量 SSML 属性等。
普通话 TTS 输出对于某些多音字的发音不准确。
德语 Conformer 统一 ASR 模型在某些情况下可能准确率较低,尤其是在转录包含大写单词时进行逆文本规范化。
日语-英语 Conformer 统一多语言代码切换 ASR 模型结果仅包含字符时间戳,而不包含单词时间戳。
日语-英语 Conformer 统一多语言代码切换 ASR 模型结果转录仅包含日语文本的标点符号。
阿拉伯语 ITN 目前不会取消规范化时间、日期、货币和十进制数字。
Riva TTS cpp-clients 在将输出音频写入磁盘之前,会自动将 Opus 转换为 16 位脉冲编码调制 (PCM)。使用 Python 客户端接收 Opus 流。
在具有 ragged batching 支持的 FastPitch 模型上运行
nemo2riva
会导致有关ONNXRuntimeError INVALID_GRAPH
的警告。这些警告可以安全地忽略。加载具有 ragged batching 支持的 FastPitch 模型会导致 Triton 服务器记录有关
CleanUnusedInitializersAndNodeArgs
的警告。这些警告可以安全地忽略。阿拉伯语 ASR 声学模型的目标是现代标准阿拉伯语 (MSA),因此,黎巴嫩口音的准确性可能较差。
西班牙语 (es-ES) 和意大利语 Conformer-CTC-L 声学模型相对于其他语言而言,吞吐量较低且延迟较高。
在使用客户端 Docker 中的
riva_streaming_asr_client
和riva_asr_client
时,阿拉伯语的输出方向(单词时间戳)会中断。阿拉伯语 Conformer-CTC 模型的静音鲁棒性较差。为了获得更好的结果,请使用神经 VAD。
日语标点符号在数字和英文字符方面效果不佳。
离线说话人分离是 alpha 版本,启用该功能后会增加 ASR 延迟。
葡萄牙语标点符号模型在逗号方面准确性较差。
如果输入文本为空,Riva 标点符号模型会添加句点。
Riva 标点符号模型假定传入文本未加标点。如果传入文本已经加标点,则标点符号模型可能会使现有标点符号加倍。
在 Riva ASR 中使用新的基于神经的语音活动检测器对延迟和吞吐量有不可忽略的影响。在本地测试中,观察到这些指标下降了 25%-50% 左右。
由于 Riva 使用基于 CTC 的声学模型,这些模型在训练期间不学习对齐,因此 ASR 转录中的单词时间戳可能不准确。时间戳是根据正在使用的特定声学模型的最终权重估算的。这些时间戳的准确性可能因多种变量而异,包括音频时长、音频质量和模型的准确性。
在
riva_start.sh
之后,第一次 Riva TTS 调用会导致更长的延迟。后续调用将表现出正常的延迟。预配置的英国英语 (en-GB) ASR 管道使用 en-US 拼写转录一些 en-GB 特定单词。例如,对于具有“oe”、“ae”、“ell”的单词,会观察到这种情况。
使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。Riva 构建不支持以
.arpa
格式提供 1-gram 语言模型。这是由于 KenLM 实用程序构建语言模型二进制文件的限制。pitch
SSML 属性不符合 SSML 规范,并且不支持st
和%
更改。客户端不应将空字符串发送到 Riva Translation API,这些字符串可能会被错误地翻译成短句。
使用 FLAC 编码时,Riva ASR 客户端仅支持 16kHz 1 声道格式。
Riva Release 2.16.0#
主要特性和增强功能#
在 ASR 管道中添加了对两遍话语结束检测的支持,以缩短接收最终 ASR 结果的延迟。
添加了在 ASR 管道中使用客户端的每个 gRPC 请求配置端点参数的功能。
在 TTS Python 客户端中添加了一个选项,用于列出服务器上部署的当前模型可用的语音名称。
模型更新#
添加了具有统一语言模型 (LM) 支持的 ASR parakeet-ctc-0.6b-unified 英语 flashlight 模型。
更新了 zero shot TTS 模型,以提高合成语音的质量并改进 Neural G2P 模型。
更新了 Spanish-US TTS 模型,以添加两种新的情感:
Male-Fearful
和Male-Sad
。
已修复问题#
修复了在某些 GPU 上使用 TTS fastpitch 模型合成语音时出现的推理超时错误。
修复了 ASR 中的一个问题,当在客户端请求中启用单词提升或语音提示时,该问题可能会导致段错误。
修复了 ASR 中的内存泄漏问题,该问题导致在活动的 gRPC 会话期间,主机内存使用率随时间持续增加。
修复了翻译后端问题,以允许并发执行批处理输入请求。
修复了在 Jetson Orin 平台上使用预构建语音合成语音时,zero shot TTS 的推理失败问题。
已知问题#
parakeet-ctc-1.1b-unified-ml-cs EMEA ASR 模型为 Beta 质量,不支持逆文本规范化 (ITN)。
parakeet-ctc-0.6b-unified 英语 ASR 模型可能会显示负置信度分数和部分 ITN 功能。此外,有时标点符号可能会在单独的最终转录中返回。
zero shot TTS 模型在执行 riva_start.sh 时可能需要大约 3 分钟的较长加载时间。在极少数情况下,对此模型的第一次推理调用可能会抛出超时错误,但后续推理调用将正常进行。
与 zero shot TTS 模型打包在一起的 Neural G2P 模型不支持句子的完整上下文,仅在单词级别为词汇表外的单词调用。
荷兰语(nl-NL 和 nl-BE)conformer ASR 模型为 Beta 质量,建议通过从客户端传递
--verbatim_transcripts=false
来启用 ITN 使用。建议 nl-BE 模型与启用的 Neural VAD 一起使用,以获得更好的准确性。RADTTS++ 和 zero shot TTS 模型均为 Beta 质量,并且不完全支持所有功能,如音调、速率、音量 SSML 属性等。
普通话 TTS 输出对于某些多音字的发音不准确。
德语 Conformer 统一 ASR 模型在某些情况下可能准确率较低,尤其是在转录包含大写单词时进行逆文本规范化。
日语-英语 Conformer 统一多语言代码切换 ASR 模型结果仅包含字符时间戳,而不包含单词时间戳。
日语-英语 Conformer 统一多语言代码切换 ASR 模型结果转录仅包含日语文本的标点符号。
阿拉伯语 ITN 目前不会取消规范化时间、日期、货币和十进制数字。
Riva TTS cpp-clients 在将输出音频写入磁盘之前,会自动将 Opus 转换为 16 位脉冲编码调制 (PCM)。使用 Python 客户端接收 Opus 流。
在具有 ragged batching 支持的 FastPitch 模型上运行
nemo2riva
会导致有关ONNXRuntimeError INVALID_GRAPH
的警告。这些警告可以安全地忽略。加载具有 ragged batching 支持的 FastPitch 模型会导致 Triton 服务器记录有关
CleanUnusedInitializersAndNodeArgs
的警告。这些警告可以安全地忽略。阿拉伯语 ASR 声学模型的目标是现代标准阿拉伯语 (MSA),因此,黎巴嫩口音的准确性可能较差。
西班牙语 (es-ES) 和意大利语 Conformer-CTC-L 声学模型相对于其他语言而言,吞吐量较低且延迟较高。
在使用客户端 Docker 中的
riva_streaming_asr_client
和riva_asr_client
时,阿拉伯语的输出方向(单词时间戳)会中断。阿拉伯语 Conformer-CTC 模型的静音鲁棒性较差。为了获得更好的结果,请使用神经 VAD。
日语标点符号在数字和英文字符方面效果不佳。
离线说话人分离是 alpha 版本,启用该功能后会增加 ASR 延迟。
提供给 TTS 客户端的长输入文本可能会因
failed during inference
错误而失败。默认情况下,输入文本中每个句子(以句点分隔)的最大允许长度限制为 400 个字符。要在快速入门步骤中更新长度,请在
riva_init.sh
之后和riva_start.sh
之前执行以下操作访问模型存储库 (
$riva-model-repo
) 生成的位置(可以使用临时 Docker 挂载卷:docker run -it -v riva-model-repo:/data ubuntu
)在 Docker 工作区中
cd /data/models/tts_preprocessor-English-US
在
config.pbtxt
中,将键max_sequence_length
的值编辑为500
。保存并退出 Docker。继续执行快速入门步骤的其余部分:
riva_start.sh
注意
更改默认值可能会导致性能和质量下降。
葡萄牙语标点符号模型在逗号方面准确性较差。
如果输入文本为空,Riva 标点符号模型会添加句点。
Riva 标点符号模型假定传入文本未加标点。如果传入文本已经加标点,则标点符号模型可能会使现有标点符号加倍。
在 Riva ASR 中使用新的基于神经的语音活动检测器对延迟和吞吐量有不可忽略的影响。在本地测试中,观察到这些指标下降了 25%-50% 左右。
由于 Riva 使用基于 CTC 的声学模型,这些模型在训练期间不学习对齐,因此 ASR 转录中的单词时间戳可能不准确。时间戳是根据正在使用的特定声学模型的最终权重估算的。这些时间戳的准确性可能因多种变量而异,包括音频时长、音频质量和模型的准确性。
在
riva_start.sh
之后,第一次 Riva TTS 调用会导致更长的延迟。后续调用将表现出正常的延迟。预配置的英国英语 (en-GB) ASR 管道使用 en-US 拼写转录一些 en-GB 特定单词。例如,对于具有“oe”、“ae”、“ell”的单词,会观察到这种情况。
使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。Riva 构建不支持以
.arpa
格式提供 1-gram 语言模型。这是由于 KenLM 实用程序构建语言模型二进制文件的限制。pitch
SSML 属性不符合 SSML 规范,并且不支持st
和%
更改。客户端不应将空字符串发送到 Riva Translation API,这些字符串可能会被错误地翻译成短句。
使用 FLAC 编码时,Riva ASR 客户端仅支持 16kHz 1 声道格式。
Riva Release 2.15.1#
已修复问题#
修复了由于应用安全上下文而在 helm chart 中使用主机路径的问题。
修复了 Jetson Orin 平台上的离线说话人分离。
修复了可能导致使用 RADTTS++(beta 版)情感混合模型合成的音频中断的问题。
更新了 nemo2riva 以使用与 Riva 服务器中支持的 onnx 版本相同的版本,以修复部署问题。
模型更新#
添加了 ASR parakeet-ctc-0.6b-unified 英语、parakeet-ctc-1.1b 英语和 parakeet-ctc-1.1b-unified-ml-cs EMEA 模型。
添加了 NMT megatron 1B any to any 翻译模型。
更新了英语 TTS 模型的发音词典和规范化器。
已知问题#
在
riva_start.sh
之后,第一次 Riva TTS 调用会导致更长的延迟,并且在某些 GPU 上可能会抛出超时错误。后续调用将表现出正常的延迟。parakeet-ctc-1.1b-unified-ml-cs EMEA ASR 模型为 Beta 质量,不支持逆文本规范化 (ITN)。
parakeet-ctc-0.6b-unified 英语 ASR 模型可能会显示负置信度分数和部分 ITN 功能。此外,有时标点符号可能会在单独的最终转录中返回。
与 zero shot TTS 模型打包在一起的 Neural G2P 模型不支持句子的完整上下文,仅在单词级别为词汇表外的单词调用。
荷兰语(nl-NL 和 nl-BE)conformer ASR 模型为 Beta 质量,建议通过从客户端传递
--verbatim_transcripts=false
来启用 ITN 使用。建议 nl-BE 模型与启用的 Neural VAD 一起使用,以获得更好的准确性。RADTTS++ 模型是用于混合情感的 beta 模型,并且不完全支持所有功能,如音调、速率、音量 SSML 属性等。
普通话 TTS 输出对于某些多音字的发音不准确。
德语 Conformer 统一 ASR 模型在某些情况下可能准确率较低,尤其是在转录包含大写单词时进行逆文本规范化。
日语-英语 Conformer 统一多语言代码切换 ASR 模型结果仅包含字符时间戳,而不包含单词时间戳。
日语-英语 Conformer 统一多语言代码切换 ASR 模型结果转录仅包含日语文本的标点符号。
阿拉伯语 ITN 目前不会取消规范化时间、日期、货币和十进制数字。
Riva TTS cpp-clients 在将输出音频写入磁盘之前,会自动将 Opus 转换为 16 位脉冲编码调制 (PCM)。使用 Python 客户端接收 Opus 流。
在具有 ragged batching 支持的 FastPitch 模型上运行
nemo2riva
会导致有关ONNXRuntimeError INVALID_GRAPH
的警告。这些警告可以安全地忽略。加载具有 ragged batching 支持的 FastPitch 模型会导致 Triton 服务器记录有关
CleanUnusedInitializersAndNodeArgs
的警告。这些警告可以安全地忽略。阿拉伯语 ASR 声学模型的目标是现代标准阿拉伯语 (MSA),因此,黎巴嫩口音的准确性可能较差。
西班牙语 (es-ES) 和意大利语 Conformer-CTC-L 声学模型相对于其他语言而言,吞吐量较低且延迟较高。
在使用客户端 Docker 中的
riva_streaming_asr_client
和riva_asr_client
时,阿拉伯语的输出方向(单词时间戳)会中断。阿拉伯语 Conformer-CTC 模型的静音鲁棒性较差。为了获得更好的结果,请使用神经 VAD。
日语标点符号在数字和英文字符方面效果不佳。
离线说话人分离是 alpha 版本,启用该功能后会增加 ASR 延迟。
提供给 TTS 客户端的长输入文本可能会因
failed during inference
错误而失败。默认情况下,输入文本中每个句子(以句点分隔)的最大允许长度限制为 400 个字符。要在快速入门步骤中更新长度,请在
riva_init.sh
之后和riva_start.sh
之前执行以下操作访问模型存储库 (
$riva-model-repo
) 生成的位置(可以使用临时 Docker 挂载卷:docker run -it -v riva-model-repo:/data ubuntu
)在 Docker 工作区中
cd /data/models/tts_preprocessor-English-US
在
config.pbtxt
中,将键max_sequence_length
的值编辑为500
。保存并退出 Docker。继续执行快速入门步骤的其余部分:
riva_start.sh
注意
更改默认值可能会导致性能和质量下降。
葡萄牙语标点符号模型在逗号方面准确性较差。
如果输入文本为空,Riva 标点符号模型会添加句点。
Riva 标点符号模型假定传入文本未加标点。如果传入文本已经加标点,则标点符号模型可能会使现有标点符号加倍。
在 Riva ASR 中使用新的基于神经的语音活动检测器对延迟和吞吐量有不可忽略的影响。在本地测试中,观察到这些指标下降了 25%-50% 左右。
由于 Riva 使用基于 CTC 的声学模型,这些模型在训练期间不学习对齐,因此 ASR 转录中的单词时间戳可能不准确。时间戳是根据正在使用的特定声学模型的最终权重估算的。这些时间戳的准确性可能因多种变量而异,包括音频时长、音频质量和模型的准确性。
预配置的英国英语 (en-GB) ASR 管道使用 en-US 拼写转录一些 en-GB 特定单词。例如,对于具有“oe”、“ae”、“ell”的单词,会观察到这种情况。
使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。Riva 构建不支持以
.arpa
格式提供 1-gram 语言模型。这是由于 KenLM 实用程序构建语言模型二进制文件的限制。pitch
SSML 属性不符合 SSML 规范,并且不支持st
和%
更改。客户端不应将空字符串发送到 Riva Translation API,这些字符串可能会被错误地翻译成短句。
使用 FLAC 编码时,Riva ASR 客户端仅支持 16kHz 1 声道格式。
Riva Release 2.15.0#
注意
从以前版本升级到 2.15.0 的用户必须运行 riva_clean.sh
,然后使用快速入门脚本运行 riva_init.sh
。如果您使用的是 .riva
文件(预构建的或自定义的),则必须使用 NGC 上提供的最新模型版本为现有模型重新运行 riva-build
。
主要特性和增强功能#
Riva 现在使用 Triton 2.40.0 和 TensorRT 8.6,并支持 CUDA 12。
更新了 ASR 管道以使用 Triton BLS 后端架构,该架构能够提供约 40% 的延迟和吞吐量提升。
添加了对在 TTS 管道中使用音频提示进行 Zero Shot 语音合成的支持,以及对词汇表外单词的 Neural G2P 推理。Zero Shot Riva TTS 模型目前处于有限的早期访问阶段。
添加了保持运行转录缓冲区的功能,以在流式 ASR 期间将标点符号准确率提高约 10%。
更新了 Helm chart 以在单独的 pod 中运行 Riva 和 Triton 服务器,从而允许跨多个 GPU 进行扩展和部署。
添加了用于 NMT 合成数据生成和使用 Nvidia NeMo 微调多语言 NMT 模型的教程。
模型更新#
添加了一种新的 ASR 模型架构 (Parakeet),并包含了 parakeet-ctc-riva-0-6b-en-us ASR 模型。与 conformer-ctc-L-en-us ASR 模型相比,它带来了约 11% 的相对改进;与 Hugging Face 上的 parakeet-ctc-0.6b(NeMo 版本)ASR 模型相比,带来了约 24% 的相对改进。
添加了荷兰语 nl-NL 和 nl-BE (Beta) Conformer ASR、BERT-base 标点符号和逆文本规范化 (ITN) 模型。
更新了 English-US BERT 标点符号模型,相对准确率提高了约 7%。添加了 English-US BERT-large 标点符号模型,与 BERT-base 相比,它额外提供了约 1.5% 的相对准确率提升。
更新了普通话 (zh-CN) Conformer ASR 模型,以支持普通话-英语代码切换,并移除了普通话-英语 (zh-en-CN) Conformer 多语言代码切换 ASR 模型。
添加了用于使用音频提示进行语音合成的 Zero Shot TTS 模型(beta 版),以及 Neural G2P 模型(beta 版)。Zero Shot Riva TTS 模型目前处于有限的早期访问阶段。
改进了普通话 TTS 模型以更好地处理停顿,并更新了 Spanish-US TTS 模型以移除旁白说话人。
添加了 Megatron 1B en to any NMT 模型。
已修复问题#
通过支持
max_gen_delta
参数作为riva-build
参数,修复了 NMT en to any 模型翻译文本的截断问题。修复了可能导致 NMT 翻译输出中标点符号字符周围出现不必要的空格的问题。
修复了 NMT 文本翻译二进制客户端中更好地处理
num_iterations
和batch_size
参数的问题。更正了 linux ARM 平台上使用的 NGC CLI 二进制文件,以修复
riva_init
失败问题。修复了在 TTS 客户端中为 SSML 音量属性设置边缘值时导致错误的问题。
解决了在同时指定单词提升和语音提示时导致单词提升失败的问题。
更新了将模型从
.nemo
转换为 python3.10 环境中的.riva
所需的 nemo2riva 中的依赖项。
重大更改#
弃用了 Jetson Xavier AGX 和 NX 平台,因为 Jetson 平台已更新为使用不支持 Xavier 的 Jetpack 6.0 DP 镜像。现在支持的 Jetson 平台是 Jetson Orin。
弃用了 Jasper、Quartznet、Citrinet ASR 模型架构。现在支持的 ASR 架构是 Conformer 和 Parakeet。
弃用了所有 NLP 模型和 API,但标点符号和大小写除外。
所有 Conformer ASR 和 BERT 标点符号
.riva
模型都使用onnx-opset=18
和更新的版本名称发布在 NGC 上。用户必须将最新版本与 Riva 2.15.0 及更高版本一起使用,以前的版本不再兼容。
已知问题#
在
riva_start.sh
之后,第一次 Riva TTS 调用会导致更长的延迟,并且在某些 GPU 上可能会抛出超时错误。后续调用将表现出正常的延迟。与 zero shot TTS 模型打包在一起的 Neural G2P 模型不支持句子的完整上下文,仅在单词级别为词汇表外的单词调用。
荷兰语(nl-NL 和 nl-BE)conformer ASR 模型为 Beta 质量,建议通过从客户端传递
--verbatim_transcripts=false
来启用 ITN 使用。建议 nl-BE 模型与启用的 Neural VAD 一起使用,以获得更好的准确性。RADTTS++ 模型是用于混合情感的 beta 模型,并且不完全支持所有功能,如音调、速率、音量 SSML 属性等。
当使用
nemo2riva
从.nemo
生成.riva
模型时,由于 Torch 版本已更新,nemo:23.08
镜像与 Riva 不兼容。为了避免任何 Riva 部署问题,建议继续使用上次可用的 NeMo 镜像。普通话 TTS 输出对于某些多音字的发音不准确。
德语 Conformer 统一 ASR 模型在某些情况下可能准确率较低,尤其是在转录包含大写单词时进行逆文本规范化。
日语-英语 Conformer 统一多语言代码切换 ASR 模型结果仅包含字符时间戳,而不包含单词时间戳。
日语-英语 Conformer 统一多语言代码切换 ASR 模型结果转录仅包含日语文本的标点符号。
阿拉伯语 ITN 目前不会取消规范化时间、日期、货币和十进制数字。
Riva TTS cpp-clients 在将输出音频写入磁盘之前,会自动将 Opus 转换为 16 位脉冲编码调制 (PCM)。使用 Python 客户端接收 Opus 流。
在具有 ragged batching 支持的 FastPitch 模型上运行
nemo2riva
会导致有关ONNXRuntimeError INVALID_GRAPH
的警告。这些警告可以安全地忽略。加载具有 ragged batching 支持的 FastPitch 模型会导致 Triton 服务器记录有关
CleanUnusedInitializersAndNodeArgs
的警告。这些警告可以安全地忽略。阿拉伯语 ASR 声学模型的目标是现代标准阿拉伯语 (MSA),因此,黎巴嫩口音的准确性可能较差。
西班牙语 (es-ES) 和意大利语 Conformer-CTC-L 声学模型相对于其他语言而言,吞吐量较低且延迟较高。
在使用客户端 Docker 中的
riva_streaming_asr_client
和riva_asr_client
时,阿拉伯语的输出方向(单词时间戳)会中断。阿拉伯语 Conformer-CTC 模型的静音鲁棒性较差。为了获得更好的结果,请使用神经 VAD。
日语标点符号在数字和英文字符方面效果不佳。
离线说话人分离是 alpha 版本,启用该功能后会增加 ASR 延迟。
离线说话人分离目前在 Jetson Orin 平台上不起作用。
提供给 TTS 客户端的长输入文本可能会因
failed during inference
错误而失败。默认情况下,输入文本中每个句子(以句点分隔)的最大允许长度限制为 400 个字符。要在快速入门步骤中更新长度,请在
riva_init.sh
之后和riva_start.sh
之前执行以下操作访问模型存储库 (
$riva-model-repo
) 生成的位置(可以使用临时 Docker 挂载卷:docker run -it -v riva-model-repo:/data ubuntu
)在 Docker 工作区中
cd /data/models/tts_preprocessor-English-US
在
config.pbtxt
中,将键max_sequence_length
的值编辑为500
。保存并退出 Docker。继续执行快速入门步骤的其余部分:
riva_start.sh
注意
更改默认值可能会导致性能和质量下降。
葡萄牙语标点符号模型在逗号方面准确性较差。
如果输入文本为空,Riva 标点符号模型会添加句点。
Riva 标点符号模型假定传入文本未加标点。如果传入文本已经加标点,则标点符号模型可能会使现有标点符号加倍。
在 Riva ASR 中使用新的基于神经的语音活动检测器对延迟和吞吐量有不可忽略的影响。在本地测试中,观察到这些指标下降了 25%-50% 左右。
由于 Riva 使用基于 CTC 的声学模型,这些模型在训练期间不学习对齐,因此 ASR 转录中的单词时间戳可能不准确。时间戳是根据正在使用的特定声学模型的最终权重估算的。这些时间戳的准确性可能因多种变量而异,包括音频时长、音频质量和模型的准确性。
预配置的英国英语 (en-GB) ASR 管道使用 en-US 拼写转录一些 en-GB 特定单词。例如,对于具有“oe”、“ae”、“ell”的单词,会观察到这种情况。
Riva 服务器不会为转录中的每个普通话和日语字符返回时间戳。
使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。Riva 构建不支持以
.arpa
格式提供 1-gram 语言模型。这是由于 KenLM 实用程序构建语言模型二进制文件的限制。pitch
SSML 属性不符合 SSML 规范,并且不支持st
和%
更改。客户端不应将空字符串发送到 Riva Translation API,这些字符串可能会被错误地翻译成短句。
使用 FLAC 编码时,Riva ASR 客户端仅支持 16kHz 1 声道格式。
Riva Release 2.14.0#
主要特性和增强功能#
添加了在 TTS 中通过 SSML 输入混合多种情感的支持,使用 RADTTS++(beta 版)模型。
模型更新#
添加了普通话-英语 Conformer 多语言代码切换 ASR 模型。
添加了 Spanish-US 多说话人和 RADTTS++(beta 版)情感混合 TTS 模型。
添加了 Megatron 1B any to en NMT 模型。
已修复问题#
修复了当客户端尝试使用批处理大小 > 8 时,NMT 返回空转录的问题。
已知问题#
普通话-英语 Conformer 多语言代码切换 ASR 模型不支持标点符号。
RADTTS++ 模型是用于混合情感的 beta 模型,并且不完全支持所有功能,如音调、速率、音量 SSML 属性等。
当使用
nemo2riva
从.nemo
生成.riva
模型时,由于 Torch 版本已更新,nemo:23.08
镜像与 Riva 不兼容。为了避免任何 Riva 部署问题,建议继续使用上次可用的 NeMo 镜像。普通话 TTS 输出对于某些多音字的发音不准确。此外,由于句子中的停顿,音频听起来可能不太自然。
德语 Conformer 统一 ASR 模型在某些情况下可能准确率较低,尤其是在转录包含大写单词时进行逆文本规范化。
日语-英语 Conformer 统一多语言代码切换 ASR 模型结果仅包含字符时间戳,而不包含单词时间戳。
日语-英语 Conformer 统一多语言代码切换 ASR 模型结果转录仅包含日语文本的标点符号。
多语言西班牙语-英语代码切换 ASR 模型默认使用西班牙语标点符号,并且不对英语文本进行标点。
在 Riva Helm chart 中使用单个 NVIDIA Triton 服务器时,由于特征提取器的限制,所有 ASR 模型都必须部署在同一 GPU 上。
阿拉伯语 ITN 目前不会取消规范化时间、日期、货币和十进制数字。
Riva TTS cpp-clients 在将输出音频写入磁盘之前,会自动将 Opus 转换为 16 位脉冲编码调制 (PCM)。使用 Python 客户端接收 Opus 流。
在具有 ragged batching 支持的 FastPitch 模型上运行
nemo2riva
会导致有关ONNXRuntimeError INVALID_GRAPH
的警告。这些警告可以安全地忽略。加载具有 ragged batching 支持的 FastPitch 模型会导致 Triton 服务器记录有关
CleanUnusedInitializersAndNodeArgs
的警告。这些警告可以安全地忽略。阿拉伯语 ASR 声学模型的目标是现代标准阿拉伯语 (MSA),因此,黎巴嫩口音的准确性可能较差。
西班牙语 (es-ES) 和意大利语 Conformer-CTC-L 声学模型相对于其他语言而言,吞吐量较低且延迟较高。
韩语、巴西葡萄牙语、西班牙语 (es-ES)、法语和俄语 Citrinet 模型相对于其他语言而言,吞吐量较低且延迟较高。
在使用客户端 Docker 中的
riva_streaming_asr_client
和riva_asr_client
时,阿拉伯语的输出方向(单词时间戳)会中断。阿拉伯语 Conformer-CTC 模型的静音鲁棒性较差。为了获得更好的结果,请使用神经 VAD。
日语标点符号在数字和英文字符方面效果不佳。
说话人分离是 alpha 版本,启用该功能后会增加 ASR 延迟。
使用先前 TTS ARPAbet 模型有效的长 SSML 输入,可能会由于 IPA 模型的内部表示比 ARPAbet 模型稍长而导致
inference
期间failed
错误。要在快速入门步骤中更新长度,请在
riva_init.sh
之后和riva_start.sh
之前执行以下操作访问模型存储库 (
$riva-model-repo
) 生成的位置(可以使用临时 Docker 挂载卷:docker run -it -v riva-model-repo:/data ubuntu
)在 Docker 工作区中
cd /data/models/tts_preprocessor-English-US
在
config.pbtxt
中,将键max_sequence_length
的值编辑为500
。保存并退出 Docker。继续执行快速入门步骤的其余部分:
riva_start.sh
注意
更改默认值可能会导致性能和质量下降。
葡萄牙语标点模型对逗号的准确率很低。这将在即将发布的版本中修复。
如果输入文本为空,Riva 标点符号模型会添加句点。
Riva 标点符号模型假定传入文本未加标点。如果传入文本已经加标点,则标点符号模型可能会使现有标点符号加倍。
在 Riva ASR 中使用新的基于神经的语音活动检测器对延迟和吞吐量有不可忽略的影响。在本地测试中,观察到这些指标下降了 25%-50% 左右。
由于 Riva 使用基于 CTC 的声学模型,这些模型在训练期间不学习对齐,因此 ASR 转录中的单词时间戳可能不准确。时间戳是根据正在使用的特定声学模型的最终权重估算的。这些时间戳的准确性可能因多种变量而异,包括音频时长、音频质量和模型的准确性。
在
riva_start.sh
之后,第一次 Riva TTS 调用会导致更长的延迟,并可能抛出超时错误。后续调用将表现出正常的延迟。将 OpenSeq2Seq 解码器与普通话和日语 Conformer 声学模型一起使用会导致高延迟。我们建议将贪婪解码器与这些声学模型一起使用。
预配置的英国英语 (en-GB) ASR 管道使用 en-US 拼写转录一些 en-GB 特定单词。例如,对于具有“oe”、“ae”、“ell”的单词,会观察到这种情况。
Riva 服务器不会为转录中的每个普通话和日语字符返回时间戳。
使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。Riva 构建不支持以
.arpa
格式提供 1-gram 语言模型。这是由于 KenLM 实用程序构建语言模型二进制文件的限制。pitch
SSML 属性不符合 SSML 规范,并且不支持st
和%
更改。在 Jetson NX Xavier 上,德语和韩语 ASR、翻译和说话人分离模型不适合 8 GB 可用 RAM。
客户端不应将空字符串发送到 Riva Translation API,这些字符串可能会被错误地翻译成短句。
使用 FLAC 编码时,Riva ASR 客户端仅支持 16kHz 1 声道格式。
Riva Release 2.13.1#
有关详细的发行说明,请参阅 Riva Release 2.13.0。
已修复的问题#
修复了 ASR 单词置信度分数,使其值在 [0-1] 范围内。
修复了 Helm chart,允许从任何 NGC 组织/团队自定义模型部署。
模型更新#
添加了带有男声和女声情感子音的普通话 TTS 模型。
已知问题#
普通话 TTS 输出对于某些多音字的发音不准确。此外,由于句子中的停顿,音频听起来可能不太自然。
Riva Release 2.13.0#
主要特性和增强功能#
在 TTS 中添加了对合成非英语语言语音的支持。
添加了 TTS 多说话人适配器 IPA 预训练
.nemo
检查点以及关于如何针对较小数据集对其进行微调的教程。添加了对使用唯一标识符标记 gRPC 请求和响应的支持。
模型更新#
添加了德语 Conformer 统一模型,并更新了西班牙语-英语 Conformer 多语言代码切换 ASR 模型。
添加了日语-英语 Conformer 统一多语言代码切换和更新的英语 ASR 模型。
添加了带有男声和女声的西班牙语和意大利语 TTS 模型,以及带有男声的德语 TTS 模型。
已修复的问题#
简化了翻译文档,以简化部署,并为翻译客户端使用了统一的命名。
修复了语音翻译客户端,以支持麦克风输入和性能指标的日志记录。
修复了 ASR 中的一个问题,该问题在某些情况下导致多次运行中出现间歇性的转录不准确。
修正了基于字符的语言(日语和普通话)的 ASR 结果中的时间戳。
修复了在使用贪婪解码器时,ASR 结果转录中的不雅词语过滤。
重大更改#
构建 TTS 模型时在
riva-build
中使用的denoiser
参数已重命名为postprocessor
,以更好地反映该步骤中发生的情况。后处理器目前用于交叉淡化音频块,不用于降噪。
已知问题#
德语 Conformer 统一 ASR 模型在某些情况下可能准确率较低,尤其是在转录包含大写单词时进行逆文本规范化。
日语-英语 Conformer 统一多语言代码切换 ASR 模型结果仅包含字符时间戳,而不包含单词时间戳。
日语-英语 Conformer 统一多语言代码切换 ASR 模型结果转录仅包含日语文本的标点符号。
多语言西班牙语-英语代码切换 ASR 模型默认使用西班牙语标点符号,并且不对英语文本进行标点。
在 Riva Helm chart 中使用单个 NVIDIA Triton 服务器时,由于特征提取器的限制,所有 ASR 模型都必须部署在同一 GPU 上。
阿拉伯语 ITN 目前不会取消规范化时间、日期、货币和十进制数字。
Riva TTS cpp-clients 在将输出音频写入磁盘之前,会自动将 Opus 转换为 16 位脉冲编码调制 (PCM)。使用 Python 客户端接收 Opus 流。
在具有 ragged batching 支持的 FastPitch 模型上运行
nemo2riva
会导致有关ONNXRuntimeError INVALID_GRAPH
的警告。这些警告可以安全地忽略。加载具有 ragged batching 支持的 FastPitch 模型会导致 Triton 服务器记录有关
CleanUnusedInitializersAndNodeArgs
的警告。这些警告可以安全地忽略。阿拉伯语 ASR 声学模型的目标是现代标准阿拉伯语 (MSA),因此,黎巴嫩口音的准确性可能较差。
西班牙语 (es-ES) 和意大利语 Conformer-CTC-L 声学模型相对于其他语言而言,吞吐量较低且延迟较高。
韩语、巴西葡萄牙语、西班牙语 (es-ES)、法语和俄语 Citrinet 模型相对于其他语言而言,吞吐量较低且延迟较高。
在使用客户端 Docker 中的
riva_streaming_asr_client
和riva_asr_client
时,阿拉伯语的输出方向(单词时间戳)会中断。阿拉伯语 Conformer-CTC 模型的静音鲁棒性较差。为了获得更好的结果,请使用神经 VAD。
日语标点符号在数字和英文字符方面效果不佳。
说话人分离是 alpha 版本,启用该功能后会增加 ASR 延迟。
使用先前 TTS ARPAbet 模型有效的长 SSML 输入,可能会由于 IPA 模型的内部表示比 ARPAbet 模型稍长而导致
inference
期间failed
错误。要在快速入门步骤中更新长度,请在
riva_init.sh
之后和riva_start.sh
之前执行以下操作访问模型存储库 (
$riva-model-repo
) 生成的位置(可以使用临时 Docker 挂载卷:docker run -it -v riva-model-repo:/data ubuntu
)在 Docker 工作区中
cd /data/models/tts_preprocessor-English-US
在
config.pbtxt
中,将键max_sequence_length
的值编辑为500
。保存并退出 Docker。继续执行快速入门步骤的其余部分:
riva_start.sh
注意
更改默认值可能会导致性能和质量下降。
葡萄牙语标点模型对逗号的准确率很低。这将在即将发布的版本中修复。
如果输入文本为空,Riva 标点符号模型会添加句点。
Riva 标点符号模型假定传入文本未加标点。如果传入文本已经加标点,则标点符号模型可能会使现有标点符号加倍。
在 Riva ASR 中使用新的基于神经的语音活动检测器对延迟和吞吐量有不可忽略的影响。在本地测试中,观察到这些指标下降了 25%-50% 左右。
由于 Riva 使用基于 CTC 的声学模型,这些模型在训练期间不学习对齐,因此 ASR 转录中的单词时间戳可能不准确。时间戳是根据正在使用的特定声学模型的最终权重估算的。这些时间戳的准确性可能因多种变量而异,包括音频时长、音频质量和模型的准确性。
在
riva_start.sh
之后,第一次 Riva TTS 调用会导致更长的延迟,并可能抛出超时错误。后续调用将表现出正常的延迟。将 OpenSeq2Seq 解码器与普通话和日语 Conformer 声学模型一起使用会导致高延迟。我们建议将贪婪解码器与这些声学模型一起使用。
预配置的英国英语 (en-GB) ASR 管道使用 en-US 拼写转录一些 en-GB 特定单词。例如,对于具有“oe”、“ae”、“ell”的单词,会观察到这种情况。
Riva 服务器不会为转录中的每个普通话和日语字符返回时间戳。
使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。Riva 构建不支持以
.arpa
格式提供 1-gram 语言模型。这是由于 KenLM 实用程序构建语言模型二进制文件的限制。pitch
SSML 属性不符合 SSML 规范,并且不支持st
和%
更改。在 Jetson NX Xavier 上,德语和韩语 ASR、翻译和说话人分离模型不适合 8 GB 可用 RAM。
客户端不应将空字符串发送到 Riva Translation API,这些字符串可能会被错误地翻译成短句。
使用 FLAC 编码时,Riva ASR 客户端仅支持 16kHz 1 声道格式。
Riva Release 2.12.0#
主要特性和增强功能#
更新了 Helm chart,以支持在多个 NVIDIA Triton 服务器上部署模型。
更新了 Helm chart,以在使用具有多个 GPU 的单个 NVIDIA Triton 服务器时,将模型分配给特定的 GPU。
模型更新#
添加了普通话 Conformer 统一模型和西班牙语-英语多语言代码切换 ASR 模型。
更新了意大利语 Conformer 和日语 Conformer 统一 ASR 模型。
为 FastPitch 和 RAD-TTS 模型添加了情感子音。
已修复的问题#
OPUS 编码格式的 S2S 输出有时会出现间歇性故障。此问题已修复。
Conformer 统一 ASR 模型始终返回带标点的输出,而与
--automatic_punctuation
标志无关。此问题已修复。S2S 服务已更新,可为不同的错误场景返回适当的 gRPC 状态。
已知问题#
多语言西班牙语-英语代码切换 ASR 模型默认使用西班牙语标点符号,并且不对英语文本进行标点。
在 Riva Helm chart 中使用单个 NVIDIA Triton 服务器时,由于特征提取器的限制,所有 ASR 模型都必须部署在同一 GPU 上。
阿拉伯语 ITN 目前不会取消规范化时间、日期、货币和十进制数字。
Riva TTS cpp-clients 在将输出音频写入磁盘之前,会自动将 Opus 转换为 16 位脉冲编码调制 (PCM)。使用 Python 客户端接收 Opus 流。
在具有 ragged batching 支持的 FastPitch 模型上运行
nemo2riva
会导致有关ONNXRuntimeError INVALID_GRAPH
的警告。这些警告可以安全地忽略。加载具有 ragged batching 支持的 FastPitch 模型会导致 Triton 服务器记录有关
CleanUnusedInitializersAndNodeArgs
的警告。这些警告可以安全地忽略。阿拉伯语 ASR 声学模型的目标是现代标准阿拉伯语 (MSA),因此,黎巴嫩口音的准确性可能较差。
西班牙语 (es-ES) 和意大利语 Conformer-CTC-L 声学模型相对于其他语言而言,吞吐量较低且延迟较高。
韩语、巴西葡萄牙语、西班牙语 (es-ES)、法语和俄语 Citrinet 模型相对于其他语言而言,吞吐量较低且延迟较高。
在使用客户端 Docker 中的
riva_streaming_asr_client
和riva_asr_client
时,阿拉伯语的输出方向(单词时间戳)会中断。阿拉伯语 Conformer-CTC 模型的静音鲁棒性较差。为了获得更好的结果,请使用神经 VAD。
日语标点符号在数字和英文字符方面效果不佳。
说话人分离是 alpha 版本,启用该功能后会增加 ASR 延迟。
使用先前 TTS ARPAbet 模型有效的长 SSML 输入,可能会由于 IPA 模型的内部表示比 ARPAbet 模型稍长而导致
inference
期间failed
错误。要在快速入门步骤中更新长度,请在
riva_init.sh
之后和riva_start.sh
之前执行以下操作访问模型存储库 (
$riva-model-repo
) 生成的位置(可以使用临时 Docker 挂载卷:docker run -it -v riva-model-repo:/data ubuntu
)在 Docker 工作区中
cd /data/models/tts_preprocessor-English-US
在
config.pbtxt
中,将键max_sequence_length
的值编辑为500
。保存并退出 Docker。继续执行快速入门步骤的其余部分:
riva_start.sh
注意
更改默认值可能会导致性能和质量下降。
葡萄牙语标点模型对逗号的准确率很低。这将在即将发布的版本中修复。
如果输入文本为空,Riva 标点符号模型会添加句点。
Riva 标点符号模型假定传入文本未加标点。如果传入文本已经加标点,则标点符号模型可能会使现有标点符号加倍。
在 Riva ASR 中使用新的基于神经的语音活动检测器对延迟和吞吐量有不可忽略的影响。在本地测试中,观察到这些指标下降了 25%-50% 左右。
由于 Riva 使用基于 CTC 的声学模型,这些模型在训练期间不学习对齐,因此 ASR 转录中的单词时间戳可能不准确。时间戳是根据正在使用的特定声学模型的最终权重估算的。这些时间戳的准确性可能因多种变量而异,包括音频时长、音频质量和模型的准确性。
在
riva_start.sh
之后,第一次 Riva TTS 调用会导致更长的延迟,并可能抛出超时错误。后续调用将表现出正常的延迟。将 OpenSeq2Seq 解码器与普通话和日语 Conformer 声学模型一起使用会导致高延迟。我们建议将贪婪解码器与这些声学模型一起使用。
预配置的英国英语 (en-GB) ASR 管道使用 en-US 拼写转录一些 en-GB 特定单词。例如,对于具有“oe”、“ae”、“ell”的单词,会观察到这种情况。
Riva 服务器不会为转录中的每个普通话和日语字符返回时间戳。
使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。Riva 构建不支持以
.arpa
格式提供 1-gram 语言模型。这是由于 KenLM 实用程序构建语言模型二进制文件的限制。pitch
SSML 属性不符合 SSML 规范,并且不支持st
和%
更改。在 Jetson NX Xavier 上,德语和韩语 ASR、翻译和说话人分离模型不适合 8 GB 可用 RAM。
客户端不应将空字符串发送到 Riva Translation API,这些字符串可能会被错误地翻译成短句。
使用 FLAC 编码时,Riva ASR 客户端仅支持 16kHz 1 声道格式。
Riva Release 2.11.0#
主要特性和增强功能#
添加了一项名为语音到语音翻译 (S2S) 的新服务。Riva S2S 在语言对之间(即从一种语言到另一种语言)翻译音频。
添加了一项名为语音到文本翻译 (S2T) 的新服务。Riva S2T 在语言对之间(即从一种语言到另一种语言)转录音频。
添加了两个新的 Riva S2S 和 S2T API,
StreamingTranslateSpeechToSpeech
和StreamingTranslateSpeechToText
。
模型更新#
添加了 Conformer 统一日语 ASR 模型,这是一个使用标点符号作为其词汇表一部分进行训练的声学模型。这有助于在转录中获得更准确的标点符号。
已修复的问题#
TTS 管道的
riva-build
的--phone_dictionary_file
和--mapping_file
参数现在接受相对路径。
重大更改#
CTC 解码器的 Triton 后端配置具有向后不兼容的更改。因此,早期 Riva 版本生成的模型仓库不兼容。请按照快速入门步骤中的说明运行
riva_init.sh
生成新的模型仓库。
已知问题#
OPUS 编码格式的 S2S 输出可能具有间歇性故障。从 S2S 输出的 PCM 未观察到此问题。
Conformer 统一 ASR 模型始终返回带标点的输出,而与
--automatic_punctuation
标志无关。Riva TTS cpp-clients 在将输出音频写入磁盘之前,会自动将 Opus 转换为 16 位脉冲编码调制 (PCM)。使用 Python 客户端接收 Opus 流。
在具有 ragged batching 支持的 FastPitch 模型上运行
nemo2riva
会导致有关ONNXRuntimeError INVALID_GRAPH
的警告。这些警告可以安全地忽略。加载具有 ragged batching 支持的 FastPitch 模型会导致 Triton 服务器记录有关
CleanUnusedInitializersAndNodeArgs
的警告。这些警告可以安全地忽略。阿拉伯语 ASR 声学模型的目标是现代标准阿拉伯语 (MSA),因此,黎巴嫩口音的准确性可能较差。
西班牙语 (es-ES) 和意大利语 Conformer-CTC-L 声学模型相对于其他语言而言,吞吐量较低且延迟较高。
韩语、巴西葡萄牙语、西班牙语 (es-ES)、法语和俄语 Citrinet 模型相对于其他语言而言,吞吐量较低且延迟较高。
在使用客户端 Docker 中的
riva_streaming_asr_client
和riva_asr_client
时,阿拉伯语的输出方向(单词时间戳)会中断。阿拉伯语 Conformer-CTC 模型的静音鲁棒性较差。为了获得更好的结果,请使用神经 VAD。
日语标点符号在数字和英文字符方面效果不佳。
说话人分离是 alpha 版本,启用该功能后会增加 ASR 延迟。
使用先前 TTS ARPAbet 模型有效的长 SSML 输入,可能会由于 IPA 模型的内部表示比 ARPAbet 模型稍长而导致
inference
期间failed
错误。要在快速入门步骤中更新长度,请在
riva_init.sh
之后和riva_start.sh
之前执行以下操作访问模型存储库 (
$riva-model-repo
) 生成的位置(可以使用临时 Docker 挂载卷:docker run -it -v riva-model-repo:/data ubuntu
)在 Docker 工作区中
cd /data/models/tts_preprocessor-English-US
在
config.pbtxt
中,将键max_sequence_length
的值编辑为500
。保存并退出 Docker。继续执行快速入门步骤的其余部分:
riva_start.sh
注意
更改默认值可能会导致性能和质量下降。
葡萄牙语标点模型对逗号的准确率很低。这将在即将发布的版本中修复。
如果输入文本为空,Riva 标点符号模型会添加句点。
Riva 标点符号模型假定传入文本未加标点。如果传入文本已经加标点,则标点符号模型可能会使现有标点符号加倍。
在 Riva ASR 中使用新的基于神经的语音活动检测器对延迟和吞吐量有不可忽略的影响。在本地测试中,观察到这些指标下降了 25%-50% 左右。
由于 Riva 使用基于 CTC 的声学模型,这些模型在训练期间不学习对齐,因此 ASR 转录中的单词时间戳可能不准确。时间戳是根据正在使用的特定声学模型的最终权重估算的。这些时间戳的准确性可能因多种变量而异,包括音频时长、音频质量和模型的准确性。
在
riva_start.sh
之后,第一次 Riva TTS 调用会导致更长的延迟,并可能抛出超时错误。后续调用将表现出正常的延迟。将 OpenSeq2Seq 解码器与普通话和日语 Conformer 声学模型一起使用会导致高延迟。我们建议将贪婪解码器与这些声学模型一起使用。
预配置的英国英语 (en-GB) ASR 管道使用 en-US 拼写转录一些 en-GB 特定单词。例如,对于具有“oe”、“ae”、“ell”的单词,会观察到这种情况。
Riva 服务器不会为转录中的每个普通话和日语字符返回时间戳。
使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。Riva 构建不支持以
.arpa
格式提供 1-gram 语言模型。这是由于 KenLM 实用程序构建语言模型二进制文件的限制。pitch
SSML 属性不符合 SSML 规范,并且不支持st
和%
更改。在 Jetson NX Xavier 上,德语和韩语 ASR、翻译和说话人分离模型不适合 8 GB 可用 RAM。
客户端不应将空字符串发送到 Riva Translation API,这些字符串可能会被错误地翻译成短句。
使用 FLAC 编码时,Riva ASR 客户端仅支持 16kHz 1 声道格式。
Riva Release 2.10.0#
主要特性和增强功能#
添加了 RadTTS 对语音合成的支持。在默认配置中,使用
English-US-RadTTS
作为voice_name
以使用 RadTTS 模型。English-US
遵循 FastPitch 模型。升级了 嵌入式 平台上的以下软件版本
模型更新#
为日语 (jp-JP) 和俄语 (ru-RU) 添加了新的标点和大小写模型。
更新了阿拉伯语 (ar-AR)、西班牙语 (es-US)、葡萄牙语 (pt-BR) 和普通话 (zh-CN) 语言的 Conformer L ASR 模型。
为英语 (en-US) 添加了带有 IPA 字母表的 RadTTS 和 HiFi-GAN RadTTS TTS 模型
更新了阿拉伯语 (ar-AR) 的语言模型
已修复的问题#
pitch
SSML 属性支持 ‘Hz’
已知问题#
TTS 管道的
riva-build
的--phone_dictionary_file
和--mapping_file
参数不适用于相对路径。Riva TTS cpp-clients 在将输出音频写入磁盘之前,会自动将 Opus 转换为 16 位脉冲编码调制 (PCM)。使用 Python 客户端接收 Opus 流。
在具有 ragged batching 支持的 FastPitch 模型上运行
nemo2riva
会导致有关ONNXRuntimeError INVALID_GRAPH
的警告。这些警告可以安全地忽略。加载具有 ragged batching 支持的 FastPitch 模型会导致 Triton 服务器记录有关
CleanUnusedInitializersAndNodeArgs
的警告。这些警告可以安全地忽略。阿拉伯语 ASR 声学模型的目标是现代标准阿拉伯语 (MSA),因此,黎巴嫩口音的准确性可能较差。
西班牙语 (es-ES) 和意大利语 Conformer-CTC-L 声学模型相对于其他语言而言,吞吐量较低且延迟较高。
韩语、巴西葡萄牙语、西班牙语 (es-ES)、法语和俄语 Citrinet 模型相对于其他语言而言,吞吐量较低且延迟较高。
在使用客户端 Docker 中的
riva_streaming_asr_client
和riva_asr_client
时,阿拉伯语的输出方向(单词时间戳)会中断。阿拉伯语 Conformer-CTC 模型的静音鲁棒性较差。为了获得更好的结果,请使用神经 VAD。
日语标点符号在数字和英文字符方面效果不佳。
说话人分离是 alpha 版本,启用该功能后会增加 ASR 延迟。
使用先前 TTS ARPAbet 模型有效的长 SSML 输入,可能会由于 IPA 模型的内部表示比 ARPAbet 模型稍长而导致
inference
期间failed
错误。要在快速入门步骤中更新长度,请在
riva_init.sh
之后和riva_start.sh
之前执行以下操作访问模型存储库 (
$riva-model-repo
) 生成的位置(可以使用临时 Docker 挂载卷:docker run -it -v riva-model-repo:/data ubuntu
)在 Docker 工作区中
cd /data/models/tts_preprocessor-English-US
在
config.pbtxt
中,将键max_sequence_length
的值编辑为500
。保存并退出 Docker。继续执行快速入门步骤的其余部分:
riva_start.sh
注意
更改默认值可能会导致性能和质量下降。
葡萄牙语标点模型对逗号的准确率很低。这将在即将发布的版本中修复。
如果输入文本为空,Riva 标点符号模型会添加句点。
Riva 标点符号模型假定传入文本未加标点。如果传入文本已经加标点,则标点符号模型可能会使现有标点符号加倍。
在 Riva ASR 中使用新的基于神经的语音活动检测器对延迟和吞吐量有不可忽略的影响。在本地测试中,观察到这些指标下降了 25%-50% 左右。
由于 Riva 使用基于 CTC 的声学模型,这些模型在训练期间不学习对齐,因此 ASR 转录中的单词时间戳可能不准确。时间戳是根据正在使用的特定声学模型的最终权重估算的。这些时间戳的准确性可能因多种变量而异,包括音频时长、音频质量和模型的准确性。
在
riva_start.sh
之后,第一次 Riva TTS 调用会导致更长的延迟,并可能抛出超时错误。后续调用将表现出正常的延迟。将 OpenSeq2Seq 解码器与普通话和日语 Conformer 声学模型一起使用会导致高延迟。我们建议将贪婪解码器与这些声学模型一起使用。
预配置的英国英语 (en-GB) ASR 管道使用 en-US 拼写转录一些 en-GB 特定单词。例如,对于具有“oe”、“ae”、“ell”的单词,会观察到这种情况。
Riva 服务器不会为转录中的每个普通话和日语字符返回时间戳。
使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。Riva 构建不支持以
.arpa
格式提供 1-gram 语言模型。这是由于 KenLM 实用程序构建语言模型二进制文件的限制。pitch
SSML 属性不符合 SSML 规范,并且不支持st
和%
更改。在 Jetson NX Xavier 上,德语和韩语 ASR、翻译和说话人分离模型不适合 8 GB 可用 RAM。
客户端不应将空字符串发送到 Riva Translation API,这些字符串可能会被错误地翻译成短句。
使用 FLAC 编码时,Riva ASR 客户端仅支持 16kHz 1 声道格式。
Riva Release 2.9.0#
主要特性和增强功能#
Riva 现在支持 Opus 编码(在 TTS 服务中)和解码(在 ASR 服务中)。在 ASR 中,您可以提交
.ogg
和.opus
音频文件进行转码。在 TTS 中,您可以选择接收序列化的 opus 编码流的选项。还提供了该流的反序列化器。有关更多信息,请参阅 示例客户端。添加了一项名为 Riva 翻译的新服务。Riva 翻译在语言对之间(即从一种语言到另一种语言)翻译文本。
添加了两个新的 Riva 翻译 API,TranslateText 和 ListSupportedLanguagePairs。
使用基于字符的 LM 进行无词典解码。有关详细信息,请参阅 Flashlight 解码器无词典。
模型更新#
为 NMT 添加了四个多语言模型和 10 个双语模型。有关更多信息,请参阅 NMT 自定义。
已弃用和删除的功能#
TAO Toolkit 对 Riva 的支持现已弃用。我们建议您使用 NVIDIA NeMo 在自定义数据集上微调预训练模型。
已知问题#
在具有 ragged batching 支持的 FastPitch 模型上运行
nemo2riva
会导致有关ONNXRuntimeError INVALID_GRAPH
的警告。这些警告可以安全地忽略。加载具有 ragged batching 支持的 FastPitch 模型会导致 Triton 服务器记录有关
CleanUnusedInitializersAndNodeArgs
的警告。这些警告可以安全地忽略。阿拉伯语 ASR 声学模型的目标是现代标准阿拉伯语 (MSA),因此,黎巴嫩口音的准确性可能较差。
西班牙语 (es-ES) 和意大利语 Conformer-CTC-L 声学模型相对于其他语言而言,吞吐量较低且延迟较高。
韩语、巴西葡萄牙语、西班牙语 (es-ES)、法语和俄语 Citrinet 模型相对于其他语言而言,吞吐量较低且延迟较高。
在使用客户端 Docker 中的
riva_streaming_asr_client
和riva_asr_client
时,阿拉伯语的输出方向(单词时间戳)会中断。阿拉伯语 Conformer-CTC 模型的静音鲁棒性较差。为了获得更好的结果,请使用神经 VAD。
日语标点符号在数字和英文字符方面效果不佳。
说话人分离是 alpha 版本,启用该功能后会增加 ASR 延迟。
使用先前 TTS ARPAbet 模型有效的长 SSML 输入,可能会由于 IPA 模型的内部表示比 ARPAbet 模型稍长而导致
inference
期间failed
错误。要在快速入门步骤中更新长度,请在
riva_init.sh
之后和riva_start.sh
之前执行以下操作访问模型存储库 (
$riva-model-repo
) 生成的位置(可以使用临时 Docker 挂载卷:docker run -it -v riva-model-repo:/data ubuntu
)在 Docker 工作区中
cd /data/models/tts_preprocessor-English-US
在
config.pbtxt
中,将键max_sequence_length
的值编辑为500
。保存并退出 Docker。继续执行快速入门步骤的其余部分:
riva_start.sh
注意
更改默认值可能会导致性能和质量下降。
葡萄牙语标点模型对逗号的准确率很低。这将在即将发布的版本中修复。
如果输入文本为空,Riva 标点符号模型会添加句点。
Riva 标点符号模型假定传入文本未加标点。如果传入文本已经加标点,则标点符号模型可能会使现有标点符号加倍。
在 Riva ASR 中使用新的基于神经的语音活动检测器对延迟和吞吐量有不可忽略的影响。在本地测试中,观察到这些指标下降了 25%-50% 左右。
由于 Riva 使用基于 CTC 的声学模型,这些模型在训练期间不学习对齐,因此 ASR 转录中的单词时间戳可能不准确。时间戳是根据正在使用的特定声学模型的最终权重估算的。这些时间戳的准确性可能因多种变量而异,包括音频时长、音频质量和模型的准确性。
在
riva_start.sh
之后,第一次 Riva TTS 调用会导致更长的延迟,并可能抛出超时错误。后续调用将表现出正常的延迟。将 OpenSeq2Seq 解码器与普通话和日语 Conformer 声学模型一起使用会导致高延迟。我们建议将贪婪解码器与这些声学模型一起使用。
预配置的英国英语 (en-GB) ASR 管道使用 en-US 拼写转录一些 en-GB 特定单词。例如,对于具有“oe”、“ae”、“ell”的单词,会观察到这种情况。
Riva 服务器不会为转录中的每个普通话和日语字符返回时间戳。
使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。Riva 构建不支持以
.arpa
格式提供 1-gram 语言模型。这是由于 KenLM 实用程序构建语言模型二进制文件的限制。pitch
SSML 属性不符合 SSML 规范,并且不支持Hz
、st
、%
更改。在 Jetson NX Xavier 上,德语和韩语 ASR、翻译和说话人分离模型不适合 8 GB 可用 RAM。
客户端不应将空字符串发送到 Riva Translation API,这些字符串可能会被错误地翻译成短句。
使用 FLAC 编码时,Riva ASR 客户端仅支持 16kHz 1 声道格式。
Riva Release 2.8.1#
有关详细的发行说明,请参阅 Riva Release 2.8.0。
已修复的问题#
带有新 FastPitch IPA 模型的 SSML 韵律标签现在可以在正确的位置应用韵律。
Riva Release 2.8.0#
重要提示
我们建议使用 Riva 2.8.1 (22.11.1) 版本而不是 2.8.0 版本。
主要特性和增强功能#
此 Riva 版本包括以下主要特性和增强功能。
为 ASR EMEA 西班牙语 (es-ES)、日语 (ja-JP)、韩语 (ko-KR)、巴西葡萄牙语 (pt-BR) 和意大利语 (it-IT) 模型添加了标点和大小写模型。
为 ASR EMEA 西班牙语 (es-ES)、日语 (ja-JP)、意大利语 (it-IT) 和阿拉伯语 (ar-AR) 模型添加了 Conformer-L 模型。
为 ASR EMEA 西班牙语 (es-ES) 添加了 Citrinet-1024 模型
更新了 ASR 俄语 (ru-RU) 和法语 (fr-FR) 的 Citrinet-1024 模型
可以通过 gRPC 命令向 Riva 请求已部署的模型配置
语音合成预训练模型使用国际音标 (IPA) 而不是 ARPAbet 进行推理和训练。有关 SSML 韵律标签,请参阅“已知问题”部分。
在离线识别的情况下,添加了对非重叠说话人分离的支持。这是此功能的 alpha 版本,因此默认情况下未启用。用户需要在运行
riva_init.sh
之前取消注释快速入门config.sh
中的rmir_diarizer_offline
模型以启用该功能。
已修复的问题#
en ITN 模型现在可以处理 14 位和 15 位银行卡
Conformer ASR 模型配方已使用
--endpointing.residue_blanks_at_start=-2
进行了更新,以更好地匹配 NeMo WER。ASR 模型配方中使用的西班牙语标点模型现在保留了重音符号。
NLP 模型的
riva-build
命令已更新,使得--nlp_pipeline_backend.to_lower
和--nlp_pipeline_backend.tokenizer_to_lower
已被删除。请使用--to_lower
和--tokenizer_to_lower
。
已知问题#
阿拉伯语 ASR 声学模型的目标是现代标准阿拉伯语 (MSA),因此,黎巴嫩口音的准确性可能较差。
西班牙语 (es-ES) 和意大利语 Conformer-CTC-L 声学模型相对于其他语言吞吐量较低且延迟较高。
韩语、巴西葡萄牙语、西班牙语 (es-ES)、法语和俄语 Citrinet 模型相对于其他语言吞吐量较低且延迟较高。
在使用客户端 Docker 中的
riva\_streaming\_asr\_client
和riva\_asr\_client
时,阿拉伯语的输出方向(单词时间戳)被打乱。阿拉伯语 Conformer-CTC 模型的静音鲁棒性较差。为了获得更好的结果,请使用神经 VAD。
日语标点符号在数字和英文字符方面效果不佳。
说话人分离是 alpha 版本,如果启用,将增加 ASR 延迟。
使用先前 TTS ARPAbet 模型有效的长 SSML 输入,可能会由于 IPA 模型的内部表示比 ARPAbet 模型稍长而导致“推理期间失败”错误。
要在快速入门步骤中更新长度,请在
riva_init.sh
之后和riva_start.sh
之前执行以下操作访问模型存储库 (
$riva-model-repo
) 生成的位置(可以使用临时 Docker 挂载卷:docker run -it -v riva-model-repo:/data ubuntu
)在 Docker 工作区中
cd /data/models/tts_preprocessor-English-US
在
config.pbtxt
中,将键max_sequence_length
的值编辑为500
。保存并退出 Docker。继续执行快速入门步骤的其余部分:
riva_start.sh
注意:更改默认值可能会导致性能/质量下降。
带有新 FastPitch IPA 模型的 SSML 韵律标签将导致韵律应用于文本的后面部分,而不是用户标记它们的位置。如果需要韵律标签,请使用 Riva 2.7.0 及更早版本发布的旧版 FastPitch ARPAbet 模型。
葡萄牙语标点模型对逗号的准确率很低。这将在即将发布的版本中修复。
如果输入文本为空,Riva 标点符号模型会添加句点。
Riva 标点符号模型假定传入文本未加标点。如果传入文本已经加标点,则标点符号模型可能会使现有标点符号加倍。
在 Riva ASR 中使用新的基于神经的语音活动检测器对延迟和吞吐量有不可忽略的影响。在本地测试中,观察到这些指标下降了 25%-50% 左右。
由于 Riva 使用基于 CTC 的声学模型,这些模型在训练期间不学习对齐,因此 ASR 转录中的单词时间戳可能不准确。时间戳是根据正在使用的特定声学模型的最终权重估算的。这些时间戳的准确性可能因多种变量而异,包括音频时长、音频质量和模型的准确性。
使用 TAO Toolkit 微调并在 Riva 中使用来自 管道配置 的推荐
riva-build
参数部署的 Conformer 声学模型可能导致推理时转录为空。要解决此问题,请将--nn.use_trt_fp32
参数传递给riva-build
。这将在 TAO Toolkit 的未来版本中修复。加载具有 ragged batching 支持的 FastPitch 模型会导致 Triton 服务器记录有关
CleanUnusedInitializersAndNodeArgs
的警告。这些警告可以安全地忽略。在 riva_start.sh 之后,第一次 Riva TTS 调用会导致更长的延迟,并可能抛出超时错误。后续调用将表现出正常的延迟。
将 OpenSeq2Seq 解码器与普通话和日语 Conformer 声学模型一起使用会导致高延迟。我们建议将贪婪解码器与这些声学模型一起使用。
预配置的英国英语 (en-GB) ASR 管道使用 en-US 拼写转录一些 en-GB 特定单词。例如,对于具有“oe”、“ae”、“ell”的单词,会观察到这种情况。
Riva 服务器不会为转录中的每个普通话和日语字符返回时间戳。
使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。Riva build 不支持以
.arpa
格式提供 1-gram 语言模型。这是由于 KenLM 实用程序构建语言模型二进制文件的限制。pitch
SSML 属性不符合 SSML 规范,并且不支持Hz
、st
、%
更改。在 Jetson NX Xavier 上,德语 ASR 模型不适合 8 GB 可用 RAM。
Riva Release 2.7.0#
主要特性和增强功能#
此 Riva 版本包括以下主要特性和增强功能。
为 fr-FR 添加了 ITN 支持
更新了 en-US、es-US 的 ITN 模型
en-US 2.0
支持信用卡
印度编号(十万、千万等)
数字序列(电话号码、信用卡、SSN 等)
支持上述数字序列中的双重、三重数字序列(“double five triple eight nine six four seven two” -> 558-889-6472)
字母数字序列 (H1N1),
各个国家/地区的货币和加密货币
es-US 2.0
货币
分数
测量
数学
电话(国家/地区代码和分机号码)
为 ASR 英国英语 (en-GB) 模型添加了标点和大小写模型。
为 ASR 葡萄牙语巴西 (pt-BR) 和韩语 (kr-KR) 模型添加了 Citrinet-1024 和 Conformer-L 模型。
ASR 普通话语言模型现在已修剪。
可以通过 gRPC 命令向 Riva 请求已部署的模型配置
已修复的问题#
en ITN 模型现在可以处理 14 位和 15 位银行卡
Conformer ASR 模型配方已使用
--endpointing.residue_blanks_at_start=-2
进行了更新,以更好地匹配 NeMo WER。ASR 模型配方中使用的西班牙语标点模型现在保留了重音符号。
NLP 模型的
riva-build
命令已更新,使得--nlp_pipeline_backend.to_lower
和--nlp_pipeline_backend.tokenizer_to_lower
已被删除。请使用--to_lower
和--tokenizer_to_lower
。
已知问题#
如果输入文本为空,Riva 标点符号模型会添加句点。
Riva 标点符号模型假定传入文本未加标点。如果传入文本已经加标点,则标点符号模型可能会使现有标点符号加倍。
韩语和巴西葡萄牙语 Citrinet 模型在离线模式下吞吐量较低。
在 Riva ASR 中使用新的基于神经的语音活动检测器对延迟和吞吐量有不可忽略的影响。在本地测试中,观察到这些指标下降了 25%-50% 左右。
由于 Riva 使用基于 CTC 的声学模型,这些模型在训练期间不学习对齐,因此 ASR 转录中的单词时间戳可能不准确。时间戳是根据正在使用的特定声学模型的最终权重估算的。这些时间戳的准确性可能因多种变量而异,包括音频时长、音频质量和模型的准确性。
使用 TAO Toolkit 微调并在 Riva 中使用来自 管道配置 的推荐
riva-build
参数部署的 Conformer 声学模型可能导致推理时转录为空。要解决此问题,请将--nn.use_trt_fp32
参数传递给riva-build
。这将在 TAO Toolkit 的未来版本中修复。加载具有 ragged batching 支持的 FastPitch 模型会导致 Triton 服务器记录有关
CleanUnusedInitializersAndNodeArgs
的警告。这些警告可以安全地忽略。在 riva_start.sh 之后,第一次 Riva TTS 调用会导致更长的延迟,并可能抛出超时错误。后续调用将表现出正常的延迟。
将 OpenSeq2Seq 解码器与普通话 Conformer 声学模型一起使用会导致高延迟。我们建议将贪婪解码器与普通话 Conformer 声学模型一起使用。
预配置的英国英语 (en-GB) ASR 管道使用 en-US 拼写转录一些 en-GB 特定单词。例如,对于具有“oe”、“ae”、“ell”的单词,会观察到这种情况。
Riva 服务器不返回转录中每个汉字的时间戳。
使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。Riva build 不支持以
.arpa
格式提供 1-gram 语言模型。这是由于 KenLM 实用程序构建语言模型二进制文件的限制。pitch
SSML 属性不符合 SSML 规范,并且不支持Hz
、st
、%
更改。在 Jetson NX Xavier 上,德语 ASR 模型不适合 8 GB 可用 RAM。
Riva Skills Release 2.6.0#
主要特性和增强功能#
此 Riva 版本包括以下主要特性和增强功能。
所有备选方案的 ASR 单词级时间戳和置信度。这是一项实验性功能。不保证这些置信度的准确性。
所有备选方案的语句级置信度。这是一项实验性功能。不保证这些置信度的准确性。
在 ASR 中使用基于神经的语音活动检测器过滤音频中的噪声并可能减少 ASR 转录中出现的多余单词的选项。
在 Riva TTS 中添加了对 SSML emphasis 标签的支持。
模型更新
Conformer 印地语 ASR 模型的 3.0 版本现已推出。
Conformer 法语 ASR 模型的 2.1 版本现已推出。
新的修剪后的 ASR 语言模型适用于德语、英语、印地语和俄语。
新的 ITN 模型适用于法语、英语和西班牙语。
新的基于 BERT 的标点模型适用于英语和法语。
Riva TTS 英语-美国模型支持 emphasis 输出
重大更改#
以
--vad.<parameter_name>
开头的riva-build
参数必须更改为--endpointing.<parameter_name>
。riva-build
参数--vad.vad_start_history
和--vad.vad_stop_history
现在分别为--endpointing.start_history
和--endpointing.stop_history
。riva-build
选项--vad_type
现在有两个可能的值none
和neural
,用于选择 Riva ASR 中使用的声学模型前语音活动检测算法(有关更多信息,请参阅 基于神经的语音活动检测)。riva-build
选项--endpointing_type
现在有两个可能的值none
和greedy_ctc
,用于选择 Riva 中使用的声学模型后端点算法,以检测语句的开始/结束(有关更多信息,请参阅 语句的开始/结束检测)。
已修复的问题#
在 Riva Helm chart 中添加了一个选项,可以在部署前选择性地删除所有模型。这是为了解决这样一个问题:以前版本的 Riva 中的模型可能会被重用,从而在创建 Pod 时导致错误。
修复了我们的标点符号模型中的一个问题,该问题导致
riva-build
参数pad_chars_with_space
被忽略。
已弃用和删除的功能#
Tacotron 2 和 WaveGlow 将在 Riva 2.7.0 中删除。
限制#
emphasis
标签有一些限制功能支持取决于训练数据,并且仅适用于使用包含 emphasis 样本的数据训练的模型。
在单个单词周围使用标签;不要在多个单词周围使用。
"<emphasis>Hello</emphasis> <emphasis>World</emphasis>!"
有效。"<emphasis>Hello World!</emphasis>"
无效。在
emphasis
标签内不能嵌套其他 SSML 标签。该标签不支持
level
属性。
目前,不雅词语过滤器功能不支持符号语言(例如,日语、中文等)。
已知问题#
在 Riva ASR 中使用新的基于神经的语音活动检测器对延迟和吞吐量有不可忽略的影响。在本地测试中,观察到这些指标下降了 25%-50% 左右。
由于 Riva 使用基于 CTC 的声学模型,这些模型在训练期间不学习对齐,因此 ASR 转录中的单词时间戳可能不准确。时间戳是根据正在使用的特定声学模型的最终权重估算的。这些时间戳的准确性可能因多种变量而异,包括音频时长、音频质量和模型的准确性。
使用 TAO Toolkit 微调并在 Riva 中使用来自 管道配置 的推荐
riva-build
参数部署的 Conformer 声学模型可能导致推理时转录为空。要解决此问题,请将--nn.use_trt_fp32
参数传递给riva-build
。这将在 TAO Toolkit 的未来版本中修复。加载具有 ragged batching 支持的 FastPitch 模型会导致 Triton 服务器记录有关
CleanUnusedInitializersAndNodeArgs
的警告。这些警告可以安全地忽略。在 riva_start.sh 之后,第一次 Riva TTS 调用会导致更长的延迟,并可能抛出超时错误。后续调用将表现出正常的延迟。
将 OpenSeq2Seq 解码器与普通话 Conformer 声学模型一起使用会导致高延迟。我们建议将贪婪解码器与普通话 Conformer 声学模型一起使用。
预配置的英国英语 (en-GB) ASR 管道使用 en-US 拼写转录一些 en-GB 特定单词。例如,对于具有“oe”、“ae”、“ell”的单词,会观察到这种情况。
Riva 服务器不返回转录中每个汉字的时间戳。
使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。Riva build 不支持以
.arpa
格式提供 1-gram 语言模型。这是由于 KenLM 实用程序构建语言模型二进制文件的限制。pitch
SSML 属性不符合 SSML 规范,并且不支持Hz
、st
、%
更改。在 Jetson NX Xavier 上,德语 ASR 模型不适合 8 GB 可用 RAM。
Riva Release 2.5.0#
主要特性和增强功能#
此 Riva 版本包括以下主要特性和增强功能。
FastPitch 模型现在支持用于提高吞吐量的参差不齐批处理。从 Riva 2.5.0 开始,所有新导出的 FastPitch 模型都将启用参差不齐批处理功能。请注意,必须重新导出旧的 FastPitch 检查点才能启用参差不齐批处理功能。
Riva ASR 现在支持不雅词语过滤。有关更多详细信息,请参阅 不雅词语过滤器 部分。
模型更新
新的单个 TTS 英语-美国多说话人模型取代了以前的两个单说话人模型设置。
Conformer 普通话 ASR 模型的 3.0 版本现已推出。
Conformer 俄语 ASR 模型的 2.0 版本现已推出。
升级了以下 嵌入式 硬件和软件版本
重大更改#
ASR 解码器使用的
asr_model_delay
参数的默认值已从12
更改为0
。Riva 客户端和服务器 Docker 镜像现在合并为一个 Docker 镜像。
已修复的问题#
将
asr_model_delay
参数的默认值从12
更改为0
,这应有助于防止出现具有负值的单词时间戳。更改了 TTS 管道的输出
processed_text
,以匹配预处理器中的行为。当字符传递到 TTS 并且映射文件中不存在时,预处理器会在标记化之前删除此字符。同样,这些字符将从processed_text
输出中删除。修复了标点符号模型中的一个错误,该错误阻止了正确标点包含方括号的转录。
修复了一个错误,以在 Riva 服务器关闭时正确取消正在进行的 RPC。
限制#
目前,不雅词语过滤器功能不支持符号语言(例如,日语、中文等)。
已知问题#
加载具有参差不齐批处理支持的 FastPitch 模型会导致 Triton 服务器记录有关
CleanUnusedInitializersAndNodeArgs
的警告。这些可以安全地忽略。在 Jetson 平台上,在离线模式下
riva_start.sh
之后首次运行riva_tts_client
可能会抛出超时错误。这将在 Riva 的未来版本中修复。
Riva Release 2.4.0#
主要特性和增强功能#
此 Riva 版本包括以下主要特性和增强功能。
为语音合成添加了对 SSML 子标签的支持。
添加了对基于 ARM 的部署的支持。
模型更新
更新了 Conformer en-US 语音识别模型。
添加了 Conformer fr-FR、en-GB 和 zh-CN 语音识别模型。
为 fr-FR 和 hi-IN 添加了新的标点模型。
重大更改#
用于选择 ASR 管道中使用的 VAD 启发式类型的
riva-build
参数--vad.vad_type
已被--vad_type
取代。
已修复的问题#
修复了导致 ASR 单词时间戳具有极大值的问题。
已弃用和删除的功能#
以下功能已被弃用。
Tacotron 2 和 WaveGlow TTS 管道现已弃用,将在未来版本的 Riva 中删除。请考虑切换到 FastPitch 和 HiFi-GAN 管道,该管道速度更快、更稳健,并且具有与 Tacotron 2 和 WaveGlow TTS 管道相似的质量。
已知问题#
法语标点模型有时会省略标点符号。改进的标点模型将在下一个版本中提供。
对于某些音频文件和 ASR 模型,ASR 转录中的单词时间戳可能不准确。
将 OpenSeq2Seq 解码器与普通话 Conformer 声学模型一起使用会导致高延迟。这将在未来版本的 Riva 中修复。在此之前,我们建议在使用普通话 Conformer 声学模型时使用贪婪解码器。
在 Jetson Xavier NX 上,由于使用了大型语言模型,快速入门脚本中预配置的印地语 ASR 管道不适合 8 GB 可用 RAM。这将在未来版本的 Riva 中修复。
预配置的英国英语 (en-GB) ASR 管道使用 en-US 拼写转录一些 en-GB 特定的单词。例如,对于具有“oe”、“ae”、“ell”的单词观察到这种情况。这将在未来版本的 Riva 中修复。
Riva Release 2.3.0#
主要特性和增强功能#
此 Riva 版本包括以下主要特性和增强功能。
添加了对
<prosody>
SSML 标签的volume
属性的支持,以控制合成语音的音量。为了使用此标签,必须从.nemo
或.tao
文件重建 FastPitch.riva
文件。
已弃用和删除的功能#
以下功能已被弃用。
Tacotron 2 和 WaveGlow TTS 管道将在未来版本的 Riva 中弃用。请考虑切换到 FastPitch 和 HiFi-GAN 管道,该管道速度更快、更稳健,并且具有与 Tacotron 2 和 WaveGlow TTS 管道相似的质量。
Riva Release 2.2.1#
已修复的问题#
修复了语音合成服务中的吞吐量性能回归。
在离线语音识别模式下,在 WordInfo 对象中返回正确标点的单词。
当在语音识别中进行单词提升时,如果请求的单词无法提升,则返回警告而不是错误。
Riva Release 2.2.0#
重要提示
我们建议使用 Riva 2.2.1 (22.05.1) 版本而不是 v2.2.0 版本。
主要特性和增强功能#
此 Riva 版本包括以下主要特性和增强功能。
Riva 支持 NVIDIA Jetson Orin 平台。
标点模型支持任意序列长度,不再截断输入。
添加了在多个 ASR 管道之间共享特征提取器的选项。
模型更新
添加了新的印地语语音识别模型 (Conformer)。
改进了普通话语言模型。
添加了普通话标点符号支持。
重大更改#
在 intent_slot 管道中,删除了
--contextual
命令行选项。contextual
模式行为仍受 Riva 客户端 API 和使用contextual
模型配置属性的 ServiceMaker 支持。默认值为false
。
已修复的问题#
修复了 TTS 中
pitch
和rate
属性未在指定位置应用的问题。修复了读取非标准 wav 标头的问题,该问题可能会导致返回第一个结果的延迟略有增加。
修复了语音识别请求配置中不正确要求的
channel_count
。修复了在为禁用文本规范化的新语言部署 TTS 时可能发生的崩溃。
已知问题#
当输入文本中存在英文单词时,普通话标点模型会裁剪输出。
与其他语言相比,普通话标点模型的准确率较低。这将在未来版本的 Riva 中得到改进。
Riva 服务器目前不会为转录中的每个普通话字符返回时间戳。这将在未来版本的 Riva 中得到修复。
在 Jetson Xavier NX 上,德语 ASR 模型无法装入可用的 8 GB RAM 中。
Riva Release 2.1.0#
主要特性和增强功能#
此 Riva 版本包括以下主要特性和增强功能。
在
riva-build
过程中添加了文本规范化选项。有关更多信息,请参阅 TTS Pipeline Configuration 部分。添加了多个教程。
重大更改#
移除了以下与 TTS 中的文本规范化相关的环境变量:
NORM_PROTO_CONFIG
和NORM_PROTO_PATH
。在以前的版本中,如果未指定文本规范化,则 TTS 默认使用文本规范化。现在,如果未指定文本规范化,则不会执行文本规范化。
Riva Release 2.0.0#
主要特性和增强功能#
此 Riva 版本包括以下主要特性和增强功能。
Riva 支持 Linux ARM64 平台,即 NVIDIA Jetson AGX Xavier™ 和 NVIDIA Jetson NX Xavier,在整个文档中统称为嵌入式平台。
Riva 提供了两个新的预训练 TTS 声音,可以通过快速入门脚本轻松部署。
音素 SSML 标签支持手动覆盖发音。
支持与 Riva 服务器的 SSL/TLS 连接。
有一个新选项可以为词典中的单词生成额外的分词(这是一项实验性功能,可能会提高识别准确率)。
逆文本规范化语法必须在
riva-build
阶段提供,以允许自定义逆文本规范化。能够添加选择加入 API 密钥,以便将遥测数据发送回 NVIDIA。
重大更改#
所有旧版 Jarvis API 已被移除,不再受支持。
来自 Riva TTS 服务的音频波形的返回类型现在为
int16
,以便与 Riva 当前支持的线性 PCM 波形格式兼容。
已修复问题#
修复了 ServiceMaker 中的一个问题,该问题导致使用最新 NeMo 版本生成的标点和大小写模型产生不准确的结果。
修复了使用单词增强时可能导致崩溃的问题。
已知问题#
如果在
riva-deploy
阶段使用较大的块大小,则离线识别的 Citrinet 模型部署可能会失败。为了解决此问题,我们建议在将.nemo
模型转换为.riva
时,将参数max-dim=100000
传递给nemo2riva
。这将允许在riva-deploy
阶段使用最大 900 秒的块大小。在嵌入式平台上,
asr-python-basics
和asr-python-boosting
Jupyter 笔记本中的 ASR 示例默认情况下不起作用,因为它们调用了离线识别 API,而嵌入式平台默认情况下未启用离线 ASR 模型。要使这些示例正常工作,您需要部署离线 ASR 模型或修改示例以使用流式识别 API。使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。
Riva Release 1.10.0 Beta#
这是一个 Beta 版本。发布说明中发布的所有功能都经过了全面测试和验证,并记录了已知限制。要分享有关此版本的反馈,请访问我们的 NVIDIA Riva 开发者论坛。
注意
从以前版本升级到 1.10.0 Beta 的用户必须为现有模型重新运行 riva-build
。使用快速入门工具的用户应运行 riva_clean.sh
,然后运行 riva_init.sh
。
主要特性和增强功能#
此 Riva 版本包括以下主要特性和增强功能。
Riva 1.10.0 beta 现在使用 Triton 2.19.0 和 TensorRT 8.2
Riva TTS 的 G2P 管道的默认行为已更改。具有多个语音表示形式的单词现在默认使用字素。这样做是为了匹配默认的 NeMo 训练行为。要恢复到旧行为,请将
--preprocessor.g2p_ignore_ambiguous=False
添加到riva-build
。Riva 支持在请求时进行 ASR 单词增强。此功能允许您提供一个单词列表,这些单词在解码声学模型的输出时应获得更高的分数。有关如何将增强单词包含在 ASR 请求中的更多信息,请参阅 gRPC ASR protobuf 文件 (riva/proto/riva_asr.proto)。
已修复问题#
修复了从 NeMo 1.5+ 导出的声学模型错误地在转录中包含空格的问题。
修复了
nemo2riva
中的一个问题,该问题阻止转换来自 NeMo 版本低于 1.3.0 的模型。修复了当 TTS 模型使用混合表示输入进行训练时可能导致语音节奏不规则的问题。
修复了当服务器负载过重时可能导致转录不正确的问题。
已知问题#
Riva Speech Samples 镜像
nvcr.io/nvidia/riva/riva-speech-client:1.10.0-beta-samples
不存在。请改用nvcr.io/nvidia/riva/riva-speech-client:1.8.0-beta-samples
。Riva 中的 ASR 单词增强功能目前不支持增强短语或单词组合。这将在未来版本的 Riva 中得到支持。
nemo2riva
和riva-build
目前对于较新的 WaveGlow NeMo TTS 检查点已损坏。作为一种解决方法,请改用此WaveGlow.riva
文件:https://catalog.ngc.nvidia.com/orgs/nvidia/teams/tao/models/speechsynthesis_waveglow/files。
Riva Release 1.9.0 Beta#
这是一个 Beta 版本。发布说明中发布的所有功能都经过了全面测试和验证,并记录了已知限制。要分享有关此版本的反馈,请访问我们的 NVIDIA Riva 开发者论坛。
注意
从以前版本升级到 1.9.0 Beta 的用户必须为现有模型重新运行 riva-build
。使用快速入门工具的用户应运行 riva_clean.sh
,然后运行 riva_init.sh
。
主要特性和增强功能#
此 Riva 版本包括以下主要特性和增强功能。
改进了自动语音识别 (ASR) 西班牙语 (es-US) 和德语 (de-DE) 语言模型的自定义。
rate
SSML 属性支持x-low
、low
、medium
、high
、x-high
和default
。pitch
SSML 属性支持x-low
、low
、medium
、high
、x-high
和default
。
已知问题#
用于向 ASR 转录添加标点和大小写的预训练模型支持的最大输入长度为 128 个 token。目前,如果将包含超过 128 个 token 的 ASR 转录传递给标点和大小写模型,它将被截断为 128 个 token。这将在未来版本的 Riva 中得到解决。
pitch
SSML 属性目前不符合 SSML 规范,并且不支持Hz
、st
、%
更改。使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。
Riva Release 1.8.0 Beta#
这是一个 Beta 版本。发布说明中发布的所有功能都经过了全面测试和验证,并记录了已知限制。要分享有关此版本的反馈,请访问我们的 NVIDIA Riva 开发者论坛。
注意
从以前版本升级到 1.8.0 Beta 的用户必须为现有模型重新运行 riva-build
。使用快速入门工具的用户应运行 riva_clean.sh
,然后运行 riva_init.sh
。
主要特性和增强功能#
此 Riva 版本包括以下主要特性和增强功能。
发布了用于德语 (de-DE)、俄语 (ru-RU) 和西班牙语 (es-US) 语音识别的新预训练模型。
提高了英语 (en-US) 语音识别模型的识别准确率。
在 TTS API 中引入了对语音合成标记语言 (SSML) 的部分支持。已添加对
<prosody>
标记的pitch
和rate
属性的支持,以控制合成语音的音调和持续时间。计划在未来的版本中增加对 SSML 的支持。向语音识别 API 添加了单词增强支持,以偏向 ASR 引擎在请求时识别特定的感兴趣单词。此版本仅限于增强词汇表中的单词;词汇表外的单词增强将在即将发布的版本中提供。
在线模式下 ASR 推理速度的 minor 改进。
提高了离线 ASR 识别准确率。
增加了对自动语音识别 (ASR) Conformer-CTC 模型 的支持。Conformer-CTC 模型是 Conformer 模型 的非自回归变体,用于 ASR,它使用 CTC 损失/解码而不是 Transducer。
已修复问题#
修复了 TTS 管道中的一个问题,该问题有时会在话语结束时导致可听见的“pop”声。
已知问题#
用于向 ASR 转录添加标点和大小写的预训练模型支持的最大输入长度为 128 个 token。目前,如果将包含超过 128 个 token 的 ASR 转录传递给标点和大小写模型,它将被截断为 128 个 token。这将在未来版本的 Riva 中得到解决。
rate
SSML 属性不支持x-low
、low
、medium
、high
、x-high
或default
。pitch
SSML 属性目前不符合 SSML 规范,并且不支持Hz
、st
、%
更改,也不支持x-low
、low
、medium
、high
、x-high
或default
。使用
riva-deploy
部署离线 ASR 模型时,日志中可能会出现 TensorRT 警告,指示格式转换的内存需求无法满足。这些警告不应影响功能,可以忽略。
Riva Release 1.7.0 Beta#
这是一个 Beta 版本。发布说明中发布的所有功能都经过了全面测试和验证,并记录了已知限制。要分享有关此版本的反馈,请访问我们的 NVIDIA Riva 开发者论坛。
注意
从以前版本升级到 1.7.0 Beta 的用户必须为现有模型重新运行 riva-build
。使用快速入门工具的用户应运行 riva_clean.sh
,然后运行 riva_init.sh
。
主要特性和增强功能#
此 Riva 版本包括以下主要特性和增强功能。
增加了对 NVIDIA TAO Toolkit 21.11 训练的模型的支持。
Riva 流式 TTS 现在支持重采样(如有必要),以匹配请求的音频采样率。
默认 Riva 英语 ASR 模型已更新,具有更高的准确率。
英语文本规范化和逆文本规范化模型中的 minor 改进。
增大了最大消息大小,以支持离线 ASR 中更大的音频输入。
已修复问题#
修复了可能导致 TTS 服务生成的合成音频过早截断的 minor 问题。
修复了与 TTS 的文本规范化错误处理自定义发音相关的问题。
已知问题#
当使用 EFF 版本 0.5.2 运行
nemo2riva
包时,会打印一个被忽略的异常警告。这不应影响生成的.riva
模型的功能。这将在未来版本的 EFF 中得到解决。在 ASR 管道执行期间,除非有 10 位数字,否则逆文本规范化不会将数字转换为数字 (one->1)。此限制将在未来版本的 Riva 中得到解决。
标点管道不支持 Unicode 字符输入。这将在下一个版本中修复。
Riva Release 1.6.0 Beta#
这是一个 Beta 版本。发布说明中发布的所有功能都经过了全面测试和验证,并记录了已知限制。要分享有关此版本的反馈,请访问我们的 NVIDIA Riva 开发者论坛。
注意
从以前版本升级到 1.6.0 Beta 的用户必须为现有模型重新运行 riva-build
。使用快速入门工具的用户应运行 riva_clean.sh
,然后运行 riva_init.sh
。
主要特性和增强功能#
此 Riva 版本包括以下主要特性和增强功能。
Riva TTS 服务不再受 400 个字符长的输入字符串的限制。
更新了文档的性能页面,以包含 Citrinet、FastPitch 和 HiFi-GAN 模型的性能
已修复问题#
修复了可能导致 TTS 服务生成的合成音频过早截断的 minor 问题。
已知问题#
Riva build 不支持以
.arpa
格式提供 1-gram 语言模型。这是由于 KenLM 实用程序构建语言模型二进制文件的限制。当使用从 NeMo > Riva > RMIR > TensorRT 路径生成的 TensorRT 文件时,NLP 问答功能可能会导致分段错误。这将在未来版本中得到解决。
Riva Release 1.5.0 Beta#
这是一个 Beta 版本。发布说明中发布的所有功能都经过了全面测试和验证,并记录了已知限制。要分享有关此版本的反馈,请访问我们的 NVIDIA Riva 开发者论坛。
注意
从以前版本升级到 1.5.0 Beta 的用户必须为现有模型重新运行 riva-build
。使用快速入门工具的用户应运行 riva_clean.sh
,然后运行 riva_init.sh
。
主要特性和增强功能#
此 Riva 版本包括以下主要特性和增强功能。
TAO Toolkit 已添加对训练用于 ASR 的 n-gram 语言模型的支持。Riva 完全支持这些语言模型。
FastPitch 现在利用 Tensor Core 来提高推理性能。
当尝试转换不受支持的模型时,
nemo2riva
现在会发出警告。对英语的文本规范化/逆文本规范化中的其他情况进行了 minor 增强。
已修复问题#
修复了某些 NGC 客户端版本的快速入门失败问题。
修复了可能导致 TTS 生成的音频中出现偶尔的伪影或质量降低的 minor 问题。
消除了
riva-build
过程中的误导性错误消息。
公告#
NVIDIA Transfer Learning Toolkit (TLT) 已重命名为 NVIDIA TAO Toolkit,从 1.5.0-beta 版本开始。
已知问题#
当使用从 NeMo > Riva > RMIR > TensorRT 路径生成的 TensorRT 文件时,NLP 问答功能可能会导致分段错误。这将在未来版本中得到解决。
Riva Release 1.4.0 Beta#
这是一个 Beta 版本。发布说明中发布的所有功能都经过了全面测试和验证,并记录了已知限制。要分享有关此版本的反馈,请访问我们的 NVIDIA Riva 开发者论坛。
注意
从以前版本升级到 1.4.0 Beta 的用户必须为现有模型重新运行 riva-build
。使用快速入门工具的用户应运行 riva_clean.sh
,然后运行 riva_init.sh
。
已修复问题#
对 ASR 和 TTS 服务进行了 minor 稳定性改进。
在
nlp_classify_tokens
示例客户端中公开了model_name
参数。修复了 ASR 语言模型超参数调整工具的问题。
公告#
Jarvis 框架已重命名为 Riva,从 1.4.0-beta 版本开始。Jarvis Speech Skills 已重命名为 Riva。文档、脚本和命令已相应更新。
Riva API 支持 Jarvis API,但自此版本开始已弃用。它将在未来的版本中被移除。旧的 Jarvis 客户端预计可以与此版本的 Riva 一起按原样工作,但是,用户需要在 Jarvis API 移除后迁移到 Riva API。
Riva API 修改了以下服务名称
JarvisASR -> RivaSpeechRecognition
JarvisNLP -> RivaLanguageUnderstanding
JarvisCoreNLP -> RivaLanguageUnderstanding
JarvisTTS -> RivaSpeechSynthesis
jarvis-build
和jarvis-deploy
命令已替换为等效的riva-build
和riva-deploy
命令。
riva-build
命令的 ASR 管道参数已更改。--lm_decoder_cpu
参数已弃用。将--lm_decoder_cpu.decoder_type=<decoder_type>
替换为--decoder_type=<decoder_type>
,并将--lm_decoder_cpu.<param_name>=<param_value>
替换为--<decoder_type>_decoder.<param_name>=<param_value>
。例如,不要使用--lm_decoder_cpu.decoder_type=greedy --lm_decoder_cpu.asr_model_delay=-1
,而应使用--decoder_type=greedy --greedy_decoder.asr_model_delay=-1
。必须通过使用
--decoder_type=<decoder_type>
显式设置要使用的解码器类型,其中<decoder_type>
必须是greedy
、os2s
、flashlight
或kaldi
之一。
有关与不同声学模型一起使用的示例
riva-build
命令,请参阅 ASR Pipeline Configuration。
Riva Release 1.3.0 Beta#
这是一个 Beta 版本。发布说明中发布的所有功能都经过了全面测试和验证,并记录了已知限制。要分享有关此版本的反馈,请访问我们的 NVIDIA Riva 开发者论坛。
注意
从以前版本升级到 1.3.0 Beta 的用户必须为现有模型重新运行 jarvis-build
。使用快速入门工具的用户应运行 jarvis_clean.sh
,然后运行 jarvis_init.sh
。