gRPC & Protocol Buffers
目录
gRPC & Protocol Buffers#
riva/proto/riva_asr.proto#
-
service RivaSpeechRecognition#
RivaSpeechRecognition 服务提供了两种将语音转换为文本的机制。
- rpc RecognizeResponse Recognize(RecognizeRequest)
Recognize 期望一个 RecognizeRequest 并返回一个 RecognizeResponse。此请求将阻塞,直到音频上传、处理并返回转录文本。
- rpc stream StreamingRecognizeResponse StreamingRecognize(stream StreamingRecognizeRequest)
StreamingRecognize 是一个非阻塞 API 调用,允许音频数据以块的形式馈送到服务器,并在数据可用时进行处理。根据 StreamingRecognizeRequest 中的配置,可以将中间结果发送回客户端。当客户端关闭流时,识别结束。
- rpc RivaSpeechRecognitionConfigResponse GetRivaSpeechRecognitionConfig(RivaSpeechRecognitionConfigRequest)
使客户端能够请求当前 ASR 服务的配置,或服务中特定模型的配置。
-
message EndpointingConfig#
EndpointingConfig 用于配置与话语开始或结束相关的不同字段
-
int32 start_history#
start_history 是窗口的大小,以毫秒为单位,用于检测话语的开始。start_threshold 是用于检测话语开始的百分比阈值。(0.0 到 1.0)如果声学模型输出的 start_history 毫秒中有 start_threshold 的非空白标记,则检测到话语的开始。
可选
-
float start_threshold#
可选
-
int32 stop_history#
stop_history 是窗口的大小,以毫秒为单位,用于检测话语的结束。stop_threshold 是用于检测话语结束的百分比阈值。(0.0 到 1.0)如果声学模型输出的 stop_history 毫秒中有 stop_threshold 的非空白标记,则检测到话语的结束,并且解码器将重置。
可选
-
float stop_threshold#
可选
-
int32 stop_history_eou#
stop_history_eou 和 stop_threshold_eou 用于 2 次传递的话语结束。stop_history_eou 是窗口的大小,以毫秒为单位,用于触发话语结束的第一次传递,并生成稳定性为 1 的部分转录文本。(stop_history_eou < stop_history)stop_threshold_eou 是用于触发话语结束的第一次传递的百分比阈值。(0.0 到 1.0)如果声学模型输出的 stop_history_eou 毫秒中有 stop_threshold_eou 的非空白标记,则触发话语结束的第一次传递。
可选
-
float stop_threshold_eou#
可选
-
int32 start_history#
-
message RecognitionConfig#
向识别器提供信息,指定如何处理请求
- nvidia.riva.AudioEncoding encoding
请求中发送的音频数据的编码。
所有编码仅支持 1 声道(单声道)音频。
-
int32 sample_rate_hertz#
在 RecognizeRequest 或 StreamingRecognizeRequest 消息中发送的音频数据的采样率,单位为赫兹 (Hz)。Riva 服务器将自动对音频进行降采样/升采样,以匹配 ASR 声学模型的采样率。低于 8kHz 的采样率值不会产生任何有意义的输出。
-
string language_code#
必需。提供的音频的语言,以 [BCP-47](https://www.rfc-editor.org/rfc/bcp/bcp47.txt) 语言标签表示。示例:“en-US”。
-
int32 max_alternatives#
要返回的最大识别假设数。具体来说,是每个 SpeechRecognitionResult 中 SpeechRecognitionAlternative 消息的最大数量。服务器可能会返回少于 max_alternatives 的数量。如果省略,则最多返回一个。
-
bool profanity_filter#
一个自定义字段,用于为生成的转录文本启用不当内容过滤。如果设置为“true”,服务器将过滤掉不当内容,并将每个过滤词中除首字母以外的所有字符替换为星号。例如,“x**”。如果设置为 false 或省略,则不会过滤掉不当内容。默认值为 false。
-
SpeechContext speech_contexts(repeated)#
SpeechContext 数组。一种提供上下文以辅助语音识别的方法。有关更多信息,请参阅 SpeechContext 部分
-
int32 audio_channel_count#
输入音频数据中的声道数。如果为 0 或省略,则默认为单声道。注意:目前仅支持单声道音频输入。
-
bool enable_word_time_offsets#
如果为 true,则最佳结果包括单词列表以及开始和结束时间偏移(时间戳)以及这些单词的置信度分数。如果为 false,则不返回单词级时间偏移信息。默认值为 false。
-
bool enable_automatic_punctuation#
如果为“true”,则向识别结果假设添加标点符号。默认值“false”不会向结果假设添加标点符号。
-
bool enable_separate_recognition_per_channel#
需要显式设置为 true 且 audio_channel_count > 1 才能分别识别每个声道。识别结果将包含一个 channel_tag 字段,以说明该结果属于哪个声道。如果不是 true,我们将仅识别第一个声道。该请求将针对所有识别的声道进行累积计费:audio_channel_count 乘以音频的长度。注意:尚不支持此字段。
-
string model#
为给定请求选择哪个模型。如果为空,Riva 将根据其他 RecognitionConfig 参数选择正确的模型。该模型应与使用 –name 参数传递给 riva-build 的名称相对应
-
bool verbatim_transcripts#
verbatim_transcripts 标志启用或禁用逆文本规范化。“true”返回所说的内容,不进行反规范化。“false”应用逆文本规范化,这也是默认设置
-
SpeakerDiarizationConfig diarization_config#
用于启用说话人分离并设置其他参数的配置。对于非流式请求,分离结果将仅在 FINAL SpeechRecognitionResult 的最佳候选项中提供。
- RecognitionConfig.CustomConfigurationEntry custom_configuration (repeated)
用于将请求级配置选项传递给模型管道中使用的插件的自定义字段。
-
EndpointingConfig endpointing_config#
用于调整话语开始或结束参数的配置。如果为空,Riva 将使用默认值,或者如果在 riva-build 参数中指定了自定义值,则使用自定义值。
可选
-
message RecognizeRequest#
RecognizeRequest 用于单个录音的批量处理。
-
RecognitionConfig config#
向识别器提供信息,指定如何处理请求。
-
bytes audio#
要处理的原始音频数据。音频字节必须按照 RecognitionConfig 中的指定进行编码。
- nvidia.riva.RequestId id
要与请求关联的 ID。如果提供,则将在相应的响应中返回。
-
RecognitionConfig config#
-
message RecognizeResponse#
客户端通过 Recognize 方法返回的唯一消息。它包含结果,形式为零个或多个顺序 SpeechRecognitionResult 消息。
-
SpeechRecognitionResult results(repeated)#
与音频的顺序部分对应的转录结果的顺序列表。目前仅返回一个转录文本。
- nvidia.riva.RequestId id
与请求关联的 ID
-
SpeechRecognitionResult results(repeated)#
-
message RivaSpeechRecognitionConfigResponse#
- RivaSpeechRecognitionConfigResponse.Config model_config (repeated)
- message RivaSpeechRecognitionConfigResponse.Config
-
string model_name#
- RivaSpeechRecognitionConfigResponse.Config.ParametersEntry parameters (repeated)
-
string model_name#
- message RivaSpeechRecognitionConfigResponse.Config.ParametersEntry
-
string key
-
string value
-
string key
-
message SpeakerDiarizationConfig#
用于启用说话人分离的配置。
-
bool enable_speaker_diarization#
如果为“true”,则使用 WordInfo 中提供的 speaker_tag,为识别结果的最佳候选项中的每个识别单词启用说话人检测。
-
int32 max_speaker_count#
对话中的最大说话人数。这通过允许系统自动确定正确的说话人数来提供灵活性。如果未设置,则默认值为 8。
-
bool enable_speaker_diarization#
-
message SpeechContext#
向语音识别器提供“提示”,以在结果中偏向特定单词和短语。
-
string phrases(repeated)#
包含单词和短语“提示”的字符串列表,以便语音识别更可能识别它们。这可以用于提高特定单词和短语的准确性,例如,如果用户通常会说出特定命令。这也可以用于向识别器的词汇表添加额外的单词。
-
float boost#
提示增强。正值将增加识别特定短语而不是其他类似发音短语的概率。增强值越高,误报识别的可能性也越高。虽然 boost 可以接受范围广泛的正值,但大多数用例最好使用 0 到 20 之间的值。我们建议使用二分搜索方法来找到适合您用例的最佳值。
-
string phrases(repeated)#
-
message SpeechRecognitionAlternative#
备选假设(又名 n-best 列表)。
-
string transcript#
表示用户所说单词的转录文本。
-
float confidence#
置信度估计。数字越大表示识别的单词正确的可能性越高。此字段仅针对非流式结果或 is_final=true 的流式结果设置。不保证此字段始终准确,用户不应依赖它始终被提供。虽然置信度目前可以粗略地解释为自然对数概率,但估计计算随不同的配置而变化,并且可能会发生变化。默认值 0.0 是一个 sentinel 值,表示未设置置信度。
-
string transcript#
-
message SpeechRecognitionResult#
与最新转录文本对应的语音识别结果
-
SpeechRecognitionAlternative alternatives(repeated)#
可能包含一个或多个识别假设(最多为 max_alternatives 中指定的数量)。这些候选项按准确度排序,其中最佳(第一个)候选项是识别器认为最有可能的。
-
int32 channel_tag#
对于多声道音频,这是与来自该声道的音频的识别结果相对应的声道号。对于 audio_channel_count = N,其输出值范围可以从“1”到“N”。
-
float audio_processed#
到目前为止处理的音频长度,以秒为单位
-
SpeechRecognitionAlternative alternatives(repeated)#
-
message StreamingRecognitionConfig#
向识别器提供信息,指定如何处理请求
-
RecognitionConfig config#
向识别器提供信息,指定如何处理请求
-
bool interim_results#
如果为 true,则可以返回临时结果(试探性假设),因为它们会变为可用(这些临时结果用 is_final=false 标志指示)。如果为 false 或省略,则仅返回 is_final=true 结果。
-
RecognitionConfig config#
-
message StreamingRecognitionResult#
对应于当前正在处理的音频部分的流式语音识别结果。
-
SpeechRecognitionAlternative alternatives(repeated)#
可能包含一个或多个识别假设(最多为 max_alternatives 中指定的数量)。这些候选项按准确度排序,其中最佳(第一个)候选项是识别器认为最有可能的。
-
bool is_final#
如果为 false,则此 StreamingRecognitionResult 表示可能会更改的临时结果。 如果为 true,则表示语音服务最后一次返回此特定的 StreamingRecognitionResult,识别器将不会为此部分的文本和相应的音频返回任何进一步的假设。
-
float stability#
估计识别器不会更改其对该临时结果的猜测的可能性。值的范围从 0.0(完全不稳定)到 1.0(完全稳定)。此字段仅针对临时结果提供(is_final=false)。默认值 0.0 是一个哨兵值,表示未设置 stability。
-
int32 channel_tag#
对于多声道音频,这是与来自该声道的音频的识别结果相对应的声道号。对于 audio_channel_count = N,其输出值范围可以从“1”到“N”。
-
float audio_processed#
到目前为止处理的音频长度,以秒为单位
-
PipelineStates pipeline_states#
管道状态的消息
可选
-
SpeechRecognitionAlternative alternatives(repeated)#
-
message StreamingRecognizeRequest#
StreamingRecognizeRequest 用于配置音频内容并将其流式传输到 Riva ASR 服务。 发送的第一条消息必须仅包含 StreamingRecognitionConfig。 流中发送的后续消息必须仅包含要识别的音频的原始字节。
-
StreamingRecognitionConfig streaming_config#
向识别器提供信息,指定如何处理请求。 第一个 StreamingRecognizeRequest 消息必须包含 streaming_config 消息。
-
bytes audio_content#
要识别的音频数据。 音频数据的顺序块在顺序 StreamingRecognizeRequest 消息中发送。 第一个 StreamingRecognizeRequest 消息不得包含 audio 数据,所有后续 StreamingRecognizeRequest 消息都必须包含 audio 数据。 音频字节必须按照 RecognitionConfig 中的规定进行编码。
- nvidia.riva.RequestId id
要与请求关联的 ID。 如果提供,则将在相应的响应中返回此 ID。
-
StreamingRecognitionConfig streaming_config#
-
message StreamingRecognizeResponse#
-
StreamingRecognitionResult results(repeated)#
此重复列表包含对应于当前正在处理的音频的最新文本记录。 目前返回一个结果,其中每个结果可以有多个备选项
- nvidia.riva.RequestId id
与请求关联的 ID
-
StreamingRecognitionResult results(repeated)#
-
message WordInfo#
已识别单词的特定于单词的信息。
-
int32 start_time#
相对于音频开始的时间偏移(以毫秒为单位),对应于口语单词的开始。 仅当 enable_word_time_offsets=true 且仅在最佳假设中设置此字段。
-
int32 end_time#
相对于音频开始的时间偏移(以毫秒为单位),对应于口语单词的结束。 仅当 enable_word_time_offsets=true 且仅在最佳假设中设置此字段。
-
string word#
对应于此组信息的单词。
-
float confidence#
置信度估计。数字越大表示识别的单词正确的可能性越高。此字段仅针对非流式结果或 is_final=true 的流式结果设置。不保证此字段始终准确,用户不应依赖它始终被提供。虽然置信度目前可以粗略地解释为自然对数概率,但估计计算随不同的配置而变化,并且可能会发生变化。默认值 0.0 是一个 sentinel 值,表示未设置置信度。
-
int32 speaker_tag#
仅输出。 为音频中的每个说话人分配一个不同的整数值。 此字段指定检测到哪个说话人说了这个词。 值范围为“1”到 diarization_speaker_count。 如果 enable_speaker_diarization = “true” 并且仅在最佳备选项中设置 speaker_tag。
-
int32 start_time#
riva/proto/riva_nlp.proto#
-
service RivaLanguageUnderstanding#
- rpc TextClassResponse ClassifyText(TextClassRequest)
ClassifyText 接受输入/查询字符串以及与请求的模型相关的参数,以用于评估文本。 该服务使用请求的模型评估文本,并返回一个或多个分类。
- rpc TokenClassResponse ClassifyTokens(TokenClassRequest)
ClassifyTokens 接受字符串或标记列表以及与要使用的模型相关的参数作为输入。 该服务使用请求的模型评估文本,并在必要时执行额外的标记化,并为每个标记返回一个或多个类标签。
- rpc TextTransformResponse TransformText(TextTransformRequest)
TransformText 接受输入/查询字符串以及与请求的模型相关的参数,并返回另一个字符串。 该函数的行为完全由底层模型定义,可用于翻译、添加标点符号、直接增强输入等任务。
- rpc TokenClassResponse AnalyzeEntities(AnalyzeEntitiesRequest)
AnalyzeEntities 接受输入字符串并返回文本中所有命名实体,以及类别和可能性。
- rpc AnalyzeIntentResponse AnalyzeIntent(AnalyzeIntentRequest)
AnalyzeIntent 接受输入字符串并返回最可能的意图以及与该意图相关的槽。
该模型要求传入有效的“domain”,并可以选择性地支持包含先前的意图分类结果,以便为模型提供上下文。
- rpc TextTransformResponse PunctuateText(TextTransformRequest)
PunctuateText 接受没有或有限标点符号的文本,并返回具有更正的标点符号和大小写的相同文本。
- rpc NaturalQueryResponse NaturalQuery(NaturalQueryRequest)
NaturalQuery 是一种搜索功能,可以使用自然语言编写的查询来查询一个或多个文档或上下文。
- rpc RivaNLPConfigResponse GetRivaNLPConfig(RivaNLPConfigRequest)
使客户端能够请求当前 ASR 服务的配置,或服务中特定模型的配置。
-
message AnalyzeEntitiesOptions#
AnalyzeEntitiesOptions 是一个可选的配置消息,作为 AnalyzeEntitiesRequest 的一部分发送,带有查询元数据
-
string lang#
-
string lang#
已弃用。 可选的语言字段。 如果未指定,则假定为“en-US”。
已弃用。 用于分析意图和槽的字符串
- AnalyzeEntitiesOptions options#
已弃用。 请求的可选配置,包括提供来自先前轮次的上下文和硬编码域/语言
- nvidia.riva.RequestId id
已弃用。 要与请求关联的 ID。 如果提供,则将在相应的响应中返回此 ID。
-
message AnalyzeIntentContext#
AnalyzeIntentContext 保留供将来使用,届时我们可能会以各种不同的格式(包括原始神经网络隐藏状态)发回上下文
保留供将来使用
-
message AnalyzeIntentOptions#
AnalyzeIntentOptions 是一个可选的配置消息,作为 AnalyzeIntentRequest 的一部分发送,带有查询元数据
-
string previous_intent#
-
string previous_intent#
已弃用。
- AnalyzeIntentContext vectors#
已弃用。
- string domain#
已弃用。 可选的域字段。 域必须受支持,否则将返回错误。 如果留空,则将首先运行域检测器,然后将查询路由到相应的意图分类器(如果存在)
- string lang#
已弃用。 可选的语言字段。 如果未指定,则假定为“en-US”。
已弃用。 用于分析意图和槽的字符串
- AnalyzeIntentOptions options
已弃用。 请求的可选配置,包括提供来自先前轮次的上下文和硬编码域/语言
- nvidia.riva.RequestId id
已弃用。 要与请求关联的 ID。 如果提供,则将在相应的响应中返回此 ID。
-
message AnalyzeIntentResponse#
AnalyzeIntentResponse 由 AnalyzeIntent 服务返回,并且包含与查询意图、(可选)槽数据及其域相关的信息。
-
Classification intent#
-
Classification intent#
已弃用。 意图分类结果,包括标签和分数
- TokenClassValue slots(repeated)#
已弃用。 显式标记为填充与意图相关的槽的标记列表,其中标记可能与输入不完全匹配(基于标记化后重新组合的值)
- string domain_str#
已弃用。 如果请求中未硬编码域,则返回查询的推断域。 在域在 AnalyzeIntentRequest 中硬编码的情况下,返回的域与请求完全匹配。 在没有域与查询匹配的情况下,意图和槽将未设置。
已弃用,请使用 Classification 域字段。
- Classification domain
已弃用。 如果请求中未硬编码域,则返回查询的推断域。 在域在 AnalyzeIntentRequest 中硬编码的情况下,返回的域与请求完全匹配。 在没有域与查询匹配的情况下,意图和槽将未设置。
- nvidia.riva.RequestId id
已弃用。 与请求关联的 ID
已弃用。
- float score#
已弃用。
-
message ClassificationResult#
ClassificationResults 包含零个或多个 Classification 消息。如果 Classification 的数量 > 1,则必须已指定 top_n > 1。
-
Classification labels(repeated)#
-
Classification labels(repeated)#
已弃用。
-
message NLPModelParams#
NLPModelParams 是核心 NLP 服务使用的每个请求消息中包含的元数据消息,用于指定模型特征/要求
-
string model_name#
要使用的请求模型。 如果指定,则优先于 language_code。
-
string language_code#
将提供的文本的语言指定为 [BCP-47](https://www.rfc-editor.org/rfc/bcp/bcp47.txt) 语言标签。 如果未设置,则默认为“en-US”。
-
string model_name#
已弃用。 自然语言查询
- uint32 top_n#
已弃用。 为查询返回的最大答案数。 如果未设置,则默认为 1。
- string context#
已弃用。 要使用上述查询搜索的上下文
- nvidia.riva.RequestId id
已弃用。 要与请求关联的 ID。 如果提供,则将在相应的响应中返回此 ID。
-
message NaturalQueryResponse#
-
NaturalQueryResult results(repeated)#
-
NaturalQueryResult results(repeated)#
已弃用。
- nvidia.riva.RequestId id
已弃用。 与请求关联的 ID
已弃用。 回答查询的文本
- float score
已弃用。 表示结果置信度的分数
-
message RivaNLPConfigResponse#
- RivaNLPConfigResponse.Config model_config (repeated)
- message RivaNLPConfigResponse.Config
-
string model_name
- RivaNLPConfigResponse.Config.ParametersEntry parameters (repeated)
-
string model_name
- message RivaNLPConfigResponse.Config.ParametersEntry
-
string key
-
string value
-
string key
已弃用。
- uint32 end#
已弃用。
已弃用。 每个重复的文本元素都独立处理,以便使用单个请求处理多个输入字符串
- uint32 top_n
已弃用。 返回每个输入的 Top N 分类结果。 0 或 1 将返回顶级类,否则返回 N。注意:当前已禁用。
- NLPModelParams model#
已弃用。
- nvidia.riva.RequestId id
已弃用。 要与请求关联的 ID。 如果提供,则将在相应的响应中返回此 ID。
-
message TextClassResponse#
TextClassResponse 是 ClassifyText 服务返回的消息。
-
ClassificationResult results(repeated)#
-
ClassificationResult results(repeated)#
已弃用。
- nvidia.riva.RequestId id
已弃用。 与请求关联的 ID
-
message TextTransformRequest#
TextTransformRequest 是一种请求类型,旨在用于 TransformText 等服务,这些服务接受任意文本输入
-
string text(repeated)#
每个重复的文本元素都独立处理,以便使用单个请求处理多个输入字符串
-
uint32 top_n#
-
NLPModelParams model#
- nvidia.riva.RequestId id
要与请求关联的 ID。如果提供,则将在相应的响应中返回。
-
string text(repeated)#
-
message TextTransformResponse#
TextTransformResponse 由 TransformText 方法返回。 响应按照请求的相同顺序返回。
-
string text(repeated)#
- nvidia.riva.RequestId id
与请求关联的 ID
-
string text(repeated)#
已弃用。 每个重复的文本元素都独立处理,以便使用单个请求处理多个输入字符串
- uint32 top_n
已弃用。 返回每个输入的 Top N 分类结果。 0 或 1 将返回顶级类,否则返回 N。注意:当前已禁用。
- NLPModelParams model
已弃用。
- nvidia.riva.RequestId id
已弃用。 要与请求关联的 ID。 如果提供,则将在相应的响应中返回此 ID。
-
message TokenClassResponse#
TokenClassResponse 每个输入请求返回一个 TokenClassSequence。
-
TokenClassSequence results(repeated)#
-
TokenClassSequence results(repeated)#
已弃用。
- nvidia.riva.RequestId id
已弃用。 与请求关联的 ID
-
message TokenClassSequence#
TokenClassSequence 用于按输入 token 的原始顺序返回 TokenClassValue 对象序列。
-
TokenClassValue results(repeated)#
-
TokenClassValue results(repeated)#
已弃用。
已弃用。
- Classification label(repeated)#
已弃用。
已弃用。
riva/proto/riva_nmt.proto#
-
service RivaTranslation#
RivaTranslation 服务提供 rpc 以在语言之间进行翻译。
- rpc TranslateTextResponse TranslateText(TranslateTextRequest)
将文本从源语言翻译成目标语言。目前,需要指定源语言和目标语言字段以及模型名称。每个请求可以传递多个文本,最多可达到模型的给定批处理大小,该批处理大小在翻译管道创建时设置。
- rpc AvailableLanguageResponse ListSupportedLanguagePairs(AvailableLanguageRequest)
列出可用于 TranslateText 的可用语言对和模型名称。
- rpc stream StreamingTranslateSpeechToTextResponse StreamingTranslateSpeechToText(stream StreamingTranslateSpeechToTextRequest)
流式语音转文本翻译 API。
- rpc stream StreamingTranslateSpeechToSpeechResponse StreamingTranslateSpeechToSpeech(stream StreamingTranslateSpeechToSpeechRequest)
-
message AvailableLanguageRequest#
返回模型名称与其源语言和目标语言对的映射。 可以指定特定的模型名称以仅检索其语言对。
-
string model#
支持的值:“s2s_model”、“s2t_model”和已部署的 t2t 模型的名称。 如果为空,则返回所有可用的模型和语言。
-
string model#
-
message AvailableLanguageResponse#
语言对是每个模型可用的 src 到 tgt 语言集。 languages 包含所有 model_name -> 语言对。
- AvailableLanguageResponse.LanguagesEntry languages (repeated)
- message AvailableLanguageResponse.LanguagePair
-
string src_lang(repeated)#
-
string tgt_lang(repeated)#
-
string src_lang(repeated)#
- message AvailableLanguageResponse.LanguagesEntry
-
string key
- AvailableLanguageResponse.LanguagePair value
-
string key
-
message StreamingTranslateSpeechToSpeechConfig#
Translate S2S 的配置。 重用来自其他服务的现有 protos。
- nvidia.riva.asr.StreamingRecognitionConfig asr_config
来自 riva_asr.proto
-
SynthesizeSpeechConfig tts_config#
-
TranslationConfig translation_config#
-
message StreamingTranslateSpeechToSpeechRequest#
流式语音转语音用于配置语音翻译的整个管道。 这可以由 ASR、NMT、TTS 模型或端到端模型的级联支持。
-
bytes audio_content#
- nvidia.riva.RequestId id
要与请求关联的 ID。如果提供,则将在相应的响应中返回。
-
bytes audio_content#
-
message StreamingTranslateSpeechToSpeechResponse#
- nvidia.riva.tts.SynthesizeSpeechResponse speech
包含语音响应,最后一个响应发送一个空缓冲区以标记流的结束。
来自 riva_tts.proto
- nvidia.riva.RequestId id
与请求关联的 ID
-
message StreamingTranslateSpeechToTextConfig#
- nvidia.riva.asr.StreamingRecognitionConfig asr_config
现有的 ASR 配置
-
TranslationConfig translation_config#
-
message StreamingTranslateSpeechToTextRequest#
-
-
bytes audio_content#
- nvidia.riva.RequestId id
要与请求关联的 ID。如果提供,则将在相应的响应中返回。
-
bytes audio_content#
-
message StreamingTranslateSpeechToTextResponse#
- nvidia.riva.asr.StreamingRecognitionResult results (repeated)
来自 riva_asr.proto
- nvidia.riva.RequestId id
与请求关联的 ID
-
message SynthesizeSpeechConfig#
- nvidia.riva.AudioEncoding encoding
-
int32 sample_rate_hz#
-
string voice_name#
-
string language_code#
-
string prosody_rate#
-
string prosody_pitch#
-
string prosody_volume#
-
message TranslateTextRequest#
请求同步翻译 texts 中的每个文本。 可以使用 ListSupportLanguagePairs RPC 查询可用语言。 必须指定源语言和目标语言,当前是两个字符的 ISO 代码,为了与 GA 的其他 Riva 服务保持一致,这可能会更改为 BCP-47。
-
string texts(repeated)#
-
string model#
-
string source_language#
-
string target_language#
-
string dnt_phrases(repeated)#
不翻译或由管道自定义翻译的单词或短语列表。 要自定义翻译的单词应指定为“<word>##<custom_translation>”,而不翻译的单词应指定为“<word>”。
- nvidia.riva.RequestId id
要与请求关联的 ID。如果提供,则将在相应的响应中返回。
-
string texts(repeated)#
-
message TranslateTextResponse#
翻译以 text:language 对的形式返回。 这些与请求中传入的“texts”是一对一的。
-
Translation translations(repeated)#
- nvidia.riva.RequestId id
与请求关联的 ID
-
Translation translations(repeated)#
riva/proto/riva_tts.proto#
-
service RivaSpeechSynthesis#
- rpc SynthesizeSpeechResponse Synthesize(SynthesizeSpeechRequest)
用于从服务请求文本到语音。 提交包含所需文本和配置的请求,并接收请求格式的音频字节。
- rpc stream SynthesizeSpeechResponse SynthesizeOnline(SynthesizeSpeechRequest)
用于请求通过流返回的文本到语音,因为它变为可用。 提交具有所需文本和配置的 SynthesizeSpeechRequest,并接收请求格式的字节流。
- rpc RivaSynthesisConfigResponse GetRivaSynthesisConfig(RivaSynthesisConfigRequest)
使客户端能够请求当前 Synthesize 服务或服务中特定模型的配置。
-
message RivaSynthesisConfigResponse#
- RivaSynthesisConfigResponse.Config model_config (repeated)
- message RivaSynthesisConfigResponse.Config
-
string model_name
- RivaSynthesisConfigResponse.Config.ParametersEntry parameters (repeated)
-
string model_name
- message RivaSynthesisConfigResponse.Config.ParametersEntry
-
string key
-
string value
-
string key
-
message SynthesizeSpeechRequest#
-
string text#
-
string language_code#
- nvidia.riva.AudioEncoding encoding
音频编码参数
-
int32 sample_rate_hz#
-
string voice_name#
声音参数
-
ZeroShotData zero_shot_data#
Zero Shot 模型参数
-
string custom_dictionary#
一个字符串,包含以逗号分隔的字素和相应音素的键值对,并用双空格分隔。
- nvidia.riva.RequestId id
要与请求关联的 ID。如果提供,则将在相应的响应中返回。
-
string text#
riva/proto/riva_audio.proto#
- enum AudioEncoding
AudioEncoding 指定封装消息中音频字节的编码。
-
enumerator ENCODING_UNSPECIFIED = 0#
未指定。
-
enumerator LINEAR_PCM = 1#
未压缩的 16 位有符号小端序采样 (Linear PCM)。
-
enumerator FLAC = 2#
FLAC (Free Lossless Audio Codec) 是推荐的编码,因为它是无损的——因此识别不会受到影响——并且只需要大约一半的 LINEAR16 带宽。FLAC 流编码支持 16 位和 24 位采样,但是,并非 STREAMINFO 中的所有字段都受支持。
-
enumerator MULAW = 3#
使用 G.711 PCMU/mu-law 压缩 14 位音频采样的 8 位采样。
-
enumerator OGGOPUS = 4#
-
enumerator ALAW = 20#
使用 G.711 PCMU/a-law 压缩 13 位音频采样的 8 位采样。
-
enumerator ENCODING_UNSPECIFIED = 0#
riva/proto/health.proto#
-
service Health
- rpc HealthCheckResponse Check(HealthCheckRequest)
- rpc stream HealthCheckResponse Watch(HealthCheckRequest)
-
message HealthCheckRequest
-
string service
-
string service
-
message HealthCheckResponse
- HealthCheckResponse.ServingStatus status
- enum HealthCheckResponse.ServingStatus
-
enumerator UNKNOWN = 0
-
enumerator SERVING = 1
-
enumerator NOT_SERVING = 2
-
enumerator UNKNOWN = 0