API 参考#

顶部

riva/proto/health.proto#

HealthCheckRequest#

字段

类型

标签

描述

service

string

HealthCheckResponse#

字段

类型

标签

描述

status

HealthCheckResponse.ServingStatus

HealthCheckResponse.ServingStatus#

名称

编号

描述

UNKNOWN

0

SERVING

1

NOT_SERVING

2

Health#

方法名称

请求类型

响应类型

描述

Check

HealthCheckRequest

HealthCheckResponse

Watch

HealthCheckRequest

HealthCheckResponse

顶部

riva/proto/riva_audio.proto#

AudioEncoding#

AudioEncoding 指定封装消息中音频字节的编码。

名称

编号

描述

ENCODING_UNSPECIFIED

0

未指定。

LINEAR_PCM

1

未压缩的 16 位有符号小端序样本 (线性 PCM)。

FLAC

2

FLAC (无损音频编解码器) 是推荐的编码,因为它是无损的——因此识别不会受到影响——并且只需要大约一半的 LINEAR16 带宽。FLAC 流编码支持 16 位和 24 位样本,但是,并非 STREAMINFO 中的所有字段都受支持。

MULAW

3

使用 G.711 PCMU/mu-law 压缩 14 位音频样本的 8 位样本。

OGGOPUS

4

ALAW

20

使用 G.711 PCMU/a-law 压缩 13 位音频样本的 8 位样本。

顶部

riva/proto/riva_common.proto#

RequestId#

指定请求的请求 ID。

字段

类型

标签

描述

value

string

顶部

riva/proto/riva_tts.proto#

RivaSynthesisConfigRequest#

字段

类型

标签

描述

model_name

string

如果指定了模型,则仅返回模型的配置,否则返回所有配置。

RivaSynthesisConfigResponse#

字段

类型

标签

描述

model_config

RivaSynthesisConfigResponse.Config

repeated

RivaSynthesisConfigResponse.Config#

字段

类型

标签

描述

model_name

string

parameters

RivaSynthesisConfigResponse.Config.ParametersEntry

repeated

RivaSynthesisConfigResponse.Config.ParametersEntry#

字段

类型

标签

描述

key

string

value

string

SynthesizeSpeechRequest#

字段

类型

标签

描述

text

string

language_code

string

encoding

nvidia.riva.AudioEncoding

音频编码参数

sample_rate_hz

int32

voice_name

string

声音参数

zero_shot_data

ZeroShotData

Zero Shot 模型参数

custom_dictionary

string

一个字符串,包含以逗号分隔的字素和相应的音素键值对,并用双空格分隔。

id

nvidia.riva.RequestId

要与请求关联的 ID。如果提供,则将在相应的响应中返回此 ID。

SynthesizeSpeechResponse#

字段

类型

标签

描述

audio

bytes

meta

SynthesizeSpeechResponseMetadata

id

nvidia.riva.RequestId

与请求关联的 ID

SynthesizeSpeechResponseMetadata#

字段

类型

标签

描述

text

string

当前实验性 API 添加,在预处理完成后返回输入文本以及每个 token 的预测持续时间。注意:此消息可能会在未来发生重大更改,并可能被删除。

processed_text

string

predicted_durations

float

repeated

ZeroShotData#

Zero Shot 模型必需

字段

类型

标签

描述

audio_prompt

bytes

Zero Shot 模型的音频提示。持续时间应在 3 到 10 秒之间。

sample_rate_hz

int32

输入音频提示的采样率。

encoding

nvidia.riva.AudioEncoding

音频提示的编码。支持的编码为 LINEAR_PCM 和 OGGOPUS。

quality

int32

用户希望音频通过解码器的次数。范围在 1-40 之间。默认为 20。

RivaSpeechSynthesis#

方法名称

请求类型

响应类型

描述

Synthesize

SynthesizeSpeechRequest

SynthesizeSpeechResponse

用于从服务请求文本到语音转换。提交包含所需文本和配置的请求,并接收请求格式的音频字节。

SynthesizeOnline

SynthesizeSpeechRequest

SynthesizeSpeechResponse

用于请求通过流返回的文本到语音转换,因为它变为可用状态。提交包含所需文本和配置的 SynthesizeSpeechRequest,并接收请求格式的字节流。

GetRivaSynthesisConfig

RivaSynthesisConfigRequest

RivaSynthesisConfigResponse

使客户端能够请求当前 Synthesize 服务的配置,或服务中特定模型的配置。

标量值类型#

.proto 类型

注释

C++

Java

Python

Go

C#

PHP

Ruby

double

double

double

float

float64

double

float

Float

float

float

float

float

float32

float

float

Float

int32

使用可变长度编码。对负数进行编码效率低下 – 如果您的字段可能具有负值,请改用 sint32。

int32

int

int

int32

int

integer

Bignum 或 Fixnum (根据需要)

int64

使用可变长度编码。对负数进行编码效率低下 – 如果您的字段可能具有负值,请改用 sint64。

int64

long

int/long

int64

long

integer/string

Bignum

uint32

使用可变长度编码。

uint32

int

int/long

uint32

uint

integer

Bignum 或 Fixnum (根据需要)

uint64

使用可变长度编码。

uint64

long

int/long

uint64

ulong

integer/string

Bignum 或 Fixnum (根据需要)

sint32

使用可变长度编码。有符号 int 值。与常规 int32 相比,这些可以更有效地编码负数。

int32

int

int

int32

int

integer

Bignum 或 Fixnum (根据需要)

sint64

使用可变长度编码。有符号 int 值。与常规 int64 相比,这些可以更有效地编码负数。

int64

long

int/long

int64

long

integer/string

Bignum

fixed32

始终为四个字节。如果值通常大于 2^28,则比 uint32 更有效。

uint32

int

int

uint32

uint

integer

Bignum 或 Fixnum (根据需要)

fixed64

始终为八个字节。如果值通常大于 2^56,则比 uint64 更有效。

uint64

long

int/long

uint64

ulong

integer/string

Bignum

sfixed32

始终为四个字节。

int32

int

int

int32

int

integer

Bignum 或 Fixnum (根据需要)

sfixed64

始终为八个字节。

int64

long

int/long

int64

long

integer/string

Bignum

bool

bool

boolean

boolean

bool

bool

boolean

TrueClass/FalseClass

string

字符串必须始终包含 UTF-8 编码或 7 位 ASCII 文本。

string

String

str/unicode

string

string

string

字符串 (UTF-8)

bytes

可能包含任何任意字节序列。

string

ByteString

str

[]byte

ByteString

string

字符串 (ASCII-8BIT)