重要提示

您正在查看 NeMo 2.0 文档。此版本引入了 API 的重大更改和一个新的库 NeMo Run。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档

NeMo 说话人识别 API#

模型类#

class nemo.collections.asr.models.label_models.EncDecSpeakerLabelModel(*args: Any, **kwargs: Any)#

基类:ModelPTExportableEncDecModelVerificationMixin

用于说话人标签模型的编码器-解码器类。模型类创建训练、验证方法,用于设置数据并执行模型前向传递。期望配置字典用于

  • 预处理器

  • Jasper/Quartznet 编码器

  • 说话人解码器

get_embedding(path2audio_file)#

返回提供的音频文件的说话人嵌入。

参数:

path2audio_file – 音频 wav 文件的路径

返回:

说话人嵌入(音频表示)

返回类型:

emb

verify_speakers(
path2audio_file1,
path2audio_file2,
threshold=0.7,
)#

验证两个音频文件是否来自同一说话人。

参数:
  • path2audio_file1 – 说话人 1 的音频 wav 文件路径

  • path2audio_file2 – 说话人 2 的音频 wav 文件路径

  • threshold – 用作区分两个嵌入的阈值的余弦相似度得分(默认 = 0.7)

返回:

如果两个音频文件来自同一说话人,则为 True,否则为 False

verify_speakers_batch(
audio_files_pairs,
threshold=0.7,
batch_size=32,
sample_rate=16000,
device='cuda',
)#

验证来自第一个和第二个清单的音频文件是否来自同一说话人。

参数:
  • audio_files_pairs – 要验证的音频文件对的元组列表

  • threshold – 用作区分两个嵌入的阈值的余弦相似度得分(默认 = 0.7)

  • batch_size – 执行批量推理的批次大小

  • sample_rate – 清单文件中音频文件的采样率

  • device – 执行计算操作的设备。

返回:

如果音频对来自同一说话人,则为 True,否则为 False