重要提示

您正在查看 NeMo 2.0 文档。此版本引入了 API 的重大更改和一个新的库 NeMo Run。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档，请参阅 NeMo 24.07 文档。

NeMo 说话人识别 API#

模型类#

class nemo.collections.asr.models.label_models.EncDecSpeakerLabelModel(*args: Any, **kwargs: Any)#

基类：ModelPT、ExportableEncDecModel、VerificationMixin

用于说话人标签模型的编码器-解码器类。模型类创建训练、验证方法，用于设置数据并执行模型前向传递。期望配置字典用于

预处理器

Jasper/Quartznet 编码器

说话人解码器

get_embedding(path2audio_file)#

返回提供的音频文件的说话人嵌入。

verify_speakers( path2audio_file1, path2audio_file2, threshold=0.7, )#

验证两个音频文件是否来自同一说话人。

参数:

返回:

如果两个音频文件来自同一说话人，则为 True，否则为 False

verify_speakers_batch( audio_files_pairs, threshold=0.7, batch_size=32, sample_rate=16000, device='cuda', )#

验证来自第一个和第二个清单的音频文件是否来自同一说话人。

参数:

返回:

如果音频对来自同一说话人，则为 True，否则为 False