重要提示
您正在查看 NeMo 2.0 文档。此版本引入了 API 的重大更改和一个新的库 NeMo Run。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档。
NeMo 说话人识别 API#
模型类#
- class nemo.collections.asr.models.label_models.EncDecSpeakerLabelModel(*args: Any, **kwargs: Any)#
基类:
ModelPT
、ExportableEncDecModel
、VerificationMixin
用于说话人标签模型的编码器-解码器类。模型类创建训练、验证方法,用于设置数据并执行模型前向传递。期望配置字典用于
预处理器
Jasper/Quartznet 编码器
说话人解码器
- get_embedding(path2audio_file)#
返回提供的音频文件的说话人嵌入。
- 参数:
path2audio_file – 音频 wav 文件的路径
- 返回:
说话人嵌入(音频表示)
- 返回类型:
emb
- verify_speakers(
- path2audio_file1,
- path2audio_file2,
- threshold=0.7,
验证两个音频文件是否来自同一说话人。
- 参数:
path2audio_file1 – 说话人 1 的音频 wav 文件路径
path2audio_file2 – 说话人 2 的音频 wav 文件路径
threshold – 用作区分两个嵌入的阈值的余弦相似度得分(默认 = 0.7)
- 返回:
如果两个音频文件来自同一说话人,则为 True,否则为 False
- verify_speakers_batch(
- audio_files_pairs,
- threshold=0.7,
- batch_size=32,
- sample_rate=16000,
- device='cuda',
验证来自第一个和第二个清单的音频文件是否来自同一说话人。
- 参数:
audio_files_pairs – 要验证的音频文件对的元组列表
threshold – 用作区分两个嵌入的阈值的余弦相似度得分(默认 = 0.7)
batch_size – 执行批量推理的批次大小
sample_rate – 清单文件中音频文件的采样率
device – 执行计算操作的设备。
- 返回:
如果音频对来自同一说话人,则为 True,否则为 False