重要

您正在查看 NeMo 2.0 文档。此版本对 API 和新的库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档

数据#

class nemo.collections.common.data.dataset.ConcatDataset(*args: Any, **kwargs: Any)#

基类:IterableDataset

一个数据集,它接受多个数据集作为参数,然后根据指定的采样技术从中采样。

参数:
  • datasets (list) – 要从中采样的数据集列表。

  • shuffle (bool) – 是否打乱各个数据集。仅适用于非迭代数据集。默认为 True。

  • sampling_technique (str) – 用于选择从哪个数据集抽取样本的采样技术。默认为 ‘temperature’。当前支持 ‘temperature’、‘random’ 和 ‘round-robin’。

  • sampling_temperature (int) – 采样的温度值。仅在 sampling_technique = ‘temperature’ 时使用。默认为 5。

  • sampling_scale – 使您能够上采样/下采样数据集。默认为 1。

  • sampling_probabilities (list) – 采样的概率值。仅在 sampling_technique = ‘random’ 时使用。

  • seed – 用于播种 numpy RNG 的可选值。

  • global_rank (int) – 工作进程排名,用于分区映射样式数据集。默认为 0。

  • world_size (int) – 进程总数,用于分区映射样式数据集。默认为 1。

get_iterable(dataset)#
static random_generator(datasets, **kwargs)#
static round_robin_generator(datasets, **kwargs)#
static temperature_generator(datasets, **kwargs)#
class nemo.collections.common.data.dataset.ConcatMapDataset(*args: Any, **kwargs: Any)#

基类:Dataset

一个数据集,它接受多个数据集作为参数,然后根据指定的采样技术从中采样。

参数:
  • datasets (list) – 要从中采样的数据集列表。

  • sampling_technique (str) – 用于选择从哪个数据集抽取样本的采样技术。默认为 ‘temperature’。当前支持 ‘temperature’、‘random’ 和 ‘round-robin’。

  • sampling_temperature (int) – 采样的温度值。仅在 sampling_technique = ‘temperature’ 时使用。默认为 5。

  • sampling_probabilities (list) – 采样的概率值。仅在 sampling_technique = ‘random’ 时使用。

  • seed – 用于播种 numpy RNG 的可选值。