重要
您正在查看 NeMo 2.0 文档。此版本对 API 和新的库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档。
数据#
- class nemo.collections.common.data.dataset.ConcatDataset(*args: Any, **kwargs: Any)#
基类:
IterableDataset
一个数据集,它接受多个数据集作为参数,然后根据指定的采样技术从中采样。
- 参数:
datasets (list) – 要从中采样的数据集列表。
shuffle (bool) – 是否打乱各个数据集。仅适用于非迭代数据集。默认为 True。
sampling_technique (str) – 用于选择从哪个数据集抽取样本的采样技术。默认为 ‘temperature’。当前支持 ‘temperature’、‘random’ 和 ‘round-robin’。
sampling_temperature (int) – 采样的温度值。仅在 sampling_technique = ‘temperature’ 时使用。默认为 5。
sampling_scale – 使您能够上采样/下采样数据集。默认为 1。
sampling_probabilities (list) – 采样的概率值。仅在 sampling_technique = ‘random’ 时使用。
seed – 用于播种 numpy RNG 的可选值。
global_rank (int) – 工作进程排名,用于分区映射样式数据集。默认为 0。
world_size (int) – 进程总数,用于分区映射样式数据集。默认为 1。
- get_iterable(dataset)#
- static random_generator(datasets, **kwargs)#
- static round_robin_generator(datasets, **kwargs)#
- static temperature_generator(datasets, **kwargs)#
- class nemo.collections.common.data.dataset.ConcatMapDataset(*args: Any, **kwargs: Any)#
基类:
Dataset
一个数据集,它接受多个数据集作为参数,然后根据指定的采样技术从中采样。
- 参数:
datasets (list) – 要从中采样的数据集列表。
sampling_technique (str) – 用于选择从哪个数据集抽取样本的采样技术。默认为 ‘temperature’。当前支持 ‘temperature’、‘random’ 和 ‘round-robin’。
sampling_temperature (int) – 采样的温度值。仅在 sampling_technique = ‘temperature’ 时使用。默认为 5。
sampling_probabilities (list) – 采样的概率值。仅在 sampling_technique = ‘random’ 时使用。
seed – 用于播种 numpy RNG 的可选值。