nvidia.dali.fn.readers.tfrecord#

nvidia.dali.fn.readers.tfrecord(*, bytes_per_sample_hint=[0], dont_use_mmap=False, features, index_path, initial_fill=1024, lazy_init=False, num_shards=1, pad_last_batch=False, path, prefetch_queue_depth=1, preserve=False, random_shuffle=False, read_ahead=False, seed=-1, shard_id=0, skip_cached_images=False, stick_to_shard=False, tensor_init_bytes=1048576, use_o_direct=False, device=None, name=None)#

从 TensorFlow TFRecord 文件中读取样本。

支持的后端

‘cpu’

关键字参数:

bytes_per_sample_hint¶ (int 或 int 列表, 可选, 默认值 = [0]) –
每个样本的输出大小提示（以字节为单位）。

如果指定，则位于 GPU 或页锁定主机内存中的操作符输出将被预先分配，以容纳一批此大小的样本。
dont_use_mmap¶ (bool, 可选, 默认值 = False) –
如果设置为 True，Loader 将使用普通文件 I/O，而不是尝试在内存中映射文件。

当访问本地文件系统时，映射提供了一个小的性能优势，但大多数网络文件系统不提供最佳性能。
features¶ (dict of (string, nvidia.dali.tfrecord.Feature)) –
一个字典，将要提取的 TFRecord 特征的名称映射到特征类型。

通常通过使用 dali.tfrecord.FixedLenFeature 和 dali.tfrecord.VarLenFeature 辅助函数获得，它们分别等于 TensorFlow 的 tf.FixedLenFeature 和 tf.VarLenFeature 类型。为了额外的灵活性，dali.tfrecord.VarLenFeature 支持 partial_shape 参数。如果提供，数据将被重塑以匹配其值，并且第一维度将从数据大小推断出来。

如果命名的特征在处理的 TFRecord 条目中不存在，则返回一个空张量。
index_path¶ (str 或 str 列表) –
索引文件路径列表。每个 TFRecord 文件应该有一个索引文件。

索引文件可以通过使用与 DALI 一起分发的 tfrecord2idx 脚本从 TFRecord 文件中获得。
initial_fill¶ (int, 可选, 默认值 = 1024) –
用于洗牌的缓冲区大小。

如果 random_shuffle 为 False，则忽略此参数。
lazy_init¶ (bool, 可选, 默认值 = False) – 仅在第一次运行时解析和准备数据集元数据，而不是在构造函数中。
num_shards¶ (int, 可选, 默认值 = 1) –
将数据划分为指定数量的部分（分片）。

这通常用于多 GPU 或多节点训练。
pad_last_batch¶ (bool, 可选, 默认值 = False) –
如果设置为 True，则通过重复最后一个样本来填充分片。

注意

如果各个分片之间的批次数量不同，则此选项可能会导致将整个批次的重复样本添加到数据集中。
path¶ (str 或 str 列表) – TFRecord 文件路径列表。
prefetch_queue_depth¶ (int, 可选, 默认值 = 1) –
指定内部加载器要预取的批次数量。

当 pipeline 受 CPU 阶段限制时，应增加此值，以内存消耗换取与加载器线程更好的交错。
preserve¶ (bool, 可选, 默认值 = False) – 即使操作符的输出未使用，也阻止其从图中删除。
random_shuffle¶ (bool, 可选, 默认值 = False) –
确定是否随机洗牌数据。

使用大小等于 initial_fill 的预取缓冲区顺序读取数据，然后随机选择样本以形成批次。
read_ahead¶ (bool, 可选, 默认值 = False) –
确定是否应预读访问的数据。

对于大型文件（如 LMDB、RecordIO 或 TFRecord），此参数会减慢首次访问速度，但会减少所有后续访问的时间。
seed¶ (int, 可选, 默认值 = -1) – 随机种子；如果未设置，将自动分配一个。
shard_id¶ (int, 可选, 默认值 = 0) – 要读取的分片索引。
skip_cached_images¶ (bool, 可选, 默认值 = False) –
如果设置为 True，当样本在解码器缓存中时，将跳过加载数据。

在这种情况下，加载器的输出将为空。
stick_to_shard¶ (bool, 可选, 默认值 = False) –
确定读取器是否应坚持数据分片而不是遍历整个数据集。

如果使用解码器缓存，它可以显著减少要缓存的数据量，但可能会影响训练的准确性。
tensor_init_bytes¶ (int, 可选, 默认值 = 1048576) – 每个图像要分配多少内存的提示。
use_o_direct¶ (bool, 可选, 默认值 = False) –
如果设置为 True，则数据将直接从存储读取，绕过系统缓存。

与 dont_use_mmap=False 互斥。

另请参阅