nvidia.dali.fn.experimental.decoders.image_slice#
- nvidia.dali.fn.experimental.decoders.image_slice(__data, __anchor=None, __shape=None, /, *, adjust_orientation=True, affine=True, axes=[1, 0], axis_names='WH', bytes_per_sample_hint=[0], device_memory_padding=16777216, device_memory_padding_jpeg2k=0, dtype=DALIDataType.UINT8, end=None, host_memory_padding=8388608, host_memory_padding_jpeg2k=0, hw_decoder_load=0.9, hybrid_huffman_threshold=1000000, jpeg_fancy_upsampling=False, normalized_anchor=True, normalized_shape=True, output_type=DALIImageType.RGB, preallocate_height_hint=0, preallocate_width_hint=0, preserve=False, rel_end=None, rel_shape=None, rel_start=None, shape=None, start=None, use_fast_idct=False, device=None, name=None)#
解码图像并提取感兴趣区域。
支持的格式:JPEG、JPEG 2000、TIFF、PNG、BMP、PNM、PPM、PGM、PBM、WebP。
解码器的输出采用HWC布局。
该实现使用 NVIDIA nvImageCodec 来解码图像。
切片可以通过提供起始和结束坐标,或起始坐标和切片的形状来指定。坐标和形状都可以用绝对或相对术语提供。
切片参数可以通过以下命名参数指定
start
:切片起始坐标(绝对)rel_start
:切片起始坐标(相对)end
:切片结束坐标(绝对)rel_end
:切片结束坐标(相对)shape
:切片形状(绝对)rel_shape
:切片形状(相对)
切片可以通过提供起始和结束坐标或起始和形状来配置。相对参数和绝对参数可以混合使用(例如,
rel_start
可以与shape
一起使用),只要起始和形状或结束是唯一定义的。或者,可以提供两个额外的位置输入,指定
__anchor
和__shape
。当使用位置输入时,可以使用两个额外的布尔参数normalized_anchor
/normalized_shape
来指定所提供参数的性质。使用位置输入作为锚点和形状与上面指定的命名参数不兼容。切片参数应提供与
axis_names
或axes
参数指定的维度一样多的维度。默认情况下,
nvidia.dali.fn.decoders.image_slice()
运算符对切片参数使用归一化坐标和“WH”顺序。在可能的情况下,运算符使用 ROI 解码,从而减少解码时间和内存消耗。
注意
GPU 加速解码仅适用于图像格式的子集(JPEG 和 JPEG2000)。对于其他格式,使用基于 CPU 的解码器。对于 JPEG,在可用时将使用专用 HW 解码器。
注意
WebP 解码目前仅支持简单的文件格式(有损和无损压缩)。有关不同 WebP 文件格式的详细信息,请参阅 https://developers.google.com/speed/webp/docs/riff_container
- 支持的后端
‘cpu’
‘mixed’
- 参数:
__data¶ (TensorList) – 包含输入数据的批次。
__anchor¶ (1D TensorList of float or int, optional) –
包含切片起点的归一化或绝对坐标的输入(x0、x1、x2、…)。
整数坐标被解释为绝对坐标,而浮点坐标可以被解释为绝对坐标或相对坐标,具体取决于
normalized_anchor
的值。__shape¶ (1D TensorList of float or int, optional) –
包含切片尺寸的归一化或绝对坐标的输入(s0、s1、s2、…)。
整数坐标被解释为绝对坐标,而浮点坐标可以被解释为绝对坐标或相对坐标,具体取决于
normalized_shape
的值。
- 关键字参数:
adjust_orientation¶ (bool, optional, default = True) – 使用 EXIF 方向元数据来校正图像
affine¶ (bool, optional, default = True) –
仅适用于
mixed
后端类型。如果设置为 True,则内部线程池中的每个线程将绑定到特定的 CPU 核心。否则,线程可以由操作系统重新分配给任何 CPU 核心。
axes¶ (int or list of int or TensorList of int, optional, default = [1, 0]) –
用作维度索引的锚点和形状切片输入的维度顺序。
负值被解释为从后面计数维度。有效范围:
[-ndim, ndim-1]
,其中 ndim 是输入数据中的维度数。axis_names¶ (layout str, optional, default = ‘WH’) –
用于锚点和形状切片输入的维度顺序,如布局中所述。
如果提供值,则
axis_names
的优先级高于axes
。bytes_per_sample_hint¶ (int or list of int, optional, default = [0]) –
每个样本的输出大小提示(以字节为单位)。
如果指定,则位于 GPU 或分页锁定主机内存中的运算符输出将被预先分配,以容纳此大小的样本批次。
device_memory_padding¶ (int, optional, default = 16777216) –
仅适用于
mixed
后端类型。nvJPEG 设备内存分配的填充,以字节为单位。此参数有助于避免在遇到更大的图像时 nvJPEG 中的重新分配,并且需要重新分配内部缓冲区以解码图像。
如果提供的值大于 0,则运算符为每个线程预分配一个请求大小的设备缓冲区。如果正确选择该值,则在 pipeline 执行期间不会发生额外的分配。
device_memory_padding_jpeg2k¶ (int, optional, default = 0) –
仅适用于
mixed
后端类型。nvJPEG2k 设备内存分配的填充,以字节为单位。此参数有助于避免在遇到更大的图像时 nvJPEG2k 中的重新分配,并且需要重新分配内部缓冲区以解码图像。
如果提供的值大于 0,则运算符会根据提供的提示预分配必要数量的缓冲区。如果正确选择该值,则在 pipeline 执行期间不会发生额外的分配。
dtype¶ (
nvidia.dali.types.DALIDataType
, optional, default = DALIDataType.UINT8) –图像的输出数据类型。
值将转换为请求类型的动态范围。
end¶ (int or list of int or TensorList of int, optional) –
切片的结束坐标。
注意:提供命名参数
start
、end
、shape
、rel_start
、rel_end
、rel_shape
与提供位置输入锚点和形状不兼容。host_memory_padding¶ (int, optional, default = 8388608) –
仅适用于
mixed
后端类型。nvJPEG 主机内存分配的填充,以字节为单位。此参数有助于防止在遇到更大的图像时 nvJPEG 中的重新分配,并且需要重新分配内部缓冲区以解码图像。
如果提供的值大于 0,则运算符为每个线程预分配两个(由于双缓冲)请求大小的主机固定缓冲区。如果选择正确,则在 pipeline 执行期间不会发生额外的分配。
host_memory_padding_jpeg2k¶ (int, optional, default = 0) –
仅适用于
mixed
后端类型。nvJPEG2k 主机内存分配的填充,以字节为单位。此参数有助于防止在遇到更大的图像时 nvJPEG2k 中的重新分配,并且需要重新分配内部缓冲区以解码图像。
如果提供的值大于 0,则运算符会根据提供的提示预分配必要数量的缓冲区。如果正确选择该值,则在 pipeline 执行期间不会发生额外的分配。
hw_decoder_load¶ (float, optional, default = 0.9) –
由 HW JPEG 解码器处理的图像数据百分比。
仅适用于 NVIDIA Ampere GPU 架构中的
mixed
后端类型。确定将卸载到硬件解码器的工作负载的百分比(如果可用)。最佳工作负载取决于为 DALI pipeline 提供的线程数,应根据经验找到。更多详细信息请参见 https://developer.nvidia.com/blog/loading-data-fast-with-dali-and-new-jpeg-decoder-in-a100
hybrid_huffman_threshold¶ (int, optional, default = 1000000) –
仅适用于
mixed
后端类型。像素总数(
height * width
)高于此阈值的图像将使用 nvJPEG 混合 Huffman 解码器。像素数较少的图像将使用 nvJPEG 主机端 Huffman 解码器。注意
混合 Huffman 解码器仍然主要使用 CPU。
jpeg_fancy_upsampling¶ (bool, optional, default = False) –
使
mixed
后端使用与cpu
后端相同的色度上采样方法。此选项对应于 libjpegturbo 或 ImageMagick 中提供的 JPEG 精细上采样。
memory_stats¶ –
- normalized_anchorbool, optional, default = True
确定锚点位置输入应被解释为归一化坐标(范围 [0.0, 1.0])还是绝对坐标。
注意
此参数仅在锚点数据类型为
float
时相关。对于整数类型,坐标始终是绝对坐标。- normalized_shapebool, optional, default = True
确定形状位置输入应被解释为归一化坐标(范围 [0.0, 1.0])还是绝对坐标。
注意
此参数仅在锚点数据类型为
float
时相关。对于整数类型,坐标始终是绝对坐标。- output_type
nvidia.dali.types.DALIImageType
, optional, default = DALIImageType.RGB 输出图像的色彩空间。
注意:当解码为 YCbCr 时,图像将先解码为 RGB,然后转换为 YCbCr,遵循 ITU-R BT.601 中的 YCbCr 定义。
- preallocate_height_hintint, optional, default = 0
图像宽度提示。
仅适用于 NVIDIA Ampere GPU 架构中的
mixed
后端类型。此提示用于为硬件 JPEG 解码器预分配内存。
- preallocate_width_hintint, optional, default = 0
图像宽度提示。
仅适用于 NVIDIA Ampere GPU 架构中的
mixed
后端类型。此提示用于为硬件 JPEG 解码器预分配内存。
- preservebool, optional, default = False
防止运算符从图中移除,即使其输出未使用。
- rel_endfloat 或 float 列表或 float 的 TensorList, optional
切片的相对结束坐标(范围 [0.0 - 1.0])。
注意:提供命名参数
start
、end
、shape
、rel_start
、rel_end
、rel_shape
与提供位置输入锚点和形状不兼容。- rel_shapefloat 或 float 列表或 float 的 TensorList, optional
切片的相对形状(范围 [0.0 - 1.0])。
提供命名参数
start
、end
、shape
、rel_start
、rel_end
、rel_shape
与提供位置输入 anchor 和 shape 不兼容。- rel_startfloat 或 float 列表或 float 的 TensorList, optional
切片的相对起始坐标(范围 [0.0 - 1.0])。
注意:提供命名参数
start
、end
、shape
、rel_start
、rel_end
、rel_shape
与提供位置输入锚点和形状不兼容。- shapeint 或 int 列表或 int 的 TensorList, optional
切片的形状。
提供命名参数
start
、end
、shape
、rel_start
、rel_end
、rel_shape
与提供位置输入 anchor 和 shape 不兼容。
split_stages : bool, optional, default = False
警告
参数 split_stages 现已弃用,不建议使用。
- startint 或 int 列表或 int 的 TensorList, optional
切片的起始坐标。
注意:提供命名参数
start
/end
或start
/shape
与提供位置输入 anchor 和 shape 不兼容。
use_chunk_allocator : bool, optional, default = False
警告
参数 use_chunk_allocator 现已弃用,不建议使用。
- use_fast_idctbool, optional, default = False
在基于 libjpeg-turbo 的 CPU 解码器中启用快速 IDCT,当
device
设置为 “cpu” 或设置为 “mixed” 但特定图像无法由 GPU 实现处理时使用。根据 libjpeg-turbo 文档,解压缩性能最多可提高 14%,而质量几乎没有降低。