swizzle.h

函数

void nvte_swizzle_scaling_factors(const NVTETensor input, NVTETensor output, cudaStream_t stream)

将缩放因子混洗到 GEMM 所需的交错布局中。

要求

scale_inv 以行优先格式存储。
对于行缩放，scale_inv 大小填充为 128x4，对于列缩放，填充为 4x128。
数据沿 K 维度量化，即 1D 缩放块沿 K 维度排列。

参数:

input – [in] 具有非混洗 scale_inv 的输入张量。
output – [inout] 托管混洗 scale_inv 的输出张量。
stream – [in] 用于操作的 CUDA 流。