swizzle.h

函数

void nvte_swizzle_scaling_factors(const NVTETensor input, NVTETensor output, cudaStream_t stream)

将缩放因子混洗到 GEMM 所需的交错布局中。

要求

  • scale_inv 以行优先格式存储。

  • 对于行缩放,scale_inv 大小填充为 128x4,对于列缩放,填充为 4x128。

  • 数据沿 K 维度量化,即 1D 缩放块沿 K 维度排列。

参数:
  • input[in] 具有非混洗 scale_inv 的输入张量。

  • output[inout] 托管混洗 scale_inv 的输出张量。

  • stream[in] 用于操作的 CUDA 流。