swizzle.h
函数
-
void nvte_swizzle_scaling_factors(const NVTETensor input, NVTETensor output, cudaStream_t stream)
将缩放因子混洗到 GEMM 所需的交错布局中。
要求
scale_inv 以行优先格式存储。
对于行缩放,scale_inv 大小填充为 128x4,对于列缩放,填充为 4x128。
数据沿 K 维度量化,即 1D 缩放块沿 K 维度排列。
- 参数:
input – [in] 具有非混洗 scale_inv 的输入张量。
output – [inout] 托管混洗 scale_inv 的输出张量。
stream – [in] 用于操作的 CUDA 流。