1. FP4 内联函数
本节介绍 fp4 内联函数。
要使用这些函数,请在程序中包含头文件 cuda_fp4.h
。
以下宏可帮助用户选择性地启用/禁用头文件中存在的各种定义
__CUDA_NO_FP4_CONVERSIONS__
- 如果定义,此宏将阻止使用头文件中定义的任何 C++ 类型转换(转换构造函数和转换运算符)。__CUDA_NO_FP4_CONVERSION_OPERATORS__
- 如果定义,此宏将阻止使用从fp4
到其他类型的 C++ 转换运算符。
注意
此处定义的大多数操作在为特定 GPU 目标(例如,计算能力为 10.0a 的设备)编译时,受益于本机硬件支持;其他目标使用模拟路径。
分组
- 用于处理 e2m1 类型的 fp4 数据类型的 C++ 结构体。
- 用于处理 e2m1 类型的四个 fp4 值的向量类型的 C++ 结构体。
- 用于处理 e2m1 类型的两个 fp4 值的向量类型的 C++ 结构体。
- FP4 转换和数据移动
-
要使用这些函数,请在程序中包含头文件
cuda_fp4.h
。