概述
微基准实验室源自 spark-rapids-example 代码库。在 RAPIDS Accelerator For Apache Spark 上的微基准测试旨在识别、测试和分析可以在 GPU 上加速的最佳查询。
这些查询基于从 TPC-DS 基准测试导出的 Parquet 格式的多个表,以便其他人可以重现类似的速度提升。微基准测试包括常用的 Spark SQL 操作,例如 expand、哈希聚合、窗口函数和交叉连接,并在 CPU 模式和 GPU 模式下运行相同的查询。Expand 和 HashAggregate 函数速度更快,因为 GPU 算法允许我们在数据维度上并行化计算,并且我们可以利用 GPU 核心。窗口函数的原因相同,尤其是在存在数据倾斜时。诸如 GpuShuffleHashJoin 或 GpuBroadcastNestedLoopJoin 之类的连接函数也非常适合在 GPU 上运行,因为它们针对最大性能进行了优化。您可以看到某些查询第二次运行速度更快,这可能是由 JVM JIT、初始化开销或将输入数据缓存在 OS 页面缓存中等原因造成的。性能的提升受到许多组件的影响,包括数据集的比例因子和 GPU 加速器模型。
复制和粘贴在桌面 VNC 连接上可用。您将在屏幕左侧看到一个侧边栏,打开后您可以粘贴到剪贴板。粘贴内容后,即可立即在 VNC 桌面中粘贴。
