通过零代码更改加速 Apache Spark

概述

客户流失实验室源自 data-science-blueprints 仓库,其中客户流失建模从联合数据和执行探索性基于查询的分析到特征工程、模型训练和模型运营化。蓝图的数据工程部分通过 RAPIDS Accelerator for Apache Spark 加速,机器学习部分通过 RAPIDS Python 库加速。本实验室展示了基于合成规范化数据的真实 ETL 工作流程。它由两部分组成

  • 一个增强脚本,它从宽格式输入文件合成规范化(长格式)数据,可以选择通过复制记录来增强它。

  • 一个 ETL 脚本,它执行连接和聚合,以便从合成的长格式数据生成宽格式数据。

  1. 复制和粘贴在桌面 VNC 连接上可用。您将在屏幕左侧看到一个侧边栏,打开后您可以粘贴到剪贴板中。一旦您粘贴了内容,它就可以立即在 VNC 桌面中粘贴

spark-rapids-003.png


© 版权所有 2022-2023,NVIDIA。 上次更新于 2023 年 6 月 23 日。