NVIDIA + Cloudera 平台组件
为何选择 NVIDIA + Cloudera
如今,数据处理和数据工程已成为全球最大的计算领域。分析模型精度的适度提升即可转化为数十亿美元的利润。为了构建最佳模型,数据科学家们辛勤工作,进行训练、评估、迭代和再训练,以获得高度准确的结果和高性能模型。借助 NVIDIA RAPIDS,过去需要数天才能完成的流程现在只需几分钟即可完成,从而更轻松、更快速地构建和部署创造价值的模型。企业可以轻松地在 CDP 上利用 GPU 加速的 Apache Spark 3.0,消除瓶颈并快速提升性能——从而显著缩短获得洞察的时间,并提高数据驱动型企业的投资回报率。
联合解决方案概述
在加速的 Cloudera 数据平台上运行数据科学工作负载,通过使数据科学家能够在单一统一平台上进行协作,从而大大缩短实现价值的时间。借助最新版本,加速的 Apache Spark 3.0 工作负载现在可以在 CDP 上无缝运行。借助 GPU 加速,数据科学团队可以利用专为敏捷实验、数据分析和机器学习而构建的工具,以快 10 倍的速度和更低的成本进行工作。
经济高效的 NVIDIA 基础设施使 IT 团队能够交付加速的 CDP 解决方案,为直观的自助式 ML 提供支持——现在和将来都是如此。NVIDIA 认证系统可从领先的 OEM 服务器供应商处获得。
对于希望快速启动 AI 之旅的公司,加速 CDP 入门解决方案可帮助其自信地部署可扩展的硬件和软件解决方案,以安全且最佳地运行加速工作负载。
联合解决方案优势
NVIDIA 和 Cloudera 对各种基础设施配置的工作负载进行了测试和基准评测,并将其归纳为两个简单的建议
对于购买专用服务器以在 CDP 中运行 Apache Spark 进行数据分析和 ETL 的公司,建议采用CDP-Ready 配置,该配置由四台 NVIDIA 认证服务器组成,每台服务器配备两块 NVIDIA A30 GPU。相对于现代纯 CPU 替代方案,此配置的性能提升五倍以上,而增量成本不到 50%。
对于购买服务器不仅用于运行 Apache Spark,还用于运行 CDP 中的机器学习的公司,或者如果这些服务器在其生命周期内可能用于其他 AI 相关应用,建议升级到AI-Ready 配置,该配置由四台 NVIDIA 认证服务器组成,每台服务器配备一块 NVIDIA A100 GPU。相对于现代纯 CPU 替代方案,此配置的性能提升八倍以上,而增量成本不到 50%。这些数字还只是 Apache Spark 基准评测的结果;ML 和 AI 训练的加速效果甚至更加显著。
NVIDIA 认证系统™ 将 NVIDIA GPU 和 NVIDIA 网络技术整合到领先供应商的服务器中。这些系统符合 NVIDIA 的设计最佳实践,并通过了一系列认证测试,这些测试验证了性能、可管理性、可扩展性和安全性方面的最佳系统配置。借助 NVIDIA 认证系统,企业可以自信地选择性能优化的服务器,为其 Cloudera 数据平台工作负载提供动力,无论是在较小的配置还是大规模配置中。
这些系统包括
基于 NVIDIA Ampere 架构的 GPU,例如 NVIDIA A100 和 A30 Tensor Core GPU。Ampere 架构中包含的 Tensor Core 技术为 AI 运算带来了显著的加速,将训练时间从数周缩短到数小时,并为推理提供了大规模加速。
NVIDIA® Mellanox® ConnectX® SmartNIC 和 NVIDIA BlueField® 数据处理单元 (DPU) 提供了一系列软件定义硬件引擎,用于加速网络和安全性。这些实现了两全其美:一流的 AI 训练和推理性能,以及企业数据隐私、完整性和可靠性所需的所有级别。
Cloudera 数据平台 (CDP) 是为企业构建的数据云。借助 CDP,企业可以管理和保护端到端的数据生命周期——收集、丰富、分析、实验和预测其数据——以推动可操作的洞察和数据驱动的决策。最有价值和变革性的业务用例需要多阶段分析管道来处理企业数据集。CDP 使企业能够从大规模、复杂、分布式和快速变化的数据中释放价值,并在数字化转型时代中竞争。
集成数据平台
CDP 提供了一个集成数据平台,该平台在业务线之间创建敏捷性,同时促进 IT 部门内的效率和安全性,使整个组织更有效率。随着组织对不断变化的业务需求做出快速反应,CDP 交付了关键任务优势
专为数据工程师、数据科学家、BI 分析师、开发人员和企业 IT 设计
易于使用的云原生服务,并且在设计上自动安全
一流的分析和集成数据生命周期
自助服务和自定义分析
公有云和本地部署
CDP 使企业 IT 能够接受这些看似对立的力量,因为它提供了企业数据云的功能。

更多信息请参见Cloudera 数据平台数据表
CDP Private Cloud 专为混合云构建,通过一致的内置安全性和治理,将本地环境无缝连接到公有云。
该平台扩展了互联数据生命周期的云原生速度、规模和经济性,使 IT 部门能够
轻松交付分析和机器学习服务,速度比传统数据管理解决方案和云服务快 10 倍,从而更快地响应不断变化的业务需求并消除影子 IT
通过可灵活使用私有云和公有云的 PB 级混合数据架构,满足对分析和机器学习服务的指数级需求,从而加快实现价值的时间,并支持大规模的关键工作负载
优化和共享整个数据生命周期的计算基础设施,通过减少分析的计算基础设施需求和消除数据重复来提高效率并降低成本
在混合云和多云部署中一致且轻松地实施安全和治理策略,以确保法规合规性
投资于由开源驱动的平台,确保持续快速的创新以满足不断发展的业务需求

Apache Spark 是用于大规模数据处理的统一分析引擎。它以 Java、Scala、Python 和 R 提供高级 API,以及支持通用执行图的优化引擎。它还支持一套丰富的高级工具,包括用于 SQL 和结构化数据处理的 Spark SQL、用于机器学习的 MLlib、用于图处理的 GraphX 以及用于增量计算和流处理的 Structured Streaming。
RAPIDS Accelerator for Apache Spark 利用 GPU 通过 RAPIDS 库加速处理。
随着数据科学家从使用传统分析转向利用 AI 应用程序来更好地建模复杂的市场需求,传统的基于 CPU 的处理已无法跟上,同时又不会损害速度或成本。AI 在分析中的日益普及创造了对新框架的需求,以便使用 GPU 快速且经济高效地处理数据。
RAPIDS Accelerator for Apache Spark 结合了 RAPIDS cuDF 库的强大功能和 Spark 分布式计算框架的规模。RAPIDS Accelerator 库还具有基于 UCX 的内置加速 shuffle,可以配置为利用 GPU 到 GPU 的通信和 RDMA 功能。
Cloudera 和 NVIDIA 合作集成和优化了 CDP Private Cloud Base 中的 RAPIDS Accelerator for Apache Spark。借助 Private Cloud Base 7.1.6 或更高版本,运行 Apache Spark 3.0 应用程序的 Cloudera 客户只需在 NVIDIA 认证服务器中的 NVIDIA GPU 上运行它们,即可从 Spark 作业的透明加速中获益。无需更改应用程序代码。
NVIDIA 解决方案简介:使用 Nvidia 认证系统加速 CDP 工作负载
完整系统目录:合格系统目录
Cloudera 解决方案简介:使用 NVIDIA 认证系统加速您的 Cloudera 数据平台工作负载
Cloudera NVIDIA 合作伙伴网页 - https://www.cloudera.com/partners/solutions/nvidia.html
网络研讨会 - 借助 NVIDIA GPU 实现更快的大数据科学
要开始构建支持 NVIDIA 的 Cloudera 数据平台 Private Cloud 解决方案,请联系 Cloudera 销售团队