NVIDIA 文档中心 NVIDIA Clara Clara Parabricks v4.4.0 在 GCP 上运行 NVIDIA Parabricks

在 GCP 上运行 NVIDIA Parabricks

本指南介绍如何在 Google Cloud Platform (GCP) 上的计算实例上运行 Parabricks。

什么是 NVIDIA Parabricks？

Parabricks 是一个加速计算框架，支持基因组学行业的各种应用，主要支持 DNA、RNA 和体细胞突变检测应用的分析工作流程。Parabricks 具有业界领先的计算速度，使用多种经过行业验证的变异调用器快速将 FASTQ 文件转换为 VCF，并且还包括对这些变异进行 QC 和注释的功能。由于 Parabricks 基于公开可用的工具，因此结果易于验证，并且可以与其他公开可用的数据集结合使用。

更多信息请访问 Parabricks 产品页面。

详细的安装、使用和调优信息请参考 Parabricks 用户指南。

启动计算实例

在本节中，我们将展示如何在 GCP 上启动计算实例。

首先导航到 Google Cloud 首页，然后从左侧边栏选择“Compute Engine”。这将带我们进入虚拟机实例页面。

在页面顶部，选择“创建实例”。在这里，我们可以配置虚拟机实例的所有设置。在“名称”下，我们将实例命名为“parabricks”，并选择合适的区域。就本指南而言，区域可以是任何区域。

在“机器配置”下，我们将选择虚拟机实例的硬件详细信息。在顶部选择“GPU”，然后在“GPU 类型”中选择“NVIDIA T4”，在“GPU 数量”中选择“1”。在“机器类型”下，选择“n1-standard-32”。此机器类型满足 Parabricks 的最低 CPU 和内存要求，并且足以满足本指南的目的。“机器配置”部分现在应如下所示

我们将通过将基本映像从默认映像切换到已安装驱动程序的基本映像，来确保我们的虚拟机实例具有正确的 GPU 驱动程序。在“启动磁盘”部分下，选择“更改”。在“操作系统”下，选择“Linux 上的深度学习”，在“版本”下，选择“NVIDIA GPU 优化型 VMI”。在此页面上，我们还将磁盘大小从默认值增加到 500 GB。这将确保我们有足够的空间在测试 Parabricks 安装时使用测试数据集。“启动磁盘”页面将如下所示

现在我们拥有启动实例所需的一切。在页面底部，单击“创建”。几分钟后，我们可以看到实例正在运行并可以使用。

让我们单击实例转到实例页面，然后在右上角的“SSH”下，选择一种连接方法。有关连接到 GCP 实例的更多信息，请阅读他们的文档。

连接后，虚拟机将询问我们是否要安装 NVIDIA 驱动程序。选择“是”，并允许它自动安装驱动程序。

驱动程序安装完成后，我们需要设置 Docker 环境。此时，Docker 已经安装，但是需要 sudo 访问权限才能运行。我们可以通过运行以下命令来解决此问题

第一个命令将我们的用户添加到 Docker 组，允许我们无需使用 sudo 即可运行 Docker 命令。第二个命令刷新 Docker 以确保这些更改生效。我们可以通过运行 docker ps 来测试是否成功。此命令应在没有任何错误的情况下运行

现在我们准备开始安装 Parabricks 了！

安装 Parabricks

我们将把 Parabricks 安装到我们刚刚创建的实例中。为此，我们将使用 NVIDIA GPU Cloud (NGC) 下载 Parabricks Docker 镜像。

访问 NGC 上的 Parabricks 页面，获取最新版本 Parabricks 的 Docker pull 命令。

回到我们的 EC2 实例中，让我们运行 docker pull 命令

复制
已复制！

            
            $ docker pull nvcr.io/nvidia/clara/clara-parabricks:4.4.0-1

现在 Parabricks 已安装！让我们运行一些示例数据来测试它。

测试 Parabricks

Parabricks 提供了一个小型示例数据集作为安装和硬件的测试，可以使用以下命令下载

复制
已复制！

            
            $ wget -O parabricks_sample.tar.gz \
     "https://s3.amazonaws.com/parabricks.sample/parabricks_sample.tar.gz"

下载完成后，我们可以使用以下命令解压数据

复制
已复制！

            
            $ tar xzvf parabricks_sample.tar.gz

完成后，parabricks_sample 文件夹应如下所示

最后，我们可以在其上运行任何 Parabricks 管道。让我们使用以下命令运行 germline 管道

复制
已复制！

            
             $ docker run \
     --rm \
     --gpus all \
     --volume `pwd`:`pwd` \
     --workdir `pwd`/parabricks_sample \
     nvcr.io/nvidia/clara/clara-parabricks:4.4.0-1 \
     pbrun germline \
     --ref Ref/Homo_sapiens_assembly38.fasta \
     --in-fq Data/sample_1.fq.gz Data/sample_2.fq.gz \
     --knownSites Ref/Homo_sapiens_assembly38.known_indels.vcf.gz.tbi \
     --out-bam output.bam \
     --out-variants germline.vcf \
     --out-recal-file recal.txt

当我们看到 Parabricks 横幅并且 ProgressMeter 开始填充值时，我们可以判断 Parabricks 已正确启动

这应该需要大约 10 分钟才能完成运行。完成后，我们应该在示例数据目录中看到输出文件

恭喜，我们刚刚运行了我们的第一个 Parabricks 作业！

结束语

我们鼓励您通过使用自己的数据、尝试其他管道以及大致探索 Parabricks 的功能来扩展本指南中的演示。查看文档以获取有关可用不同管道的更多信息。您还可以在 Parabricks 论坛上找到我们的在线开发者社区，您可以在学习如何使用 Parabricks 时在其中提问和搜索答案。

上一篇在 DNAnexus 上运行 NVIDIA Parabricks

下一篇在 nf-core 上运行 NVIDIA Parabricks