Clara Parabricks v4.4.0

在 DNAnexus 上运行 NVIDIA Parabricks

本指南展示了如何使用 GUI 和 CLI 在 DNAnexus 上的计算实例上运行 Parabricks。

Parabricks 是一个加速计算框架,支持基因组学行业的各种应用,主要支持 DNA、RNA 和体细胞突变检测应用的分析工作流程。凭借行业领先的计算时间,Parabricks 使用多个经过行业验证的变异调用器快速将 FASTQ 文件转换为 VCF,并且还包括 QC 和注释这些变异的能力。由于 Parabricks 基于公开可用的工具,因此结果易于验证,并且可以与其他公开可用的数据集结合使用。

更多信息请访问 Parabricks 产品页面

详细的安装、使用和调优信息可在 Parabricks 用户指南中找到。

在本节中,我们将展示如何在 DNAnexus 上查找所有可用的 Parabricks 流程。

从 DNAnexus 首页开始,点击顶部工具栏中的“Tools(工具)”。

image_homepage.png

这将带您进入工具库,其中显示了您可以在 DNAnexus 上运行的所有工作流程。我们可以通过点击“Name(名称)”并输入“Parabricks”来筛选出 Parabricks 工具。列表应如下所示

image_tool_list.png

在本指南中,我们将以运行 FQ-to-BAM 为例,展示如何开始使用。所有工作流程的运行方式都类似,因此此信息可以转移到任何流程。

让我们首先点击 FQ-to-BAM,这将带我们进入该工具的着陆页。

每个工具都有这样的页面,其中包含诸如 README、命令行运行说明以及此特定工具的输入/输出等信息。

让我们首先使用 GUI 运行 FQ-to-BAM。点击左上角的“Run(运行)”。

image_fq2bam_tool.png

这将打开一个新页面,并提示我们选择一个包含此运行数据的项目。您可以使用任何您喜欢的 fastq 和参考文件,或者您可以从以下位置下载 Parabricks 示例文件

复制
已复制!
            

$ wget -O parabricks_sample.tar.gz \ "https://s3.amazonaws.com/parabricks.sample/parabricks_sample.tar.gz"

并将它们上传到 DNAnexus,就像我们在本教程中所做的那样。请注意,参考文件必须压缩在一个文件夹中。

选择项目后,我们在页面左侧看到此流程的文件输入和输出的图形表示

image_inputs_and_outputs.png

Parabricks FQ-to-BAM 流程接受参考文件和输入 fastq 文件对作为必需文件,并可以选择添加 interval 和 known indel 文件。输出将是一个带有 option recall 文件的 bam 文件。

其他选项可以在页面右侧的“Analysis Inputs 2(分析输入 2)”下找到

image_options.png

在这里您可以看到不是文件的输入,例如布尔和整数输入。点击每个选项旁边的问号将弹出一个对话框,解释如何使用每个选项。例如,点击“Interval(区间)”旁边的问号会产生以下结果

image_interval_help.png

在本教程中,我们将点击“Select File(选择文件)”来选择我们的参考 zip 文件

image_select_file.png

我们将对 fastq 文件对执行相同的操作。此时,您可以设置任何其他您想要的选项,但是为了本教程的简单性,我们将保留所有其他选项的默认值。

现在我们选择了文件,我们可以点击右上角的“Start Analysis(开始分析)”。这将带我们到一个页面,我们可以在其中监视作业的状态。让我们点击“View Log(查看日志)”并观看作业运行。

image_view_log.png

作业应该需要几分钟才能启动,还需要几分钟才能运行完成。

作业完成后,我们可以通过点击 View Log(查看日志)来检查日志。在日志底部,我们可以看到 Parabricks 终端输出和作业成功完成的确认文本

image_terminal.png

您可以点击 View all Inputs/Outputs(查看所有输入/输出)以查看输出文件以及输入参数

image_view_inputs_and_outputs.png

恭喜!我们已在 DNAnexus 上成功运行了 Parabricks 作业。

对于喜欢使用终端而不是 GUI 的用户,也存在该选项,前提是您已安装 DNAnexus SDK。我们可以使用以下命令,使用与上一节相同的数据来运行 FQ-to-BAM

复制
已复制!
            

$ dx run fq2bam \ -iref=<project-id:reference-file-id> \ -iin_fq=<project-id:fastq1-file-id> \ -iin_fq=<project-id:fastq2-file-id>

为此,我们需要我们计划使用的项目和文件的 ID。获取这些 ID 的一种方法是转到 GUI,点击文件,然后从右侧边栏复制 ID


image_view_project_id.png

在我们准备好项目和文件 ID 后,我们可以运行命令,它应该像使用 GUI 一样在项目的 Monitor(监控)选项卡中显示。

上一篇 在 Azure 上运行 NVIDIA Parabricks
下一篇 在 GCP 上运行 NVIDIA Parabricks
© 版权所有 2025, Nvidia。 上次更新于 2025 年 1 月 13 日。