在 DNAnexus 上运行 NVIDIA Parabricks
本指南展示了如何使用 GUI 和 CLI 在 DNAnexus 上的计算实例上运行 Parabricks。
Parabricks 是一个加速计算框架,支持基因组学行业的各种应用,主要支持 DNA、RNA 和体细胞突变检测应用的分析工作流程。凭借行业领先的计算时间,Parabricks 使用多个经过行业验证的变异调用器快速将 FASTQ 文件转换为 VCF,并且还包括 QC 和注释这些变异的能力。由于 Parabricks 基于公开可用的工具,因此结果易于验证,并且可以与其他公开可用的数据集结合使用。
更多信息请访问 Parabricks 产品页面。
详细的安装、使用和调优信息可在 Parabricks 用户指南中找到。
在本节中,我们将展示如何在 DNAnexus 上查找所有可用的 Parabricks 流程。
从 DNAnexus 首页开始,点击顶部工具栏中的“Tools(工具)”。

这将带您进入工具库,其中显示了您可以在 DNAnexus 上运行的所有工作流程。我们可以通过点击“Name(名称)”并输入“Parabricks”来筛选出 Parabricks 工具。列表应如下所示

在本指南中,我们将以运行 FQ-to-BAM 为例,展示如何开始使用。所有工作流程的运行方式都类似,因此此信息可以转移到任何流程。
让我们首先点击 FQ-to-BAM,这将带我们进入该工具的着陆页。
每个工具都有这样的页面,其中包含诸如 README、命令行运行说明以及此特定工具的输入/输出等信息。
让我们首先使用 GUI 运行 FQ-to-BAM。点击左上角的“Run(运行)”。

这将打开一个新页面,并提示我们选择一个包含此运行数据的项目。您可以使用任何您喜欢的 fastq 和参考文件,或者您可以从以下位置下载 Parabricks 示例文件
$ wget -O parabricks_sample.tar.gz \
"https://s3.amazonaws.com/parabricks.sample/parabricks_sample.tar.gz"
并将它们上传到 DNAnexus,就像我们在本教程中所做的那样。请注意,参考文件必须压缩在一个文件夹中。
选择项目后,我们在页面左侧看到此流程的文件输入和输出的图形表示

Parabricks FQ-to-BAM 流程接受参考文件和输入 fastq 文件对作为必需文件,并可以选择添加 interval 和 known indel 文件。输出将是一个带有 option recall 文件的 bam 文件。
其他选项可以在页面右侧的“Analysis Inputs 2(分析输入 2)”下找到

在这里您可以看到不是文件的输入,例如布尔和整数输入。点击每个选项旁边的问号将弹出一个对话框,解释如何使用每个选项。例如,点击“Interval(区间)”旁边的问号会产生以下结果

在本教程中,我们将点击“Select File(选择文件)”来选择我们的参考 zip 文件

我们将对 fastq 文件对执行相同的操作。此时,您可以设置任何其他您想要的选项,但是为了本教程的简单性,我们将保留所有其他选项的默认值。
现在我们选择了文件,我们可以点击右上角的“Start Analysis(开始分析)”。这将带我们到一个页面,我们可以在其中监视作业的状态。让我们点击“View Log(查看日志)”并观看作业运行。

作业应该需要几分钟才能启动,还需要几分钟才能运行完成。
作业完成后,我们可以通过点击 View Log(查看日志)来检查日志。在日志底部,我们可以看到 Parabricks 终端输出和作业成功完成的确认文本

您可以点击 View all Inputs/Outputs(查看所有输入/输出)以查看输出文件以及输入参数

恭喜!我们已在 DNAnexus 上成功运行了 Parabricks 作业。
对于喜欢使用终端而不是 GUI 的用户,也存在该选项,前提是您已安装 DNAnexus SDK。我们可以使用以下命令,使用与上一节相同的数据来运行 FQ-to-BAM
$ dx run fq2bam \
-iref=<project-id:reference-file-id> \
-iin_fq=<project-id:fastq1-file-id> \
-iin_fq=<project-id:fastq2-file-id>
为此,我们需要我们计划使用的项目和文件的 ID。获取这些 ID 的一种方法是转到 GUI,点击文件,然后从右侧边栏复制 ID

在我们准备好项目和文件 ID 后,我们可以运行命令,它应该像使用 GUI 一样在项目的 Monitor(监控)选项卡中显示。