NVIDIA 文档中心 NVIDIA Clara Clara Parabricks v4.4.0 rna_fq2bam

rna_fq2bam

此工具相当于 RNA-Seq 样本的 fq2bam，接收 FASTQ 格式的输入，使用支持剪接的 STAR 算法进行比对，可选择标记重复 reads，并输出已比对的 BAM 文件，以便进行变异和融合基因的检出。

请参阅 rna_fq2bam 参考部分，获取所有可用选项的详细列表。

快速入门

复制
已复制!

            
            # This command assumes all the inputs are in INPUT_DIR and all the outputs go to OUTPUT_DIR.
docker run --rm --gpus all --volume INPUT_DIR:/workdir --volume OUTPUT_DIR:/outputdir \
    --workdir /workdir \
    nvcr.io/nvidia/clara/clara-parabricks:4.4.0-1 \
    pbrun rna_fq2bam \
    --in-fq /workdir/${INPUT_FASTQ_1} /workdir/${INPUT_FASTQ_2} \
    --genome-lib-dir /workdir/${PATH_TO_GENOME_LIBRARY}/ \
    --output-dir /outputdir/${PATH_TO_OUTPUT_DIRECTORY} \
    --ref /workdir/${REFERENCE_FILE} \
    --out-bam /outputdir/${OUTPUT_BAM} \
    --read-files-command zcat

兼容的 CPU 命令

这些命令的输出将与上述命令的输出相同。请参阅输出比较页面，以比较结果。

复制
已复制!

            
            # STAR Alignment
$ ./STAR \
      --genomeDir <INPUT_DIR>/${PATH_TO_GENOME_LIBRARY} \
      --readFilesIn <INPUT_DIR>/${INPUT_FASTQ_1} <INPUT_DIR>/${INPUT_FASTQ_2} \
      --outFileNamePrefix <OUTPUT_DIR>/${PATH_TO_OUTPUT_DIRECTORY}/ \
      --outSAMtype BAM SortedByCoordinate \
      --readFilesCommand zcat

# Mark Duplicates
$ gatk MarkDuplicates \
    --java-options -Xmx30g \
    -I Aligned.sortedByCoord.out.bam \# This filename is determined by STAR.
    -O <OUTPUT_DIR>/${NAME_OF_OUTPUT_BAM_FILE} \
    -M metrics.txt

注意

请确保您安装的 STAR 版本与构建基因组索引时使用的版本相同。

Parabricks 版本的 STAR 与 2.7.2a CPU-only 版本的 STAR 兼容。

rna_fq2bam 参考

通过 fq2bam 流程运行 RNA-seq 数据。它将运行 STAR 比对器、坐标排序和标记重复项。

输入/输出文件选项

--ref REF

参考文件路径。（默认值：None）

此选项为必填项。

--in-fq [IN_FQ ...]

成对末端 FASTQ 文件的路径，后跟可选的带引号的 read groups（示例：“@RG\tID:foo\tLB:lib1\tPL:bar\tSM:sample\tPU:foo”）。文件必须为 fastq 或 fastq.gz 格式。所有输入集都应具有 read group；否则，都不应具有 read group，并且管道将自动添加 read group。此选项可以重复多次。示例 1：--in-fq sampleX_1_1.fastq.gz sampleX_1_2.fastq.gz --in-fq sampleX_2_1.fastq.gz sampleX_2_2.fastq.gz。示例 2：--in-fq sampleX_1_1.fastq.gz sampleX_1_2.fastq.gz "@RG\tID:foo\tLB:lib1\tPL:bar\tSM:sample\tPU:unit1" --in-fq sampleX_2_1.fastq.gz sampleX_2_2.fastq.gz "@RG\tID:foo2\tLB:lib1\tPL:bar\tSM:sample\tPU:unit2"。对于同一样本，Read Groups 应具有相同的样本名称 (SM) 和不同的 ID 和 PU。（默认值：None）

--in-se-fq [IN_SE_FQ ...]

单端 FASTQ 文件的路径，后跟可选的带引号的 read group（示例：“@RG\tID:foo\tLB:lib1\tPL:bar\tSM:sample\tPU:foo”）。文件必须为 fastq 或 fastq.gz 格式。所有输入集都应具有 read group，或者都不应具有 read group，并且管道将自动添加 read group。此选项可以重复多次。示例 1：--in-se-fq sampleX_1.fastq.gz --in-se-fq sampleX_2.fastq.gz 。示例 2：--in-se-fq sampleX_1.fastq.gz "@RG\tID:foo\tLB:lib1\tPL:bar\tSM:sample\tPU:unit1" --in-se-fq sampleX_2.fastq.gz "@RG\tID:foo2\tLB:lib1\tPL:bar\tSM:sample\tPU:unit2" 。对于同一样本，Read Groups 应具有相同的样本名称 (SM) 和不同的 ID 和 PU。（默认值：None）

--genome-lib-dir GENOME_LIB_DIR

基因组资源库目录的路径。用户应预先完成运行 STAR 所需的索引。（默认值：None）

此选项为必填项。

--output-dir OUTPUT_DIR

将包含所有生成文件的目录的路径。（默认值：None）

此选项为必填项。

--out-bam OUT_BAM

输出 BAM 文件的路径。（默认值：None）

此选项为必填项。

--out-duplicate-metrics OUT_DUPLICATE_METRICS

标记重复项后重复指标文件的路径。（默认值：None）

--out-qc-metrics-dir OUT_QC_METRICS_DIR

将生成 QC 指标的目录的路径。（默认值：None）

工具选项

--out-prefix OUT_PREFIX: 输出数据的文件名前缀。（默认值：None）
--read-files-command READ_FILES_COMMAND: 为每个输入文件执行的命令行。此命令应生成 FASTA 或 FASTQ 文本并将其发送到标准输出：例如，zcat 用于解压缩 .gz 文件，bzcat 用于解压缩 .bz2 文件等。（默认值：None）
--read-group-sm READ_GROUP_SM: 此运行中 read groups 的 SM 标签。（默认值：None）
--read-group-lb READ_GROUP_LB: 此运行中 read groups 的 LB 标签。（默认值：None）
--read-group-pl READ_GROUP_PL: 此运行中 read groups 的 PL 标签。（默认值：None）
--read-group-id-prefix READ_GROUP_ID_PREFIX: 此运行中 read groups 的 ID 和 PU 标签的前缀。此前缀将用于此运行中的所有 FASTQ 文件对。ID 和 PU 标签将由此前缀和一个对于一对 FASTQ 文件唯一的标识符组成。（默认值：None）
--num-sa-bases NUM_SA_BASES: SA 预索引字符串的长度（碱基）。较长的字符串将使用更多内存，但允许更快的搜索。建议值为 10 到 15 之间。对于小型基因组，该参数必须缩小到 min(14, log2(GenomeLength)/2 - 1)。（默认值：14）
--max-intron-size MAX_INTRON_SIZE: 最大比对内含子大小。如果此值为 0，则最大大小将由 (2^winBinNbits)*winAnchorDistNbins 确定。（默认值：0）
--min-intron-size MIN_INTRON_SIZE: 最小比对内含子大小。如果基因组间隙的长度大于或等于此值，则将其视为内含子，否则将其视为缺失。（默认值：21）
--min-match-filter MIN_MATCH_FILTER: 比对输出所需的最小匹配碱基数。（默认值：0）
--min-match-filter-normalized MIN_MATCH_FILTER_NORMALIZED: 与 --min-match-filter 相同，但已归一化为 read 长度（对于成对末端 reads，为 mate 长度的总和）。（默认值：0.66）
--out-filter-intron-motifs OUT_FILTER_INTRON_MOTIFS: 使用其基序过滤比对的类型。此字符串可以是“None”表示不进行过滤，“RemoveNoncanonical”表示过滤掉包含非规范连接点的比对，或“RemoveNoncanonicalUnannotated”表示在使用带注释的剪接连接点数据库时，过滤掉包含非规范的未注释连接点的比对。带注释的非规范连接点将被保留。（默认值：None）
--max-out-filter-mismatch MAX_OUT_FILTER_MISMATCH: 允许输出的比对的最大不匹配数。（默认值：10）
--max-out-filter-mismatch-ratio MAX_OUT_FILTER_MISMATCH_RATIO: 允许输出的比对的最大不匹配率与 mapped 长度之比。（默认值：0.3）
--max-out-filter-multimap MAX_OUT_FILTER_MULTIMAP: 允许 read 比对到的最大位点数，以便输出所有比对。否则，将不输出任何比对，并且该 read 将在 Log.final.out 中被计数为“mapped to too many loci”。（默认值：10）
--out-reads-unmapped OUT_READS_UNMAPPED: 未比对和部分比对（即仅比对成对末端 read 的一个 mate）的 reads 在单独文件中的输出类型。此字符串可以是“None”表示不输出，或“Fastx”表示在单独的 FASTA/FASTQ 文件 Unmapped.out.mate1/2 中输出。（默认值：None）
--out-sam-unmapped OUT_SAM_UNMAPPED: 未比对 reads 以 SAM 格式输出的类型。字符串可以是“None”表示不生成输出，“Within”表示在主 SAM 文件中输出未比对 reads。“Within_KeepPairs”选项将产生与“Within”相同的结果，因为对于排序的 SAM/BAM 输出（例如此工具生成的输出），未比对的 mates 将被忽略。（默认值：None）
--out-sam-attributes OUT_SAM_ATTRIBUTES [OUT_SAM_ATTRIBUTES ...]: 输出 SAM 中所需的 SAM 属性字符串顺序。该字符串可以包含以下属性的任意组合：{NH, HI, AS, nM, NM, MD, jM, jI, XS, MC, ch}。或者，该字符串可以是“None”表示无属性，“Standard”表示属性 {NH, HI, AS, nM}，或“All”表示属性 {NH, HI, AS, nM, NM, MD, jM, jI, MC, ch}（例如“--outSAMattributes NH nM jI XS ch”）。（默认值：Standard）
--out-sam-strand-field OUT_SAM_STRAND_FIELD: Cufflinks 样式的链字段标志。字符串可以是“None”表示无标志，或“intronMotif”表示从内含子基序派生的链。具有不一致和/或非规范内含子的 reads 将被过滤掉。（默认值：None）
--out-sam-mode OUT_SAM_MODE: SAM 输出模式。字符串可以是“None”表示无 SAM 输出，“Full”表示完整 SAM 输出，或“NoQS”表示无质量评分的完整 SAM 输出。（默认值：Full）
--out-sam-mapq-unique OUT_SAM_MAPQ_UNIQUE: 唯一 mapping reads 的 MAPQ 值。必须在 [0, 255] 范围内。（默认值：255）
--min-score-filter MIN_SCORE_FILTER: 比对输出所需的最小分数，已归一化为 read 长度（即成对末端 reads 的 mate 长度之和）。（默认值：0.66）
--min-spliced-mate-length MIN_SPLICED_MATE_LENGTH: 已剪接的 read mate 的最小 mapped 长度，并已归一化为 mate 长度。必须大于 0。（默认值：0.66）
--max-junction-mismatches MAX_JUNCTION_MISMATCHES MAX_JUNCTION_MISMATCHES MAX_JUNCTION_MISMATCHES MAX_JUNCTION_MISMATCHES: 剪接连接点拼接的最大不匹配数。必须为以下各项指定限制：（1）非规范基序，（2）GT/AG 和 CT/AC 基序，（3）GC/AG 和 CT/GC 基序，（4）AT/AC 和 GT/AT 基序。要指示四个选项中的任何一个没有限制，请使用 -1。（默认值：[0, -1, 0, 0]）
--max-out-read-size MAX_OUT_READ_SIZE: 一个 read 的 SAM 记录的最大大小（字节）。建议值：> (2 * (LengthMate1 + LengthMate2 + 100) * outFilterMultimapNmax。必须大于 0。（默认值：100000）
--max-alignments-per-read MAX_ALIGNMENTS_PER_READ: 每个 read 要考虑的最大不同比对数。必须大于 0。（默认值：10000）
--score-gap SCORE_GAP: 剪接连接点惩罚（独立于内含子基序）。（默认值：0）
--seed-search-start SEED_SEARCH_START: 定义通过 read 的搜索起始点。read 分裂片段的长度将不超过此值。必须大于 0。（默认值：50）
--max-bam-sort-memory MAX_BAM_SORT_MEMORY: 用于排序 BAM 的最大可用 RAM（字节）。如果此值为 0，则将其设置为基因组索引大小。必须大于或等于 0。（默认值：0）
--align-ends-type ALIGN_ENDS_TYPE: read 末端比对的类型。可以是以下两个选项之一：“Local”将执行允许软剪切的标准局部比对；“EndToEnd”将强制执行不允许软剪切的端到端 read 比对。（默认值：Local）
--align-insertion-flush ALIGN_INSERTION_FLUSH: 刷新不明确的插入位置。字符串可以是“None”表示不刷新插入，或“Right”表示将插入刷新到右侧。（默认值：None）
--max-align-mates-gap MAX_ALIGN_MATES_GAP: 两个 mates 之间的最大间隙。如果为 0，则最大内含子间隙将由 (2^winBinNbits)*winAnchorDistNbins 确定。（默认值：0）
--min-align-spliced-mate-map MIN_ALIGN_SPLICED_MATE_MAP: 已剪接的 read mate 的最小 mapped 长度。必须大于或等于 0。（默认值：0）
--max-collapsed-junctions MAX_COLLAPSED_JUNCTIONS: 折叠连接点的最大数量。必须大于 0。（默认值：1000000）
--min-align-sj-overhang MIN_ALIGN_SJ_OVERHANG: 剪接比对的最小悬垂（即块大小）。必须大于 0。（默认值：5）
--min-align-sjdb-overhang MIN_ALIGN_SJDB_OVERHANG: 带注释的 (sjdb) 剪接比对的最小悬垂（即块大小）。必须大于 0。（默认值：3）
--sjdb-overhang SJDB_OVERHANG: 连接点每一侧的供体/受体序列的长度。理想情况下，此值应等于 mate_length - 1。必须大于 0。（默认值：100）
--min-chim-overhang MIN_CHIM_OVERHANG: Chimeric.out.junction 文件的最小悬垂。必须大于或等于 0。（默认值：20）
--min-chim-segment MIN_CHIM_SEGMENT: 最小嵌合片段长度。如果设置为 0，则不会有嵌合输出。必须大于或等于 0。（默认值：0）
--max-chim-multimap MAX_CHIM_MULTIMAP: 最大嵌合多重比对数。如果设置为 0，将使用仅考虑唯一比对的旧嵌合检测方案。必须大于或等于 0。（默认值：0）
--chim-multimap-score-range CHIM_MULTIMAP_SCORE_RANGE: 最佳嵌合分数以下的多重 mapping 嵌合体的分数范围。此选项仅适用于 --max-chim-multimap > 1。必须大于或等于 0。（默认值：1）
--chim-score-non-gtag CHIM_SCORE_NON_GTAG: 非 GT/AG 嵌合连接点的惩罚。（默认值：-1）
--min-non-chim-score-drop MIN_NON_CHIM_SCORE_DROP: 要触发嵌合检测，最佳非嵌合比对分数相对于 read 长度的下降必须小于此值。必须大于或等于 0。（默认值：20）
--out-chim-format OUT_CHIM_FORMAT: Chimeric.out.junction 文件的格式化类型。可能的类型为 {0, 1}。如果类型为 0，则不会有注释行/标题。如果类型为 1，则文件末尾将有注释行：命令行和 Nreads：总数、唯一数、多重数。（默认值：0）
--two-pass-mode TWO_PASS_MODE: 两遍 mapping 模式。字符串可以是“None”表示一遍 mapping，或“Basic”表示基本两遍 mapping，所有第一遍连接点都动态插入到基因组索引中。（默认值：None）
--out-chim-type OUT_CHIM_TYPE: 嵌合输出的类型。此字符串可以是“Junctions”表示 Chimeric.out.junction，“WithinBAM”表示主比对 BAM 文件 (Aligned.*.bam)，“WithinBAM_HardClip”表示补充嵌合比对中 CIGAR 的硬剪切，或“WithinBAM_SoftClip”表示补充嵌合比对中 CIGAR 的软剪切。（默认值：None）
--no-markdups: 不执行标记重复项步骤。在排序后返回 BAM。（默认值：None）
--read-name-separator READ_NAME_SEPARATOR [READ_NAME_SEPARATOR ...]: 分隔将在输出中修剪的 read 名称部分的字符（空格后的 read 名称始终会被修剪）。（默认值：/）

性能选项

--num-threads NUM_THREADS: 每个 GPU 运行的工作线程数。（默认值：4）
--gpuwrite: 使用一个 GPU 加速写入最终 BAM/CRAM。（默认值：None）
--gpuwrite-deflate-algo GPUWRITE_DEFLATE_ALGO: 选择与 --gpuwrite 一起使用的 nvCOMP DEFLATE 算法。请注意，这些选项与 CPU DEFLATE 选项不对应。有效选项为 1、2 和 4。选项 1 最快，而选项 2 和 4 的吞吐量逐渐降低，但压缩率更高。当用户未提供输入时（即 None），默认值为 1（默认值：None）
--gpusort: 使用 GPU 加速排序和标记。（默认值：None）
--use-gds: 使用 GPUDirect Storage (GDS) 来启用直接数据路径，以便在 GPU 内存和存储之间进行直接内存访问 (DMA) 传输。必须与 --gpuwrite 同时使用。有关如何设置和使用 GPUDirect Storage 的信息，请参阅 Parabricks 文档 > 最佳性能。（默认值：None）
--memory-limit MEMORY_LIMIT: 排序和后排序期间的系统内存限制（GB）。默认情况下，限制为系统总内存的一半。（默认值：62）
--low-memory: 使用低内存模式（默认值：None）

常用选项

--logfile LOGFILE: 日志文件的路径。如果未指定，则消息将仅写入标准错误输出。（默认值：None）
--tmp-dir TMP_DIR: 将存储临时文件的目录的完整路径。
--with-petagene-dir WITH_PETAGENE_DIR: PetaGene 安装目录的完整路径。默认情况下，这应已安装在 /opt/petagene。使用此选项还需要通过设置 LD_PRELOAD 环境变量来预加载 PetaLink 库。可以选择设置用于数据和凭据的 PETASUITE_REFPATH 和 PGCLOUD_CREDPATH 环境变量（默认值：None）
--keep-tmp: 完成操作后，不要删除存储临时文件的目录。
--no-seccomp-override: 不要覆盖 docker 的 seccomp 选项（默认值：None）。
--version: 查看兼容的软件版本。

GPU 选项

--num-gpus NUM_GPUS: 运行要使用的 GPU 数量。将使用 GPU 0..(NUM_GPUS-1)。

注意

--in-fq 选项接受两个 FASTQ 文件的名称，可以选择后跟带引号的 read group。FASTQ 文件名不得以连字符开头。

上一篇 prepon

下一篇 somatic (体细胞变异检出器)