Clara Parabricks v4.4.0

rna_fq2bam

此工具相当于 RNA-Seq 样本的 fq2bam,接收 FASTQ 格式的输入,使用支持剪接的 STAR 算法进行比对,可选择标记重复 reads,并输出已比对的 BAM 文件,以便进行变异和融合基因的检出。

请参阅 rna_fq2bam 参考 部分,获取所有可用选项的详细列表。

复制
已复制!
            

# This command assumes all the inputs are in INPUT_DIR and all the outputs go to OUTPUT_DIR. docker run --rm --gpus all --volume INPUT_DIR:/workdir --volume OUTPUT_DIR:/outputdir \ --workdir /workdir \ nvcr.io/nvidia/clara/clara-parabricks:4.4.0-1 \ pbrun rna_fq2bam \ --in-fq /workdir/${INPUT_FASTQ_1} /workdir/${INPUT_FASTQ_2} \ --genome-lib-dir /workdir/${PATH_TO_GENOME_LIBRARY}/ \ --output-dir /outputdir/${PATH_TO_OUTPUT_DIRECTORY} \ --ref /workdir/${REFERENCE_FILE} \ --out-bam /outputdir/${OUTPUT_BAM} \ --read-files-command zcat

这些命令的输出将与上述命令的输出相同。请参阅 输出比较 页面,以比较结果。

复制
已复制!
            

# STAR Alignment $ ./STAR \ --genomeDir <INPUT_DIR>/${PATH_TO_GENOME_LIBRARY} \ --readFilesIn <INPUT_DIR>/${INPUT_FASTQ_1} <INPUT_DIR>/${INPUT_FASTQ_2} \ --outFileNamePrefix <OUTPUT_DIR>/${PATH_TO_OUTPUT_DIRECTORY}/ \ --outSAMtype BAM SortedByCoordinate \ --readFilesCommand zcat # Mark Duplicates $ gatk MarkDuplicates \ --java-options -Xmx30g \ -I Aligned.sortedByCoord.out.bam \# This filename is determined by STAR. -O <OUTPUT_DIR>/${NAME_OF_OUTPUT_BAM_FILE} \ -M metrics.txt

注意

请确保您安装的 STAR 版本与构建基因组索引时使用的版本相同。

Parabricks 版本的 STAR 与 2.7.2a CPU-only 版本的 STAR 兼容。

通过 fq2bam 流程运行 RNA-seq 数据。它将运行 STAR 比对器、坐标排序和标记重复项。

输入/输出文件选项

--ref REF

参考文件路径。(默认值:None)

此选项为必填项。

--in-fq [IN_FQ ...]

成对末端 FASTQ 文件的路径,后跟可选的带引号的 read groups(示例:“@RG\tID:foo\tLB:lib1\tPL:bar\tSM:sample\tPU:foo”)。文件必须为 fastq 或 fastq.gz 格式。所有输入集都应具有 read group;否则,都不应具有 read group,并且管道将自动添加 read group。此选项可以重复多次。示例 1:--in-fq sampleX_1_1.fastq.gz sampleX_1_2.fastq.gz --in-fq sampleX_2_1.fastq.gz sampleX_2_2.fastq.gz。示例 2:--in-fq sampleX_1_1.fastq.gz sampleX_1_2.fastq.gz "@RG\tID:foo\tLB:lib1\tPL:bar\tSM:sample\tPU:unit1" --in-fq sampleX_2_1.fastq.gz sampleX_2_2.fastq.gz "@RG\tID:foo2\tLB:lib1\tPL:bar\tSM:sample\tPU:unit2"。对于同一样本,Read Groups 应具有相同的样本名称 (SM) 和不同的 ID 和 PU。(默认值:None)

--in-se-fq [IN_SE_FQ ...]

单端 FASTQ 文件的路径,后跟可选的带引号的 read group(示例:“@RG\tID:foo\tLB:lib1\tPL:bar\tSM:sample\tPU:foo”)。文件必须为 fastq 或 fastq.gz 格式。所有输入集都应具有 read group,或者都不应具有 read group,并且管道将自动添加 read group。此选项可以重复多次。示例 1:--in-se-fq sampleX_1.fastq.gz --in-se-fq sampleX_2.fastq.gz 。示例 2:--in-se-fq sampleX_1.fastq.gz "@RG\tID:foo\tLB:lib1\tPL:bar\tSM:sample\tPU:unit1" --in-se-fq sampleX_2.fastq.gz "@RG\tID:foo2\tLB:lib1\tPL:bar\tSM:sample\tPU:unit2" 。对于同一样本,Read Groups 应具有相同的样本名称 (SM) 和不同的 ID 和 PU。(默认值:None)

--genome-lib-dir GENOME_LIB_DIR

基因组资源库目录的路径。用户应预先完成运行 STAR 所需的索引。(默认值:None)

此选项为必填项。

--output-dir OUTPUT_DIR

将包含所有生成文件的目录的路径。(默认值:None)

此选项为必填项。

--out-bam OUT_BAM

输出 BAM 文件的路径。(默认值:None)

此选项为必填项。

--out-duplicate-metrics OUT_DUPLICATE_METRICS

标记重复项后重复指标文件的路径。(默认值:None)

--out-qc-metrics-dir OUT_QC_METRICS_DIR

将生成 QC 指标的目录的路径。(默认值:None)

工具选项

--out-prefix OUT_PREFIX

输出数据的文件名前缀。(默认值:None)

--read-files-command READ_FILES_COMMAND

为每个输入文件执行的命令行。此命令应生成 FASTA 或 FASTQ 文本并将其发送到标准输出:例如,zcat 用于解压缩 .gz 文件,bzcat 用于解压缩 .bz2 文件等。(默认值:None)

--read-group-sm READ_GROUP_SM

此运行中 read groups 的 SM 标签。(默认值:None)

--read-group-lb READ_GROUP_LB

此运行中 read groups 的 LB 标签。(默认值:None)

--read-group-pl READ_GROUP_PL

此运行中 read groups 的 PL 标签。(默认值:None)

--read-group-id-prefix READ_GROUP_ID_PREFIX

此运行中 read groups 的 ID 和 PU 标签的前缀。此前缀将用于此运行中的所有 FASTQ 文件对。ID 和 PU 标签将由此前缀和一个对于一对 FASTQ 文件唯一的标识符组成。(默认值:None)

--num-sa-bases NUM_SA_BASES

SA 预索引字符串的长度(碱基)。较长的字符串将使用更多内存,但允许更快的搜索。建议值为 10 到 15 之间。对于小型基因组,该参数必须缩小到 min(14, log2(GenomeLength)/2 - 1)。(默认值:14)

--max-intron-size MAX_INTRON_SIZE

最大比对内含子大小。如果此值为 0,则最大大小将由 (2^winBinNbits)*winAnchorDistNbins 确定。(默认值:0)

--min-intron-size MIN_INTRON_SIZE

最小比对内含子大小。如果基因组间隙的长度大于或等于此值,则将其视为内含子,否则将其视为缺失。(默认值:21)

--min-match-filter MIN_MATCH_FILTER

比对输出所需的最小匹配碱基数。(默认值:0)

--min-match-filter-normalized MIN_MATCH_FILTER_NORMALIZED

与 --min-match-filter 相同,但已归一化为 read 长度(对于成对末端 reads,为 mate 长度的总和)。(默认值:0.66)

--out-filter-intron-motifs OUT_FILTER_INTRON_MOTIFS

使用其基序过滤比对的类型。此字符串可以是“None”表示不进行过滤,“RemoveNoncanonical”表示过滤掉包含非规范连接点的比对,或“RemoveNoncanonicalUnannotated”表示在使用带注释的剪接连接点数据库时,过滤掉包含非规范的未注释连接点的比对。带注释的非规范连接点将被保留。(默认值:None)

--max-out-filter-mismatch MAX_OUT_FILTER_MISMATCH

允许输出的比对的最大不匹配数。(默认值:10)

--max-out-filter-mismatch-ratio MAX_OUT_FILTER_MISMATCH_RATIO

允许输出的比对的最大不匹配率与 mapped 长度之比。(默认值:0.3)

--max-out-filter-multimap MAX_OUT_FILTER_MULTIMAP

允许 read 比对到的最大位点数,以便输出所有比对。否则,将不输出任何比对,并且该 read 将在 Log.final.out 中被计数为“mapped to too many loci”。(默认值:10)

--out-reads-unmapped OUT_READS_UNMAPPED

未比对和部分比对(即仅比对成对末端 read 的一个 mate)的 reads 在单独文件中的输出类型。此字符串可以是“None”表示不输出,或“Fastx”表示在单独的 FASTA/FASTQ 文件 Unmapped.out.mate1/2 中输出。(默认值:None)

--out-sam-unmapped OUT_SAM_UNMAPPED

未比对 reads 以 SAM 格式输出的类型。字符串可以是“None”表示不生成输出,“Within”表示在主 SAM 文件中输出未比对 reads。“Within_KeepPairs”选项将产生与“Within”相同的结果,因为对于排序的 SAM/BAM 输出(例如此工具生成的输出),未比对的 mates 将被忽略。(默认值:None)

--out-sam-attributes OUT_SAM_ATTRIBUTES [OUT_SAM_ATTRIBUTES ...]

输出 SAM 中所需的 SAM 属性字符串顺序。该字符串可以包含以下属性的任意组合:{NH, HI, AS, nM, NM, MD, jM, jI, XS, MC, ch}。或者,该字符串可以是“None”表示无属性,“Standard”表示属性 {NH, HI, AS, nM},或“All”表示属性 {NH, HI, AS, nM, NM, MD, jM, jI, MC, ch}(例如“--outSAMattributes NH nM jI XS ch”)。(默认值:Standard)

--out-sam-strand-field OUT_SAM_STRAND_FIELD

Cufflinks 样式的链字段标志。字符串可以是“None”表示无标志,或“intronMotif”表示从内含子基序派生的链。具有不一致和/或非规范内含子的 reads 将被过滤掉。(默认值:None)

--out-sam-mode OUT_SAM_MODE

SAM 输出模式。字符串可以是“None”表示无 SAM 输出,“Full”表示完整 SAM 输出,或“NoQS”表示无质量评分的完整 SAM 输出。(默认值:Full)

--out-sam-mapq-unique OUT_SAM_MAPQ_UNIQUE

唯一 mapping reads 的 MAPQ 值。必须在 [0, 255] 范围内。(默认值:255)

--min-score-filter MIN_SCORE_FILTER

比对输出所需的最小分数,已归一化为 read 长度(即成对末端 reads 的 mate 长度之和)。(默认值:0.66)

--min-spliced-mate-length MIN_SPLICED_MATE_LENGTH

已剪接的 read mate 的最小 mapped 长度,并已归一化为 mate 长度。必须大于 0。(默认值:0.66)

--max-junction-mismatches MAX_JUNCTION_MISMATCHES MAX_JUNCTION_MISMATCHES MAX_JUNCTION_MISMATCHES MAX_JUNCTION_MISMATCHES

剪接连接点拼接的最大不匹配数。必须为以下各项指定限制:(1)非规范基序,(2)GT/AG 和 CT/AC 基序,(3)GC/AG 和 CT/GC 基序,(4)AT/AC 和 GT/AT 基序。要指示四个选项中的任何一个没有限制,请使用 -1。(默认值:[0, -1, 0, 0])

--max-out-read-size MAX_OUT_READ_SIZE

一个 read 的 SAM 记录的最大大小(字节)。建议值:> (2 * (LengthMate1 + LengthMate2 + 100) * outFilterMultimapNmax。必须大于 0。(默认值:100000)

--max-alignments-per-read MAX_ALIGNMENTS_PER_READ

每个 read 要考虑的最大不同比对数。必须大于 0。(默认值:10000)

--score-gap SCORE_GAP

剪接连接点惩罚(独立于内含子基序)。(默认值:0)

--seed-search-start SEED_SEARCH_START

定义通过 read 的搜索起始点。read 分裂片段的长度将不超过此值。必须大于 0。(默认值:50)

--max-bam-sort-memory MAX_BAM_SORT_MEMORY

用于排序 BAM 的最大可用 RAM(字节)。如果此值为 0,则将其设置为基因组索引大小。必须大于或等于 0。(默认值:0)

--align-ends-type ALIGN_ENDS_TYPE

read 末端比对的类型。可以是以下两个选项之一:“Local”将执行允许软剪切的标准局部比对;“EndToEnd”将强制执行不允许软剪切的端到端 read 比对。(默认值:Local)

--align-insertion-flush ALIGN_INSERTION_FLUSH

刷新不明确的插入位置。字符串可以是“None”表示不刷新插入,或“Right”表示将插入刷新到右侧。(默认值:None)

--max-align-mates-gap MAX_ALIGN_MATES_GAP

两个 mates 之间的最大间隙。如果为 0,则最大内含子间隙将由 (2^winBinNbits)*winAnchorDistNbins 确定。(默认值:0)

--min-align-spliced-mate-map MIN_ALIGN_SPLICED_MATE_MAP

已剪接的 read mate 的最小 mapped 长度。必须大于或等于 0。(默认值:0)

--max-collapsed-junctions MAX_COLLAPSED_JUNCTIONS

折叠连接点的最大数量。必须大于 0。(默认值:1000000)

--min-align-sj-overhang MIN_ALIGN_SJ_OVERHANG

剪接比对的最小悬垂(即块大小)。必须大于 0。(默认值:5)

--min-align-sjdb-overhang MIN_ALIGN_SJDB_OVERHANG

带注释的 (sjdb) 剪接比对的最小悬垂(即块大小)。必须大于 0。(默认值:3)

--sjdb-overhang SJDB_OVERHANG

连接点每一侧的供体/受体序列的长度。理想情况下,此值应等于 mate_length - 1。必须大于 0。(默认值:100)

--min-chim-overhang MIN_CHIM_OVERHANG

Chimeric.out.junction 文件的最小悬垂。必须大于或等于 0。(默认值:20)

--min-chim-segment MIN_CHIM_SEGMENT

最小嵌合片段长度。如果设置为 0,则不会有嵌合输出。必须大于或等于 0。(默认值:0)

--max-chim-multimap MAX_CHIM_MULTIMAP

最大嵌合多重比对数。如果设置为 0,将使用仅考虑唯一比对的旧嵌合检测方案。必须大于或等于 0。(默认值:0)

--chim-multimap-score-range CHIM_MULTIMAP_SCORE_RANGE

最佳嵌合分数以下的多重 mapping 嵌合体的分数范围。此选项仅适用于 --max-chim-multimap > 1。必须大于或等于 0。(默认值:1)

--chim-score-non-gtag CHIM_SCORE_NON_GTAG

非 GT/AG 嵌合连接点的惩罚。(默认值:-1)

--min-non-chim-score-drop MIN_NON_CHIM_SCORE_DROP

要触发嵌合检测,最佳非嵌合比对分数相对于 read 长度的下降必须小于此值。必须大于或等于 0。(默认值:20)

--out-chim-format OUT_CHIM_FORMAT

Chimeric.out.junction 文件的格式化类型。可能的类型为 {0, 1}。如果类型为 0,则不会有注释行/标题。如果类型为 1,则文件末尾将有注释行:命令行和 Nreads:总数、唯一数、多重数。(默认值:0)

--two-pass-mode TWO_PASS_MODE

两遍 mapping 模式。字符串可以是“None”表示一遍 mapping,或“Basic”表示基本两遍 mapping,所有第一遍连接点都动态插入到基因组索引中。(默认值:None)

--out-chim-type OUT_CHIM_TYPE

嵌合输出的类型。此字符串可以是“Junctions”表示 Chimeric.out.junction,“WithinBAM”表示主比对 BAM 文件 (Aligned.*.bam),“WithinBAM_HardClip”表示补充嵌合比对中 CIGAR 的硬剪切,或“WithinBAM_SoftClip”表示补充嵌合比对中 CIGAR 的软剪切。(默认值:None)

--no-markdups

不执行标记重复项步骤。在排序后返回 BAM。(默认值:None)

--read-name-separator READ_NAME_SEPARATOR [READ_NAME_SEPARATOR ...]

分隔将在输出中修剪的 read 名称部分的字符(空格后的 read 名称始终会被修剪)。(默认值:/)

性能选项

--num-threads NUM_THREADS

每个 GPU 运行的工作线程数。(默认值:4)

--gpuwrite

使用一个 GPU 加速写入最终 BAM/CRAM。(默认值:None)

--gpuwrite-deflate-algo GPUWRITE_DEFLATE_ALGO

选择与 --gpuwrite 一起使用的 nvCOMP DEFLATE 算法。请注意,这些选项与 CPU DEFLATE 选项不对应。有效选项为 1、2 和 4。选项 1 最快,而选项 2 和 4 的吞吐量逐渐降低,但压缩率更高。当用户未提供输入时(即 None),默认值为 1(默认值:None)

--gpusort

使用 GPU 加速排序和标记。(默认值:None)

--use-gds

使用 GPUDirect Storage (GDS) 来启用直接数据路径,以便在 GPU 内存和存储之间进行直接内存访问 (DMA) 传输。必须与 --gpuwrite 同时使用。有关如何设置和使用 GPUDirect Storage 的信息,请参阅 Parabricks 文档 > 最佳性能。(默认值:None)

--memory-limit MEMORY_LIMIT

排序和后排序期间的系统内存限制(GB)。默认情况下,限制为系统总内存的一半。(默认值:62)

--low-memory

使用低内存模式(默认值:None)

常用选项

--logfile LOGFILE

日志文件的路径。如果未指定,则消息将仅写入标准错误输出。(默认值:None)

--tmp-dir TMP_DIR

将存储临时文件的目录的完整路径。

--with-petagene-dir WITH_PETAGENE_DIR

PetaGene 安装目录的完整路径。默认情况下,这应已安装在 /opt/petagene。使用此选项还需要通过设置 LD_PRELOAD 环境变量来预加载 PetaLink 库。可以选择设置用于数据和凭据的 PETASUITE_REFPATH 和 PGCLOUD_CREDPATH 环境变量(默认值:None)

--keep-tmp

完成操作后,不要删除存储临时文件的目录。

--no-seccomp-override

不要覆盖 docker 的 seccomp 选项(默认值:None)。

--version

查看兼容的软件版本。

GPU 选项

--num-gpus NUM_GPUS

运行要使用的 GPU 数量。将使用 GPU 0..(NUM_GPUS-1)。

注意

--in-fq 选项接受两个 FASTQ 文件的名称,可以选择后跟带引号的 read group。FASTQ 文件名不得以连字符开头。

上一篇 prepon
下一篇 somatic (体细胞变异检出器)
© 版权所有 2025, Nvidia。 上次更新时间:2025 年 1 月 13 日。