applybqsr
使用 BQSR 报告更新碱基质量分数。
此工具使用 bqsr [链接] 工具生成的报告重新校准 BAM 文件中的质量分数。按照 GATK 最佳实践建议,这应在比对之后、变异检出之前应用,以最大程度地提高最终变异检出的准确性。
请注意,applybqsr 工具最多将使用两个 GPU。
请参阅 applybqsr 参考 部分,了解所有可用选项的详细列表。
# This command assumes all the inputs are in INPUT_DIR and all the outputs go to OUTPUT_DIR.
docker run --rm --gpus all --volume INPUT_DIR:/workdir --volume OUTPUT_DIR:/outputdir \
--workdir /workdir \
nvcr.io/nvidia/clara/clara-parabricks:4.4.0-1 \
pbrun applybqsr \
--ref /workdir/${REFERENCE_FILE} \
--in-bam /workdir/${INPUT_BAM} \
--in-recal-file /workdir/${INPUT_RECAL_FILE} \
--out-bam /outputdir/${OUTPUT_BAM}
以下命令是上述 Parabricks 命令的 GATK4 对等命令。这些命令的输出将与上述命令的输出相同。
$ gatk ApplyBQSR \
--java-options -Xmx30g \
-R <INPUT_DIR>/${REFERENCE_FILE} \
-I <INPUT_DIR>/${INPUT_BAM} \
--bqsr-recal-file <INPUT_DIR>/${INPUT_RECAL_FILE} \
-O <OUTPUT_DIR>/${OUTPUT_BAM}
使用 BQSR 报告更新碱基质量分数。
输入/输出文件选项
- --ref REF
-
参考文件路径。(默认值:None)
此选项为必填项。
- --in-bam IN_BAM
-
BAM 文件路径。(默认值:None)
此选项为必填项。
- --in-recal-file IN_RECAL_FILE
-
BQSR 报告文件路径。(默认值:None)
此选项为必填项。
- --interval-file INTERVAL_FILE
-
间隔文件路径,格式为以下格式之一:Picard 样式(.interval_list 或 .picard)、GATK 样式(.list 或 .intervals)或 BED 文件 (.bed)。此选项可以多次使用。(默认值:None)
- --out-bam OUT_BAM
-
输出 BAM 文件。(默认值:None)
此选项为必填项。
工具选项
- -L INTERVAL, --interval INTERVAL
-
从中调用 applyBQSR 的输入读取的间隔。所有间隔将具有 100 个碱基对的填充以获取读取记录,并且重叠的间隔将被合并。间隔文件应使用 --interval-file 选项传递。此选项可以多次使用(例如“-L chr1 -L chr2:10000 -L chr3:20000+ -L chr4:10000-20000”)。(默认值:None)
- -ip INTERVAL_PADDING, --interval-padding INTERVAL_PADDING
-
要添加到您包含的每个间隔的填充量(以碱基对为单位)。(默认值:None)
性能选项
- --num-threads NUM_THREADS
-
工作线程数。(默认值:8)
通用选项
- --logfile LOGFILE
-
日志文件路径。如果未指定,消息将仅写入标准错误输出。(默认值:None)
- --tmp-dir TMP_DIR
-
将存储临时文件的目录的完整路径。
- --with-petagene-dir WITH_PETAGENE_DIR
-
PetaGene 安装目录的完整路径。默认情况下,这应安装在 /opt/petagene。使用此选项还需要通过设置 LD_PRELOAD 环境变量预加载 PetaLink 库。可以选择设置用于数据和凭据的 PETASUITE_REFPATH 和 PGCLOUD_CREDPATH 环境变量(默认值:None)
- --keep-tmp
-
完成时不删除存储临时文件的目录。
- --no-seccomp-override
-
不覆盖 docker 的 seccomp 选项(默认值:None)。
- --version
-
查看兼容的软件版本。
GPU 选项
- --num-gpus NUM_GPUS
-
运行中使用的 GPU 数量。将使用 GPU 0..(NUM_GPUS-1)。