Clara Parabricks v4.4.0

markdup

标记 BAM/CRAM 文件中的重复 reads。

此工具定位并标记 BAM 或 SAM 文件中的重复 reads,其中重复 reads 定义为源自单个 DNA 片段。

markdup 支持两种标记重复项的方式,假设排序顺序为坐标(默认)或 queryname (--markdups-assume-sortorder-querynamer)。

输入 BAM/CRAM 必须按 queryname 排序。如果未排序,请使用 --sort-order queryname 运行 pbrun bamsort 以预处理输入文件。

有关所有可用选项的详细列表,请参阅 markdup 参考 部分。

复制
已复制!
            

# This command assumes all the inputs are in INPUT_DIR and all the outputs go to OUTPUT_DIR. docker run --rm --gpus all --volume INPUT_DIR:/workdir --volume OUTPUT_DIR:/outputdir \ --workdir /workdir \ nvcr.io/nvidia/clara/clara-parabricks:4.4.0-1 \ pbrun markdup \ --ref /workdir/${REFERENCE_FILE} \ --in-bam /workdir/${INPUT_BAM} \ --out-bam /outputdir/${OUTPUT_BAM}

以下命令是 Parabricks 命令的 GATK 对等命令。 请注意,按坐标标记和按 queryname 标记对应的基线命令是不同的。 请根据您的具体情况选择正确的命令。 此处列出的第一个 gatk SortSam 命令是为了保证输入文件的顺序符合 MarkDuplicates 的要求。 如果您的文件顺序正确,可以忽略它。

坐标排序顺序

复制
已复制!
            

gatk SortSam \ -R <INPUT_DIR>/${REFERENCE_FILE} \ -I <INPUT_DIR>/${INPUT_BAM} \ -O <INPUT_DIR>/${SORTED_BAM} \ -SO coordinate gatk MarkDuplicates \ -I <INPUT_DIR>/${SORTED_BAM} \ -O <OUTPUT_DIR>/${MARKED_BAM} \ -M <OUTPUT_DIR>/${METRICS_FILE} \ -ASO coordinate

Queryname 排序顺序

复制
已复制!
            

gatk SortSam \ -R <INPUT_DIR>/${REFERENCE_FILE} \ -I <INPUT_DIR>/${INPUT_BAM} \ -O <INPUT_DIR>/${SORTED_BAM} \ -SO queryname gatk MarkDuplicates \ -I <INPUT_DIR>/${SORTED_BAM} \ -O <OUTPUT_DIR>/${MARKED_BAM} \ -M <OUTPUT_DIR>/${METRICS_FILE} \ -ASO queryname gatk SortSam \ -R <INPUT_DIR>/${REFERENCE_FILE} \ -I <OUTPUT_DIR>/${MARKED_BAM} \ -O <OUTPUT_DIR>/${FINAL_BAM} \ -SO coordinate

标记 BAM 文件中的重复 reads。 输入文件应按 queryname 排序。

输入/输出文件选项

--in-bam IN_BAM

用于标记重复项的 BAM/CRAM 路径。 需要已按 queryname 排序。 此选项为必填项。(默认值:None)

选项为必填项。

--out-bam OUT_BAM

标记重复项后的 BAM/CRAM 文件路径。(默认值:None)

选项为必填项。

--ref REF

参考文件路径。(默认值:None)

选项为必填项。

--out-duplicate-metrics OUT_DUPLICATE_METRICS

标记重复项后重复指标文件的路径。(默认值:None)

工具选项

--markdups-assume-sortorder-queryname

假设 reads 已按 queryname 排序以进行重复项标记。 这也会将辅助 reads、补充 reads 和未比对 reads 标记为重复项。 此标志不会影响变异调用,但会增加处理时间。(默认值:None)

--optical-duplicate-pixel-distance OPTICAL_DUPLICATE_PIXEL_DISTANCE

为了将两个重复簇视为光学重复项,它们之间的最大偏移像素距离。(默认值:None)

性能选项

--num-zip-threads NUM_ZIP_THREADS

用于在运行中压缩 BAM/CRAM 文件的 CPU 数量(默认值为 10)。(默认值:None)

--num-worker-threads NUM_WORKER_THREADS

用于在运行中进行 markdup 的 CPU 数量(默认值为 10)。(默认值:None)

--mem-limit MEM_LIMIT

排序和后排序期间的内存限制(GB)。 默认情况下,限制为系统总内存的一半。(默认值:62)

常用选项

--logfile LOGFILE

日志文件路径。 如果未指定,消息将仅写入标准错误输出。(默认值:None)

--tmp-dir TMP_DIR

将存储临时文件的目录的完整路径。

--with-petagene-dir WITH_PETAGENE_DIR

PetaGene 安装目录的完整路径。 默认情况下,这应已安装在 /opt/petagene 中。 使用此选项还需要通过设置 LD_PRELOAD 环境变量来预加载 PetaLink 库。 可选设置用于数据和凭据的 PETASUITE_REFPATH 和 PGCLOUD_CREDPATH 环境变量(默认值:None)

--keep-tmp

完成时不删除存储临时文件的目录。

--no-seccomp-override

不覆盖 docker 的 seccomp 选项(默认值:None)。

--version

查看兼容的软件版本。

GPU 选项

--num-gpus NUM_GPUS

用于运行的 GPU 数量。 将使用 GPU 0..(NUM_GPUS-1)。

上一页 indexgvcf
下一页 minimap2 (Beta)
© 版权所有 2025,Nvidia。 上次更新时间:2025 年 1 月 13 日。