NVIDIA 文档中心 NVIDIA Clara Clara Parabricks v4.4.0 markdup

markdup

标记 BAM/CRAM 文件中的重复 reads。

此工具定位并标记 BAM 或 SAM 文件中的重复 reads，其中重复 reads 定义为源自单个 DNA 片段。

markdup 支持两种标记重复项的方式，假设排序顺序为坐标（默认）或 queryname (--markdups-assume-sortorder-querynamer)。

输入 BAM/CRAM 必须按 queryname 排序。如果未排序，请使用 --sort-order queryname 运行 pbrun bamsort 以预处理输入文件。

有关所有可用选项的详细列表，请参阅 markdup 参考部分。

快速入门

复制
已复制！

            
            # This command assumes all the inputs are in INPUT_DIR and all the outputs go to OUTPUT_DIR.
docker run --rm --gpus all --volume INPUT_DIR:/workdir --volume OUTPUT_DIR:/outputdir \
    --workdir /workdir \
    nvcr.io/nvidia/clara/clara-parabricks:4.4.0-1 \
    pbrun markdup \
    --ref /workdir/${REFERENCE_FILE} \
    --in-bam /workdir/${INPUT_BAM} \
    --out-bam /outputdir/${OUTPUT_BAM}

兼容的基线命令

以下命令是 Parabricks 命令的 GATK 对等命令。请注意，按坐标标记和按 queryname 标记对应的基线命令是不同的。请根据您的具体情况选择正确的命令。此处列出的第一个 gatk SortSam 命令是为了保证输入文件的顺序符合 MarkDuplicates 的要求。如果您的文件顺序正确，可以忽略它。

坐标排序顺序

复制
已复制！

            
            gatk SortSam \
    -R <INPUT_DIR>/${REFERENCE_FILE} \
    -I <INPUT_DIR>/${INPUT_BAM} \
    -O <INPUT_DIR>/${SORTED_BAM} \
    -SO coordinate

gatk MarkDuplicates \
    -I <INPUT_DIR>/${SORTED_BAM} \
    -O <OUTPUT_DIR>/${MARKED_BAM} \
    -M <OUTPUT_DIR>/${METRICS_FILE} \
    -ASO coordinate

Queryname 排序顺序

复制
已复制！

            
            gatk SortSam \
    -R <INPUT_DIR>/${REFERENCE_FILE} \
    -I <INPUT_DIR>/${INPUT_BAM} \
    -O <INPUT_DIR>/${SORTED_BAM} \
    -SO queryname

gatk MarkDuplicates \
    -I <INPUT_DIR>/${SORTED_BAM} \
    -O <OUTPUT_DIR>/${MARKED_BAM} \
    -M <OUTPUT_DIR>/${METRICS_FILE} \
    -ASO queryname

gatk SortSam \
    -R <INPUT_DIR>/${REFERENCE_FILE} \
    -I <OUTPUT_DIR>/${MARKED_BAM} \
    -O <OUTPUT_DIR>/${FINAL_BAM} \
    -SO coordinate

markdup 参考

标记 BAM 文件中的重复 reads。输入文件应按 queryname 排序。

输入/输出文件选项

--in-bam IN_BAM

用于标记重复项的 BAM/CRAM 路径。需要已按 queryname 排序。此选项为必填项。（默认值：None）

选项为必填项。

--out-bam OUT_BAM

标记重复项后的 BAM/CRAM 文件路径。（默认值：None）

选项为必填项。

--ref REF

参考文件路径。（默认值：None）

选项为必填项。

--out-duplicate-metrics OUT_DUPLICATE_METRICS

标记重复项后重复指标文件的路径。（默认值：None）

工具选项

--markdups-assume-sortorder-queryname: 假设 reads 已按 queryname 排序以进行重复项标记。这也会将辅助 reads、补充 reads 和未比对 reads 标记为重复项。此标志不会影响变异调用，但会增加处理时间。（默认值：None）
--optical-duplicate-pixel-distance OPTICAL_DUPLICATE_PIXEL_DISTANCE: 为了将两个重复簇视为光学重复项，它们之间的最大偏移像素距离。（默认值：None）

性能选项

--num-zip-threads NUM_ZIP_THREADS: 用于在运行中压缩 BAM/CRAM 文件的 CPU 数量（默认值为 10）。（默认值：None）
--num-worker-threads NUM_WORKER_THREADS: 用于在运行中进行 markdup 的 CPU 数量（默认值为 10）。（默认值：None）
--mem-limit MEM_LIMIT: 排序和后排序期间的内存限制（GB）。默认情况下，限制为系统总内存的一半。（默认值：62）

常用选项

--logfile LOGFILE: 日志文件路径。如果未指定，消息将仅写入标准错误输出。（默认值：None）
--tmp-dir TMP_DIR: 将存储临时文件的目录的完整路径。
--with-petagene-dir WITH_PETAGENE_DIR: PetaGene 安装目录的完整路径。默认情况下，这应已安装在 /opt/petagene 中。使用此选项还需要通过设置 LD_PRELOAD 环境变量来预加载 PetaLink 库。可选设置用于数据和凭据的 PETASUITE_REFPATH 和 PGCLOUD_CREDPATH 环境变量（默认值：None）
--keep-tmp: 完成时不删除存储临时文件的目录。
--no-seccomp-override: 不覆盖 docker 的 seccomp 选项（默认值：None）。
--version: 查看兼容的软件版本。

GPU 选项

--num-gpus NUM_GPUS: 用于运行的 GPU 数量。将使用 GPU 0..(NUM_GPUS-1)。

上一页 indexgvcf

下一页 minimap2 (Beta)