bamsort
排序 BAM 文件。
此工具可以多种方式对 BAM 文件中的 reads 进行排序,包括按基因组中的位置(坐标)或 read 名称(queryname)排序。这实现了与不同下游工具要求的兼容性。
支持五种排序模式
coordinate (Picard 兼容)
coordinate (fgbio 兼容)
queryname (Picard 兼容)
queryname (fgbio 兼容)
template coordinate 排序 (fgbio 兼容)
--sort-order 的允许值如下
coordinate [默认]
queryname
templatecoordinate
--sort-compatibility 的允许值如下
picard [默认]
fgbio
coordinate 和 queryname 排序可以在 picard 或 fgbio 模式下完成。templatecoordinate 只能在 fgbio 模式下完成。
请参阅 bamsort 参考 部分,以获取所有可用选项的详细列表。
# This command assumes all the inputs are in INPUT_DIR and all the outputs go to OUTPUT_DIR.
docker run --rm --gpus all --volume INPUT_DIR:/workdir --volume OUTPUT_DIR:/outputdir \
--workdir /workdir \
nvcr.io/nvidia/clara/clara-parabricks:4.4.0-1 \
pbrun bamsort \
--ref /workdir/${REFERENCE_FILE} \
--in-bam /workdir/${INPUT_BAM} \
--out-bam /outputdir/${OUTPUT_BAM} \
--sort-order coordinate
以下命令是 Parabricks 上述命令的 Picard 对等命令。此命令的输出将与上述命令的输出相同。
$ java -Xmx30g -jar picard.jar SortSam \
I=<INPUT_DIR>/${INPUT_BAM} \
O=<OUTPUT_DIR>/${OUTPUT_BAM}
排序 BAM 文件。有五种模式:坐标排序(Picard 兼容)、坐标排序(fgbio 兼容)、queryname 排序(Picard 兼容)、queryname 排序(fgbio 兼容)和模板坐标排序(fgbio 兼容)。
输入/输出文件选项
- --in-bam IN_BAM
-
用于排序的 BAM/CRAM 路径。此选项为必填项。(默认值:None)
选项为必填项。
- --out-bam OUT_BAM
-
排序后 BAM/CRAM 文件的路径。(默认值:None)
选项为必填项。
- --ref REF
-
参考文件路径。(默认值:None)
选项为必填项。
Pipeline 选项
- --sort-order SORT_ORDER
-
要完成的排序类型。可能的值为 {coordinate,queryname,templatecoordinate}。(默认值:coordinate)
- --sort-compatibility SORT_COMPATIBILITY
-
用于与其他工具兼容的排序比较器兼容性。可能的值为 {picard,fgbio}。TemplateCoordinate 将仅使用 fgbio。(默认值:picard)
性能选项
- --num-zip-threads NUM_ZIP_THREADS
-
在运行中用于压缩 BAM 文件的 CPU 数量(坐标排序默认为 16,否则为 10)。(默认值:None)
- --num-sort-threads NUM_SORT_THREADS
-
在运行中用于排序的 CPU 数量(坐标排序默认为 10,否则为 16)。(默认值:None)
- --max-records-in-ram MAX_RECORDS_IN_RAM
-
当使用 queryname 或模板坐标排序模式时,RAM 中的最大记录数;降低此数字将减少最大内存使用量。(默认值:65000000)
- --mem-limit MEM_LIMIT
-
排序和后排序期间的内存限制(GB)。默认情况下,限制为系统总内存的一半。(默认值:62)
通用选项
- --logfile LOGFILE
-
日志文件路径。如果未指定,消息将仅写入标准错误输出。(默认值:None)
- --tmp-dir TMP_DIR
-
将存储临时文件的目录的完整路径。
- --with-petagene-dir WITH_PETAGENE_DIR
-
PetaGene 安装目录的完整路径。默认情况下,这应已安装在 /opt/petagene。使用此选项还需要通过设置 LD_PRELOAD 环境变量预加载 PetaLink 库。可选设置用于数据和凭据的 PETASUITE_REFPATH 和 PGCLOUD_CREDPATH 环境变量(默认值:None)
- --keep-tmp
-
完成操作后,不要删除存储临时文件的目录。
- --no-seccomp-override
-
不要覆盖 docker 的 seccomp 选项(默认值:None)。
- --version
-
查看兼容的软件版本。
GPU 选项
- --num-gpus NUM_GPUS
-
运行中要使用的 GPU 数量。将使用 GPU 0..(NUM_GPUS-1)。