LongReadSum 是美国费城儿童医院Kai Wang教授团队(图1)开发的一款专门针对长读长测序数据设计的快速质控工具(如纳米孔测序、PacBio测序等)。它支持多种文件格式,包括FASTA、FASTQ、BAM、POD5、FAST5和sequencing_summary.txt,能够快速生成HTML和文本格式的质控报告。无论是全基因组测序(WGS)、RNA-Seq,还是甲基化修饰的数据,LongReadSum都能轻松应对,其优点在于支持的数据格式多样。到目前为止最新版本v1.5.0更新于2025年1月23号。

首先,创建一个新的conda环境longreadsum(Python 3.9),并进行激活。
#创建conda环境
$ conda create -n longreadsum python=3.9
#激活longreadsum环境
$ conda activate longreadsum
#如果使用mamba,请将conda替换为mamba然后,运行以下命令安装LongReadSum及其依赖软件:
$ conda install -c wglab -c conda-forge -c jannessp -c bioconda longreadsum=1.5.0
#如果使用mamba,请将conda替换为mamba确保安装Docker后,从Docker Hub拉取最新的LongReadSum镜像。
docker pull genomicslab/longreadsum运行时,使用以下命令(注意将C:/Users/.../DataDirectory替换为你的数据目录):
$ docker run -v C:/Users/.../DataDirectory:/mnt/ -it genomicslab/longreadsum bam -i /mnt/input.bam -o /mnt/output$ longreadsum <FILETYPE> -i $INPUT_FILE -o $OUTPUT_DIRECTORY其中,<FILETYPE>是文件类型, $INPUT_FILE 是输入文件路径,$OUTPUT_DIRECTORY 是输出目录。例如,对于 FASTQ 文件,运行:
$ longreadsum fq -i input.fastq -o output_directory不支持
fastq.gz的压缩格式,使用起来较麻烦!
参数 | 描述 | 默认值 |
|---|---|---|
| 输入文件路径 | 无 |
| 输出目录 |
|
| 使用的线程数 | 1 |
| 输出文件前缀 |
|
| 日志文件路径 |
|
| 日志级别(1: DEBUG, 2: INFO, 3: WARNING, 4: ERROR, 5: CRITICAL) | 2 |
| 多个输入文件路径(逗号分隔) | 无 |
| 使用通配符(*)指定多个输入文件 | 无 |
对于全基因组测序数据,经过与参考基因组(如人类的GRCh38)比对后生成的BAM文件,LongReadSum可以生成详细的质控报告,包括读长分布、碱基质量等信息。
$ longreadsum bam -i input.bam -o output_directory如果BAM文件包含甲基化修饰信息,可以使用以下参数:
$ longreadsum bam -i input.bam -o output_directory --mod --modprob 0.8 --ref reference.fasta其中,--mod 表示启用甲基化修饰分析;--modprob 是修饰概率阈值(默认是0.8);--ref是参考基因组文件(用于鉴定CpG位点)
对于RNA-Seq数据,LongReadSum可以计算转录完整性数值(transcript integrity number,TIN)。
$ longreadsum bam -i input.bam -o output_directory --genebed gene.bed --min-coverage 10 --sample-size 100其中,--genebed:基因 BED 文件;--min-coverage:最小覆盖度,默认为 10;--sample-size:样本大小,默认为 100。
$ longreadsum bam -i input.bam -o output_directoryONT POD5 文件是 Oxford Nanopore 测序数据的一种格式,包含原始信号数据。LongReadSum 支持对 POD5 文件及其对应的 basecalled BAM 文件进行质控分析。
#单个文件
$ longreadsum pod5 -i input.pod5 -o output_directory --basecalls input.bam
#目录中的多个文件
#如果你有一个包含多个 POD5 文件的目录,可以使用通配符批量处理
$ longreadsum pod5 -P "input_directory/*.pod5" -o output_directory --basecalls input.bam
#指定读取 ID
$ longreadsum pod5 -i input.pod5 -o output_directory --basecalls input.bam --read_ids "read_id1,read_id2"
#指定采样数量
$ longreadsum pod5 -i input.pod5 -o output_directory --basecalls input.bam --read_count 5-b, --basecalls 用于信号提取的 basecalled BAM 文件路径;-r, --read_ids从文件中提取的读取 ID 列表(逗号分隔);-R, --read_count从文件中随机采样的读取数量--emit-moves。ONT FAST5文件是 Oxford Nanopore 测序数据的另一种格式,包含原始信号数据和 basecalling 信息。LongReadSum 支持对 FAST5 文件进行信号和序列质量的质控分析。
#信号质量分析(Signal QC)
$ longreadsum f5s -i input.fast5 -o output_directory
#序列质量分析(Sequence QC)
$ longreadsum f5 -i input.fast5 -o output_directory-r, --read_ids从文件中提取的读取 ID 列表(逗号分隔);-R, --read_count从文件中随机采样的读取数量。#fastq文件
$ longreadsum fq -i input.fastq -o output_directory
#fasta文件
$ longreadsum fa -i input.fasta -o output_directory一般来说对于.fastq和PacBio的未比对.bam文件最为常见,下面以.fastq数据格式为例。1_raw_fastq文件夹存放需要质控的数据文件,1_longreadsum存放结果文件。
# 示例
$ longreadsum fq -i $INPUT_FILE -o $OUTPUT_DIRECTORY #单个样本
# 实际运行, 会自动生成-o 的路径
$ longreadsum fq -i 1_raw_fastq/Case_1.fastq -o 1_longreadsum/Case1
$ longreadsum fq -i 1_raw_fastq/Case_2.fastq -o 0_longreadsum/Case2
$ longreadsum fq -i 1_raw_fastq/Case_3.fastq -o 0_longreadsum/Case3
$ longreadsum fq -i 1_raw_fastq/Control_1.fastq -o 0_longreadsum/Control_1
$ longreadsum fq -i 1_raw_fastq/Control_2.fastq -o 0_longreadsum/Control_2
$ longreadsum fq -i 1_raw_fastq/Control_3.fastq -o 0_longreadsum/Control_3缺点是无法直接识别
.fastq.gz文件。为了节省硬盘空间,在做质控前需要将压缩文件先解压,然后质控完再压缩回去,对于较大的数据整个过程比较耗时。
LongReadSum生成的质控报告包括HTML(图2)和文本格式的文件,包括:

1 Perdomo, J. E., Ahsan, M. U., Liu, Q., Fang, L. & Wang, K. LongReadSum: A fast and flexible quality control and signal summarization tool for long-read sequencing data. Computational and Structural Biotechnology Journal (2025).
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。