使用NCBI提供的SRA-toolkit中的工具fastq-dump直接下载SRR文件,并转换为FASTQ格式,--split-3参数表示如果是双端测序就自动拆分,如果是单端不受影响。 nohup fastq-dump -v --split-3 --gzip SRR5908360 & nohup fastq-dump -v --split-3 --gzip SRR5908361 & nohup fastq-dump -v --split-3 --gzip SRR5908362 & nohup fastq-dump -v --split-3 --gzip SRR5908363 & nohup fastq-dump -v --split-3 --gzip SRR5906250 & nohup fastq-dump -v --split-3 --gzip SRR5906251 & nohup fastq-dump -v --split-3 --gzip SRR5906252 & nohup fastq-dump -v --split-3 --gzip SRR5906253 & 注意:如果数据量很大可能需要下载1
project/raw_fq/下 cd /project/raw_fq/ for id in `seq 8223 8454`; do nohup sudo fastq-dump --gzip --split data/fudan_TNBC/SRR851${id}.sra . & done nohup for id in `seq 854 999`; do sudo fastq-dump --gzip --split /data/fudan_TNBC/SRR8517{id}.sra -O .; done & for ((i=854;i<=999;i++));do sudo fastq-dump --gzip --split
简单举个例子: fastq-dump拆分三个SRA文件,可以把这三条命令写到fastq_dump.txt文件里面: $ cat fastq_dump.txtfastq-dump --split- 3 SRR1510125.1fastq-dump --split-3 SRR1004284.1fastq-dump --split-3 SRR1004285.1 之后使用ParaFly并行化: $ ParaFly fastq_dump.txt -CPU 3 服务器会同时用三个核分别来运行这三条命令,ParaFly结果文件: $ cat fastq_dump.txt.completedfastq-dump --split -3 SRR1004285.1fastq-dump --split-3 SRR1004284.1fastq-dump --split-3 SRR1510125.1 总体来看ParaFly方便易学,比linux
拆分的输出设置 --split-spot: 将双端测序分为两份,但是都放在同一个文件中 --split-files: 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads直接丢弃 --split -3 : 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里 其中 fasterq-dump reads拆分默认是 split-3 split-3 split-spot -s|--split-spot:见上文 -S|--split-files:见上文 -3|--split-3:见上文 --include-technical:包含技术性reads(如果不加这个参数是不会分解出来 指定输出位置 -Q:质量转换偏移量,默认为33 --gzip:使用gzip压缩输出 --bzip2:使用bzip2压缩输出 --split-spot: 见上文 --split-files: 见上文 --split
注意现在是base环境) (base) kelly@DESKTOP-MRA1M1F:/mnt/f/rna_seq/data$ fastq-dump -h #命令1 fastq-dump --gzip --split #或者命令2 for id in `seq 56 62` do fastq-dump --gzip --split-3 -O -A SRR35899${id} . done #或者命令3 for ((i=56;i<=62;i++));do fastq-dump --gzip --split-3 -A SRR35899$i.sra -O .
: 关于输出: -O 指定输出路径--gzip 指定输出格式为gzip压缩格式(fastqc软件可以直接识别gzip压缩的文件)--bzip2 指定输出格式为bzip2压缩格式**多个文件参数**--split 明白了fastq-dump的常用参数,我们就得到了转换sra文件的套路 fastq-dump --gzip --split-3 -O path -A accession 具体到我们下载的数据,可以直接用 @徐州更博文中的命令进行转换 for i in `seq 56 62`do fastq-dump --gzip --split-3 -O .
single-cell/MCC cd $wkd/raw/P2586-4 cat SRR_Acc_List-2586-4.txt |while read i do time fastq-dump --gzip --split 3 -A $i ${i}.sra && echo "** ${i}.sra to fastq done **" done 其中主要使用了三个参数: --gzip将生成的结果fastq文件进行压缩 --split 如果结果有三个文件,说明是双端文件,但是有的数据质量不高,存在trim的结果,第三个文件的名字一般是:<srr_id>.fastq, 而且文件也不大,基本可以忽略 -A指定输出的文件名 如果使用上面的参数--split ranger软件分析,一般需要两个输入文件,其中一个是测序reads,另一个是UMI+Barcode文件,那么只生成一个文件是不够的,因此可以换个参数 使用另外一个参数--split-files来替代--split
/fastq-dump --split-3 $i done 注:--split-3 filename其中--split-3参数代表着如果是单端测序就生成一个 .fastq文件,如果是双端测序就生成_1
amazonaws.com/sra/SRR8494939/SRR8494939 Flye示例数据处理(sra转fastq) # pacbio示例数据处理(sra转fastq) fastq-dump --gzip --split -3 pacbio.sra # nanopore示例数据处理(sra转fastq) fastq-dump --gzip --split-3 nanopore.sra Tips:fastq-dump会将
:-Access-SRA-Data 下载单个文件 prefetch SRR390728 下载多个文件 prefetch cart_0.krt 3.2 抽取fastq文件 fastq-dump --split 这个fasterq-dump与fastq-dump相比,就像动车碾压绿皮火车,用法如下: fasterq-dump --split-3 SRR893046 -O fastq 详情查看:https://
amazonaws.com/sra/SRR8494939/SRR8494939 Canu示例数据处理(sra转fastq) # pacbio示例数据处理(sra转fastq) fastq-dump --gzip --split -3 pacbio.sra # nanopore示例数据处理(sra转fastq) fastq-dump --gzip --split-3 nanopore.sra Tips:fastq-dump会将
amazonaws.com/sra/SRR8494939/SRR8494939 wtdbg2示例数据处理(sra转fastq) #pacbio示例数据处理(sra转fastq) fastq-dump --gzip --split -3 pacbio.sra #nanopore示例数据处理(sra转fastq) fastq-dump --gzip --split-3 nanopore.sra Tips:fastq-dump会将sra
我没办法教你怎么泡咖啡,但安装seqkit还是很容易的,你只需要输入: #安装seqkit conda install -c bioconda seqkit 之后不要加--split-3你就能直接获得 #sra2fastq,不加入--split-3,这样整个序列不会被自动分割 ls *.sra |xargs -I [] echo 'fastq-dump --gzip [] &' > fastq-dump.sh
.2.3.5-2-ubuntu64/bin/fastq-dump /home/jmzeng/down_software/sratoolkit.2.3.5-2-ubuntu64/bin/fastq-dump –split [shell] for i in *sra do echo $i /home/jmzeng/bio-soft/sratoolkit.2.3.5-2-ubuntu64/bin/fastq-dump –split
nohup fastq-dump -v --split-3 --gzip SRR5908360 & nohup fastq-dump -v --split-3 --gzip SRR5908361 & 这个代码
下载完之后,可以用如下命令批量解压: for f in *.sra do nohup fastq-dump --split-3 $f & done 3.
Fastq-dump 进行SRA 文件分割 # fastq-dump 进行文件分割 SRA -> fastq.gz for i in $(cat SRR.txt);do fastq-dump --gzip --split
---- SRA—>FASTQ sra格式的数据需要先用fastq-dump转换, --split-3 表示双端测序,--gzip将生成的fastq文件压缩。 =230;i<=237;i++)) ;do /software/biosoft/software/sratoolkit.2.8.2-1-centos_linux64/bin/fastq-dump --split
cd $wkd/raw ls /public/project/RNA/airway/sra/* | while read id; do ( nohup fastq-dump --gzip --split sra格式转fastq格式 格式转还用到的软件是fastq-dump for i in $wkd/*sra do echo $i nohup fastq-dump --split -3 --skip-technical --clip --gzip $i & done 得到fastq数据如下 原始数据是双端测序结果,fastq-dump配合--split-3参数,一个样本被拆分成两个
nanopore数据进行演示,即下文assembly.fasta racon示例数据处理(sra转fastq) # nanopore原始数据处理(sra转fastq) fastq-dump --gzip --split