我正在尝试重现this paper的树状图结果,与特定的16s rRNA分析有关。
但我不知道是否有一种标准的数据管理或数据分析方法。所以,我自己试过了。下面是一个总结。
在methods部分中写道:“生成的FASTQ文件存放在https://www.ncbi.nlm.nih.gov/bioproject/PRJNA386442中。随后使用ea-utils v1.1.2和标准设置合并MiSeq成对的原始序列正向和反向读取,然后从QIIMEv1.9.1和移除序列读取小于200个核苷酸,包含不明确碱基的读取,或平均质量分数小于30的读取。”
因此,我使用SRATOOLKIT下载了sra文件,并在终端使用了以下代码:
for n in {141..188}; do prefetch "SRR5577$n"; done后来,我使用以下命令转换为fastq文件:
for n in {141..188}; do fastq-dump "SRR5577$n"; done但是,对于合并步骤,我不能使用fastq-join函数或github上的ea-utils包中的任何其他函数。数据似乎没有正确的格式。
我做得好吗?我在哪里可以了解到关于这种分析的更多信息?
发布于 2020-09-20 19:46:01
我建议在fastq-dump中使用--split-files,例如:
for n in {141..188}; do fastq-dump --split-files "SRR5577$n"; done因为看起来数据是成对的。否则你就不需要合并它们了。它将为您提供单独的正向和反向读取文件,假设您将这些文件输入到ea-utils。
https://stackoverflow.com/questions/62905225
复制相似问题