我已经将一个大的fastq文件分割成6到7个更小的、更“可管理”的文件,以便进行基因组组装。
现在将输出文件(contigs.fasta)重新组合在一起是“生物学上正确的”吗?有没有更有意义的方法来做这件事?
谢谢。
发布于 2020-09-07 04:18:38
最佳实践是在适当的硬件上使用能够处理大型fastq文件的汇编程序,即具有大RAM和快速I/O。如果输入大于RAM可以容纳的大小,则让汇编软件本身并行化汇编过程。更喜欢这种单输入方法,将输入拆分成多个部分,分别组装每个部分,然后“组装”部分输出/重叠。
参考:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5850084/
Dominguez Del Angel,V.,Hjerde,E.,Sterck,L.,Capella-Gutierrez,S.,Notredame,C.,Vinnere Pettersson,O.,Amselem,J.,Bouri,L.,Bocs,S.,Klopp,C.,Gibrat,J.F.,Vlasova,A.,Leskosek,B.L.,Soler,L.,Binzer-Panchal,M.,& Lantz,H. (2018)。基因组组装和注释入门的十个步骤。F1000Research,7岁,长生不老药-148https://doi.org/10.12688/f1000research.13598.1
基因组组装的
、运行时间和内存需求将随着数据量的增加而增加。由于大型基因组需要更多的数据,因此基因组大小和运行时间/内存需求之间也存在相关性。只有一小部分可用汇编程序可以将汇编程序分布到几个进程中,并在几个计算节点上并行运行它们。不能做到这一点的工具往往需要单个节点上的大量内存,而可以拆分进程的程序在每个单独的节点上需要较少的内存,但当有多个节点可用时,在另一个节点上执行工作的效率最高。因此,在项目早期选择适当的汇编工具很重要,并确保有足够的正确类型的可用计算资源来运行这些工具。
https://stackoverflow.com/questions/63767124
复制相似问题