首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基因组组装后是否应该重新组合拆分的fastq文件?

基因组组装后是否应该重新组合拆分的fastq文件?
EN

Stack Overflow用户
提问于 2020-09-07 01:41:46
回答 1查看 46关注 0票数 0

我已经将一个大的fastq文件分割成6到7个更小的、更“可管理”的文件,以便进行基因组组装。

现在将输出文件(contigs.fasta)重新组合在一起是“生物学上正确的”吗?有没有更有意义的方法来做这件事?

谢谢。

EN

回答 1

Stack Overflow用户

发布于 2020-09-07 04:18:38

最佳实践是在适当的硬件上使用能够处理大型fastq文件的汇编程序,即具有大RAM和快速I/O。如果输入大于RAM可以容纳的大小,则让汇编软件本身并行化汇编过程。更喜欢这种单输入方法,将输入拆分成多个部分,分别组装每个部分,然后“组装”部分输出/重叠。

参考:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5850084/

Dominguez Del Angel,V.,Hjerde,E.,Sterck,L.,Capella-Gutierrez,S.,Notredame,C.,Vinnere Pettersson,O.,Amselem,J.,Bouri,L.,Bocs,S.,Klopp,C.,Gibrat,J.F.,Vlasova,A.,Leskosek,B.L.,Soler,L.,Binzer-Panchal,M.,& Lantz,H. (2018)。基因组组装和注释入门的十个步骤。F1000Research,7岁,长生不老药-148https://doi.org/10.12688/f1000research.13598.1

基因组组装的

、运行时间和内存需求将随着数据量的增加而增加。由于大型基因组需要更多的数据,因此基因组大小和运行时间/内存需求之间也存在相关性。只有一小部分可用汇编程序可以将汇编程序分布到几个进程中,并在几个计算节点上并行运行它们。不能做到这一点的工具往往需要单个节点上的大量内存,而可以拆分进程的程序在每个单独的节点上需要较少的内存,但当有多个节点可用时,在另一个节点上执行工作的效率最高。因此,在项目早期选择适当的汇编工具很重要,并确保有足够的正确类型的可用计算资源来运行这些工具。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63767124

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档