文章/答案/技术大牛

发布

社区首页 >问答首页 >基因组组装后是否应该重新组合拆分的fastq文件？

问基因组组装后是否应该重新组合拆分的fastq文件？
EN

Stack Overflow用户

提问于 2020-09-07 01:41:46

回答 1查看 46关注 0票数 0

我已经将一个大的fastq文件分割成6到7个更小的、更“可管理”的文件，以便进行基因组组装。

现在将输出文件(contigs.fasta)重新组合在一起是“生物学上正确的”吗？有没有更有意义的方法来做这件事？

谢谢。

bioinformatics

fastq

genome

回答 1

Stack Overflow用户

发布于 2020-09-07 04:18:38

最佳实践是在适当的硬件上使用能够处理大型fastq文件的汇编程序，即具有大RAM和快速I/O。如果输入大于RAM可以容纳的大小，则让汇编软件本身并行化汇编过程。更喜欢这种单输入方法，将输入拆分成多个部分，分别组装每个部分，然后“组装”部分输出/重叠。

参考：

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5850084/

Dominguez Del Angel，V.，Hjerde，E.，Sterck，L.，Capella-Gutierrez，S.，Notredame，C.，Vinnere Pettersson，O.，Amselem，J.，Bouri，L.，Bocs，S.，Klopp，C.，Gibrat，J.F.，Vlasova，A.，Leskosek，B.L.，Soler，L.，Binzer-Panchal，M.，& Lantz，H. (2018)。基因组组装和注释入门的十个步骤。F1000Research，7岁，长生不老药-148https://doi.org/10.12688/f1000research.13598.1

基因组组装的

、运行时间和内存需求将随着数据量的增加而增加。由于大型基因组需要更多的数据，因此基因组大小和运行时间/内存需求之间也存在相关性。只有一小部分可用汇编程序可以将汇编程序分布到几个进程中，并在几个计算节点上并行运行它们。不能做到这一点的工具往往需要单个节点上的大量内存，而可以拆分进程的程序在每个单独的节点上需要较少的内存，但当有多个节点可用时，在另一个节点上执行工作的效率最高。因此，在项目早期选择适当的汇编工具很重要，并确保有足够的正确类型的可用计算资源来运行这些工具。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63767124

复制

相似问题

问基因组组装后是否应该重新组合拆分的fastq文件？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基因组组装后是否应该重新组合拆分的fastq文件？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基因组组装后是否应该重新组合拆分的fastq文件？
EN