我正在研究2600+基因组,希望研究不同群体的基因组、基因和基因间的特征。如果分类组只有很少的代表,就没有问题。在分类组具有多个基因组的情况下,我应该在什么基础上删除相似的基因组,以便从每个分类组中只获得几个代表。我是否应该使用lenght或GC%或其他特征来删除基因组-例如,如果两个基因组的GC%变异小于1%,我将删除它。类似这样的事情。请建议接受的方式,并友好地解释原因以及。
Example:
I have around 60 genomes of Mycobacterium sps
More than 20 are of M. tuberculosis alone which have
GC% range of 65.48 to 65.7 and
Length range of 4.27 to 4.41 MB在这种情况下,如何筛选和删除相似的基因组?
发布于 2013-10-01 03:11:27
我认为没有理由使用GC%作为可接受的过滤器。
对我来说有意义的是一种更具功能性的方法,比如1)共享基因,2)这些基因的序列相似性。
发布于 2013-10-04 01:25:13
您可以首先构建系统发生树,然后为每个(或多或少随意定义的)分支/组/集群选择一个或多个基因组。
我不建议使用单个标记基因来构建树,因为在你的案例中,这些基因组/物种关系非常密切。尝试连接所有核心基因集。
https://stackoverflow.com/questions/19044232
复制相似问题