任务:
将共享公共子序列模式的类中的大量短DNA片段进行聚类,并找到每个类的一致序列。
H 1115个通用字母H 212H 113g和c‘sH 214<>H 1155个泛型字母的位置。(作为regex,那将是[gcta]{5}[gc]{8,}[gcta]{5})
计划:
执行多对齐(即withClustalW2)以查找共享区域2中的公共序列及其一致性序列的类。
问题:
。
诚挚的问候,
西蒙
发布于 2009-11-16 05:59:13
是的,300太少了,考虑到这是人类基因组,你基本上只是在寻找一种特殊的8-聚体。在基因组中有65,536个可能的8-mers和3,000,000,000个独特的碱基(假设你正在观察整个基因组,而不仅仅是基因或编码区域)。你会发现G/C包含的序列是3000,000,000/ 65,536 * 2^8 =~ 12,000,000倍(而且可能更多,因为与其他东西相比,基因组中充满了CpG岛)。为什么只选择300?
您不希望在此任务中使用regex。从1号染色体开始,寻找第一个CG或GC,直到你得到第一个非G-或C。然后获取该序列及其上下文并保存它(在DB中)。冲洗并重复。
对于这个项目,集群可能是过分的--但我不知道你的目标,所以我不能确定。如果您只对GC区域感兴趣,那么可以进行一些简单的集群,如下所示:
。
现在,对于每一个8-聚体,你有数千个包含它的序列。我将把对数据的分析留给你自己的目标。
发布于 2009-10-02 13:17:56
您的区域二,与这两个字母,可能会有一点太相似,增加长度或可变性(例如,更多的字母)可能会有所帮助。
https://stackoverflow.com/questions/1509318
复制相似问题