文章/答案/技术大牛

发布

社区首页 >问答首页 >根据常见的子模式对短的同构字符串(DNA)进行聚类，并提取类的一致性。

问根据常见的子模式对短的同构字符串(DNA)进行聚类，并提取类的一致性。
EN

Stack Overflow用户

提问于 2009-10-02 12:50:26

回答 2查看 548关注 0票数 5

任务：

将共享公共子序列模式的类中的大量短DNA片段进行聚类，并找到每个类的一致序列。

池: ca. 300个序列片段
8 -20个字母/片段
4个可能的字母: a，g，t，c
每个片段被构造成三个区域：H 1115个通用字母H 212H 113g和c‘sH 214<>H 1155个泛型字母的位置。

(作为regex，那将是[gcta]{5}[gc]{8,}[gcta]{5})

计划：

执行多对齐(即withClustalW2)以查找共享区域2中的公共序列及其一致性序列的类。

问题：

是我的片段太短，是否有助于增加它们的大小？
区域2太均匀，只有两种允许的字母类型，以显示序列中的模式？
，您可以为这项任务建议哪些替代方法或工具？

。

诚挚的问候,

西蒙

bioinformatics

dna-sequence

string

cluster-analysis

回答 2

Stack Overflow用户

发布于 2009-11-16 05:59:13

是的，300太少了，考虑到这是人类基因组，你基本上只是在寻找一种特殊的8-聚体。在基因组中有65,536个可能的8-mers和3,000,000,000个独特的碱基(假设你正在观察整个基因组，而不仅仅是基因或编码区域)。你会发现G/C包含的序列是3000,000,000/ 65,536 * 2^8 =~ 12,000,000倍(而且可能更多，因为与其他东西相比，基因组中充满了CpG岛)。为什么只选择300？

您不希望在此任务中使用regex。从1号染色体开始，寻找第一个CG或GC，直到你得到第一个非G-或C。然后获取该序列及其上下文并保存它(在DB中)。冲洗并重复。

对于这个项目，集群可能是过分的--但我不知道你的目标，所以我不能确定。如果您只对GC区域感兴趣，那么可以进行一些简单的集群，如下所示：

为每个g/c8-mer (2^8 =256个)创建一个数据库条目。
对每个GC-区域进行遍历，查看它包含哪个8-mers。
标记每个GC-区域及其包含的序列。

。

现在，对于每一个8-聚体，你有数千个包含它的序列。我将把对数据的分析留给你自己的目标。

票数 2

Stack Overflow用户

发布于 2009-10-02 13:17:56

您的区域二，与这两个字母，可能会有一点太相似，增加长度或可变性(例如，更多的字母)可能会有所帮助。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/1509318

复制

相似问题

问根据常见的子模式对短的同构字符串(DNA)进行聚类，并提取类的一致性。
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问根据常见的子模式对短的同构字符串(DNA)进行聚类，并提取类的一致性。EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问根据常见的子模式对短的同构字符串(DNA)进行聚类，并提取类的一致性。
EN