首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >根据常见的子模式对短的同构字符串(DNA)进行聚类,并提取类的一致性。

根据常见的子模式对短的同构字符串(DNA)进行聚类,并提取类的一致性。
EN

Stack Overflow用户
提问于 2009-10-02 12:50:26
回答 2查看 548关注 0票数 5

任务:

将共享公共子序列模式的类中的大量短DNA片段进行聚类,并找到每个类的一致序列。

  • 池: ca. 300个序列片段
  • 8 -20个字母/片段
  • 4个可能的字母: a,g,t,c
  • 每个片段被构造成三个区域:H 1115个通用字母H 212H 113g和c‘sH 214<>H 1155个泛型字母的位置。

(作为regex,那将是[gcta]{5}[gc]{8,}[gcta]{5})

计划:

执行多对齐(即withClustalW2)以查找共享区域2中的公共序列及其一致性序列的类。

问题:

  1. 是我的片段太短,是否有助于增加它们的大小?
  2. 区域2太均匀,只有两种允许的字母类型,以显示序列中的模式?
  3. ,您可以为这项任务建议哪些替代方法或工具?

诚挚的问候,

西蒙

EN

回答 2

Stack Overflow用户

发布于 2009-11-16 05:59:13

是的,300太少了,考虑到这是人类基因组,你基本上只是在寻找一种特殊的8-聚体。在基因组中有65,536个可能的8-mers和3,000,000,000个独特的碱基(假设你正在观察整个基因组,而不仅仅是基因或编码区域)。你会发现G/C包含的序列是3000,000,000/ 65,536 * 2^8 =~ 12,000,000倍(而且可能更多,因为与其他东西相比,基因组中充满了CpG岛)。为什么只选择300?

您不希望在此任务中使用regex。从1号染色体开始,寻找第一个CG或GC,直到你得到第一个非G-或C。然后获取该序列及其上下文并保存它(在DB中)。冲洗并重复。

对于这个项目,集群可能是过分的--但我不知道你的目标,所以我不能确定。如果您只对GC区域感兴趣,那么可以进行一些简单的集群,如下所示:

  1. 为每个g/c8-mer (2^8 =256个)创建一个数据库条目。
  2. 对每个GC-区域进行遍历,查看它包含哪个8-mers。
  3. 标记每个GC-区域及其包含的序列。

现在,对于每一个8-聚体,你有数千个包含它的序列。我将把对数据的分析留给你自己的目标。

票数 2
EN

Stack Overflow用户

发布于 2009-10-02 13:17:56

您的区域二,与这两个字母,可能会有一点太相似,增加长度或可变性(例如,更多的字母)可能会有所帮助。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1509318

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档