首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >比较未排序数据的快速算法

比较未排序数据的快速算法
EN

Stack Overflow用户
提问于 2012-09-18 11:43:37
回答 1查看 384关注 0票数 1

我有数据需要保持它输入的确切序列(基因组测序),我想搜索大约10亿个节点,每个节点大约18个成员,以定位模式。

显然,对于如此庞大的数据集,速度是一个问题,而且我实际上没有任何数据可以用作离散关键字,因为搜索的基础是定位和隔离(但不是删除)重复项。

我正在寻找一种算法,它可以在相对较短的时间内遍历数据以定位这些模式和相似性,并且我可以计算出用于比较的正则表达式,但我不确定如何获得比O(n)更快的搜索。

任何帮助都将不胜感激。

谢谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-09-18 17:58:33

  • 可能你想要的东西被称为“重新汇编”
  • 一种方法是计算N-mers,并在索引中使用它们如果你需要部分匹配/不匹配
  • nmer将变得更加重要如果你需要部分匹配/不匹配
  • if := 1E9,python可能太弱<

>H19>还要注意18位*2位:= 36位信息来枚举它们。这暂时接近于32位,并且可以适合64位。散列/位欺骗可能是的一个选项

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12470094

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档