文章/答案/技术大牛

发布

社区首页 >问答首页 >比较未排序数据的快速算法

问比较未排序数据的快速算法
EN

Stack Overflow用户

提问于 2012-09-18 11:43:37

回答 1查看 384关注 0票数 1

我有数据需要保持它输入的确切序列(基因组测序)，我想搜索大约10亿个节点，每个节点大约18个成员，以定位模式。

显然，对于如此庞大的数据集，速度是一个问题，而且我实际上没有任何数据可以用作离散关键字，因为搜索的基础是定位和隔离(但不是删除)重复项。

我正在寻找一种算法，它可以在相对较短的时间内遍历数据以定位这些模式和相似性，并且我可以计算出用于比较的正则表达式，但我不确定如何获得比O(n)更快的搜索。

任何帮助都将不胜感激。

谢谢

python

sql

dna-sequence

genome

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-09-18 17:58:33

可能你想要的东西被称为“重新汇编”
一种方法是计算N-mers，并在索引中使用它们如果你需要部分匹配/不匹配
nmer将变得更加重要如果你需要部分匹配/不匹配
if := 1E9，python可能太弱<

>H19>还要注意18位*2位:= 36位信息来枚举它们。这暂时接近于32位，并且可以适合64位。散列/位欺骗可能是的一个选项

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/12470094

复制

相似问题

问比较未排序数据的快速算法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问比较未排序数据的快速算法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问比较未排序数据的快速算法
EN