我有数据需要保持它输入的确切序列(基因组测序),我想搜索大约10亿个节点,每个节点大约18个成员,以定位模式。
显然,对于如此庞大的数据集,速度是一个问题,而且我实际上没有任何数据可以用作离散关键字,因为搜索的基础是定位和隔离(但不是删除)重复项。
我正在寻找一种算法,它可以在相对较短的时间内遍历数据以定位这些模式和相似性,并且我可以计算出用于比较的正则表达式,但我不确定如何获得比O(n)更快的搜索。
任何帮助都将不胜感激。
谢谢
发布于 2012-09-18 17:58:33
>H19>还要注意18位*2位:= 36位信息来枚举它们。这暂时接近于32位,并且可以适合64位。散列/位欺骗可能是的一个选项
https://stackoverflow.com/questions/12470094
复制相似问题