因此,我用Python2编写了一个自动完成和自动更正的程序,我使用了Peter关于如何编写拼写检查器( 链接 )的博客中提到的方法编写了自动更正程序。
现在,我使用了一个使用嵌套列表实现的trie数据结构。我使用trie,因为它可以给我所有以特定prefix.At开头的单词叶将是一个元组和一个表示word.For频率的值,例如坏、蝙蝠、猫这些词将被保存为-
['b'['a'['d',('bad',4),'t',('bat',3)]],'c'['a'['t',('cat',4)]]]其中,4,3,4是使用单词的次数或频率值。同样的,我对英语词典中的大约13万个单词做了一些尝试,并使用cPickle存储它。
现在,读取整个trie大约需要3-4秒,每个time.The问题是每次遇到一个单词时,频率值必须增加,然后需要再次保存更新的trie。正如您可以想象的,这将是一个大问题,每次等待3-4秒来阅读,然后再次那么多的时间来保存更新的trie每次。每次运行程序并保存它们时,我都需要执行很多更新操作。
是否有一种更快或更有效的方法来存储一个重复更新的大型数据结构?IDE和移动设备中的自动更正程序的数据结构是如何快速保存和检索的?我也对不同的方法持开放态度。
发布于 2016-04-03 08:55:20
我想到了几件事。
1)数据分割。假设使用26个文件,每个文件都存储以某个字符开始的尝试。您可以对其进行改进,以便使用前缀。这样,您需要编写的数据量就更少了。
2)不要把一切都反映到磁盘上。如果您需要执行大量的操作,请在ram(内存)中执行这些操作,然后在结束时将它们写下来。如果您害怕数据丢失,您可以在一段时间X之后或在多次操作之后检查计算。
3)多线程。除非你的程序只做拼写检查,否则很可能还有其他的事情需要做。有一个单独的线程来执行加载写入,这样它在执行磁盘IO时不会阻塞所有的东西。python中的多线程有点棘手,但可以完成。
4)自定义结构。序列化所花费的部分时间是调用序列化函数。因为你有一本字典,里面有很多函数调用。在完美的情况下,您应该有一个与磁盘表示完全匹配的内存表示。然后,您只需读取一个大字符串并将其放入自定义类中(并在需要时将该字符串写入磁盘)。这是一种更先进的方法,而且可能不会带来太大的好处,特别是因为python在处理比特时效率不高,但是如果你需要挤出最后一点的速度,这是可行的方法。
发布于 2016-04-03 09:02:38
我建议您将序列化移到单独的线程,并定期运行它。您不需要每次都重新读取数据,因为内存中已经有最新版本。这样,在将数据保存到磁盘时,程序将响应用户。磁盘上保存的版本可能是滞后的,在程序崩溃的情况下,最新的更新可能会丢失,但我认为这对您的用例来说不是什么大问题。
这取决于特定的用例和环境,但我认为,大多数具有本地数据集的程序使用多线程同步它们。
https://stackoverflow.com/questions/36383284
复制相似问题