我在mongo db有一套文件。我使用Pymongo访问并插入到这个集合中。我想做的是:
在python中,使用映射约简来有效地查询在整个语料库中使用n个-gram短语的次数。
我知道如何对单个单词这样做,但很难把它扩展到n克。我不想做的是使用NLTK库进行标记化,然后运行map还原。我相信这会降低解决方案的效率。谢谢。
发布于 2013-08-23 20:36:21
如果你想要一个有效的系统,你将需要提前分解n-克并对它们进行索引。当我编写5-Gram实验时(不幸的是,后端现在离线了,因为我必须返回硬件),我创建了一个word => integer id映射,然后将一个十六进制id序列存储在集合的document中(例如,[10, 2] => "a:2")。然后,将3.5亿克随机分配到10台运行MongoDB的机器上,为整个数据集提供亚秒的查询时间。
你也可以有类似的计划。有一份文件,例如:
{_id: "a:2", seen: [docId1, docId2, ...]}你就能找到给定的n克是在哪里找到的。
Update:,实际上是一个小更正:在运行的系统中,我最终使用了相同的方案,但是为了提高空间效率,以二进制格式编码n克键(~350 m是5克的很多!),但是其他的机制都是一样的。
https://stackoverflow.com/questions/18411191
复制相似问题