首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Pymongo和n-gram搜索

Pymongo和n-gram搜索
EN

Stack Overflow用户
提问于 2013-08-23 20:19:57
回答 1查看 876关注 0票数 1

我在mongo db有一套文件。我使用Pymongo访问并插入到这个集合中。我想做的是:

在python中,使用映射约简来有效地查询在整个语料库中使用n个-gram短语的次数。

我知道如何对单个单词这样做,但很难把它扩展到n克。我不想做的是使用NLTK库进行标记化,然后运行map还原。我相信这会降低解决方案的效率。谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-08-23 20:36:21

如果你想要一个有效的系统,你将需要提前分解n-克并对它们进行索引。当我编写5-Gram实验时(不幸的是,后端现在离线了,因为我必须返回硬件),我创建了一个word => integer id映射,然后将一个十六进制id序列存储在集合的document中(例如,[10, 2] => "a:2")。然后,将3.5亿克随机分配到10台运行MongoDB的机器上,为整个数据集提供亚秒的查询时间。

你也可以有类似的计划。有一份文件,例如:

代码语言:javascript
复制
{_id: "a:2", seen: [docId1, docId2, ...]}

你就能找到给定的n克是在哪里找到的。

Update:,实际上是一个小更正:在运行的系统中,我最终使用了相同的方案,但是为了提高空间效率,以二进制格式编码n克键(~350 m是5克的很多!),但是其他的机制都是一样的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18411191

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档