如果你想要一个有效的系统，你将需要提前分解n-克并对它们进行索引。当我编写5-Gram实验时(不幸的是，后端现在离线了，因为我必须返回硬件)，我创建了一个word => integer id映射，然后将一个十六进制id序列存储在集合的document中(例如，[10, 2] => "a:2")。然后，将3.5亿克随机分配到10台运行MongoDB的机器上，为整个数据集提供亚秒的查询时间。

你也可以有类似的计划。有一份文件，例如：

{_id: "a:2", seen: [docId1, docId2, ...]}

你就能找到给定的n克是在哪里找到的。

Update:，实际上是一个小更正:在运行的系统中，我最终使用了相同的方案，但是为了提高空间效率，以二进制格式编码n克键(~350 m是5克的很多！)，但是其他的机制都是一样的。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/18411191

复制

相似问题

问Pymongo和n-gram搜索
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Pymongo和n-gram搜索EN