问倒排索引的最佳NoSQL
EN

Stack Overflow用户

提问于 2012-04-17 15:09:48

回答 2查看 1.4K关注 0票数 3

我正在做一个小项目，我需要建立一个倒排索引，并应用基于用户查询的相似度算法--基本信息检索。构建和搜索倒排索引的最佳NoSQL产品是什么？

谢谢，J

nosql

回答 2

Stack Overflow用户

发布于 2013-10-15 11:35:13

由于倒排索引主要用于存储单词及其在文档中的位置之间的关系，因此我不确定这是否真的是NoSQL的一个好用例。传统的SQL在这里会运行得更好。例如，尝试如下的数据结构：

Documents (DocumentID primary key, DocumentText text)
Words (WordID primary key, Word text)
Instances (InstanceID primary key, WordID foreign key, DocumentID foreign key, WordIndex integer)

使用这种结构，在将文档插入到Documents表中时，解析出每个单词并将其添加到Words表(如果是新的)，或者检索现有的WordID (如果它已经存在)，然后将相关数据添加到Instances表。

如果您打算使用NoSQL，可以将其与MongoDB一起使用，并将所有文档放入一个集合中，将所有单词放入另一个集合中。在每个Word文档中，包括一个Instances数组，该数组将是一个对象数组，其中包含相关文档的ObjectID和该文档中的word索引。但是，我不确定MongoDB是否针对处理文档中的大型数组进行了优化。像“a”和“the”这样的常用词最终可能会超过4MB的文档限制，这取决于你有多少数据。

票数 1

Stack Overflow用户

发布于 2016-01-02 20:57:20

请参阅Elasticsearch

分布式、可扩展且高度可用的
实时搜索和分析功能
高级RESTful应用编程接口

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10186731

复制

相似问题

问倒排索引的最佳NoSQL
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问倒排索引的最佳NoSQLEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问倒排索引的最佳NoSQL
EN