假设我需要为文本文档构建一个存储空间。存储应该包含文档(只是文本文件)及其元数据:创建日期和每个文档的几十个标记。要存储的文档数为10^6(每个文档为10K)。
主要语言是Java,存储应该部署在Windows中。
用户应该能够根据日期范围和标签将文档及其元数据存储在存储和搜索文档中:例如,使用标记获取上周的所有文档: tag1和tag2。
假设我们将文档存储在文件系统中,并添加一个索引来存储文档名称(路径)、日期和标记。你将如何建立索引?您会使用关系数据库管理系统(例如mySQL)吗?你会使用Lucene或任何其他全文搜索引擎吗?
发布于 2013-08-14 13:25:12
为什么不使用JackRabbit,它是一个符合JSR-170标准的Java存储库?
ApacheJack兔子™内容存储库是(JCR,在JSR 170和283中指定)的一个完全一致的实现。 内容存储库是一个分层的内容存储库,支持结构化和非结构化内容、全文搜索、版本控制、事务处理、观察等等。
注(再)你的问题)它在封面下使用Lucene。
https://stackoverflow.com/questions/18232899
复制相似问题