我正在尝试使用LucidWorks (http://www.lucidimagination.com/products/lucidworks-search-platform)作为我的组织内部网的搜索引擎。我想要它从各种数据源(web & wiki,文件系统,Subversion存储库)索引各种文档类型(Office格式,PDF,网页)。到目前为止,我尝试了索引几个站点、目录和存储库(大约500K文档,总大小约为50 So )-索引的大小为155 So。
这是否合理呢?索引是否应该占用比数据本身更多的存储空间?数据大小与索引大小比率的合理经验法则是什么?
发布于 2011-10-09 02:04:17
没有合理的索引大小,基本上取决于你所拥有的数据。
理想情况下应该更少,但没有经验法则。
但是,对于索引大小和数据大小,取决于对数据进行索引的方式。
许多因素将决定并影响您的索引大小。
索引中的大部分空间被存储的数据字段占用。
如果对文档中的数据进行索引,并且所有内容都已存储,则索引大小肯定会增长。
对索引字段属性的微调也有助于节省空间。
您可能希望重新访问需要索引和存储的字段。
另外,您是否使用了大量的复制字段来复制数据或维护重复数据。优化也可能会有所帮助。
更多信息@ http://wiki.apache.org/solr/SolrPerformanceFactors
https://stackoverflow.com/questions/7698117
复制相似问题