我正在为餐馆建立一个推荐系统。每家餐厅都以文件的形式呈现。它有以下特点(字段),烹饪,设施,类型。
现在,我读到了关于MoreLikeThis查询的文章。它根据术语频率发现了类似的文档。因此,它忽略了例如,两个带有以下菜谱的文档
澳大利亚无麸质牛排店
因为,lucene索引并不认为它们是重要的术语,因为它们只发生一次。
还有其他忽略术语频率的查询吗?仅仅根据匹配的关键字数量找到相似的文档?
发布于 2016-06-04 14:31:00
通过通过QueryParser运行文档的整个内容,可以创建一个查询,如下所示:
QueryParser myQueryParser = new QueryParser(myFieldName, new StandardAnalyzer());
Query query = myQueryParser.parse(QueryParserBase.escape(myDoc.get(myFieldName)));潜在的问题可能是查询时间过长,导致性能差(这就是为什么MoreLikeThis试图选择最佳查询项而不是搜索所有查询项),或者过多的子句异常。
https://stackoverflow.com/questions/37629186
复制相似问题