我喜欢Carrot2的工作方式。目前我主要使用XML导入。我想导入包含TF-IDF结果的XML文件,而不是代码片段。这将允许我按照自己的意愿准备数据。
我尝试在代码片段中传递TF-IDF关键字(没有度量),但它以某种方式起作用了。不幸的是,Carrot2再次对我的数据执行TF-IDF,结果一般。如果我可以将我的关键字与重要性度量一起传递,然后只使用Carrot2对结果进行微调,那就太好了。
我在API中寻找了这样的解决方案,但没有找到。有没有可能呢?
发布于 2020-01-20 18:18:59
不幸的是,Carrot2不支持TF-IDF数据的直接输入。您可以尝试的一种技巧是,用句点(.)分隔每个关键字,根据关键字的重要性度量(四舍五入/缩放到最接近的整数)将每个关键字重复多次。用句点分隔关键字将确保Carrot2不会尝试将相邻的关键字连接到短语中。
https://stackoverflow.com/questions/59757594
复制相似问题