谁能给我解释一下参数阈值在Gensim的短语模型中是做什么的?当涉及到训练包含大量数据的数据集时,如何选择它?我找了很多教程,但还是想不明白,谢谢
发布于 2021-01-01 02:06:21
作为寻找有趣单词对的一种相当粗糙的统计方法,最优参数的选择只是一个更适合您的目的的问题。
尝试小于和大于默认值的值,并根据实际最终目标的一些可重复的质量评估来测试结果短语。选择得分最高的值。
请注意,由于此方法完全不受语法等因素的影响,因此创建的短语不会可靠地与人类对逻辑单词分组的理解相匹配。在任何一组调优的参数中,它都会创建一些不需要的短语,并错过其他你认为有用的短语。
因此,它的标记化文本输出通常不适合显示给最终用户,即使它可能是其他分析步骤的有用输入,比如分类器或文档相似度计算。
https://stackoverflow.com/questions/65520223
复制相似问题