首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Gensim短语模型参数(阈值)

Gensim短语模型参数(阈值)
EN

Stack Overflow用户
提问于 2020-12-31 19:24:09
回答 1查看 26关注 0票数 0

谁能给我解释一下参数阈值在Gensim的短语模型中是做什么的?当涉及到训练包含大量数据的数据集时,如何选择它?我找了很多教程,但还是想不明白,谢谢

EN

回答 1

Stack Overflow用户

发布于 2021-01-01 02:06:21

作为寻找有趣单词对的一种相当粗糙的统计方法,最优参数的选择只是一个更适合您的目的的问题。

尝试小于和大于默认值的值,并根据实际最终目标的一些可重复的质量评估来测试结果短语。选择得分最高的值。

请注意,由于此方法完全不受语法等因素的影响,因此创建的短语不会可靠地与人类对逻辑单词分组的理解相匹配。在任何一组调优的参数中,它都会创建一些不需要的短语,并错过其他你认为有用的短语。

因此,它的标记化文本输出通常不适合显示给最终用户,即使它可能是其他分析步骤的有用输入,比如分类器或文档相似度计算。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65520223

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档