开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >二值离散化阈值的选择

问二值离散化阈值的选择
EN

Data Science用户

提问于 2019-04-29 03:32:47

回答 1查看 128关注 0票数 2

我们知道，我们通常对连续特征进行离散化，以消除额外的信息和不必要的规律性，从而使模型具有良好的鲁棒性和良好的预测能力。

但我想知道，除了基于特征的上下文之外，如何选择数据离散化、二进制或多值化的最优阈值。

machine-learning

feature-engineering

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-04-29 08:18:11

通过不同数量的回收箱检查该特征的直方图会有所帮助。数据分布没有明显变化的回收箱的最大宽度可以是一个合适的选择。

票数 0

EN

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/51088

复制

相似问题