我们知道,我们通常对连续特征进行离散化,以消除额外的信息和不必要的规律性,从而使模型具有良好的鲁棒性和良好的预测能力。
但我想知道,除了基于特征的上下文之外,如何选择数据离散化、二进制或多值化的最优阈值。
发布于 2019-04-29 08:18:11
通过不同数量的回收箱检查该特征的直方图会有所帮助。数据分布没有明显变化的回收箱的最大宽度可以是一个合适的选择。
https://datascience.stackexchange.com/questions/51088
相似问题