我正在学习大数据集的特征选择。我遇到了一个叫做"Mutual_info_regression“和"Mutual_info_classif”的方法。它返回所有特征的值。该值代表什么??
发布于 2020-05-10 19:19:53
它们都测量包含一组特征向量的矩阵和目标之间的mutual information。它们是在sklearn.feature_selection下的,因为互信息可以用来了解一个特征的预测能力有多好。这是信息论中的一个核心概念,它与entropy密切相关,我建议您先从它开始。但简而言之,两个变量之间的相互信息,衡量一个给定的特征可以在多大程度上解释另一个(目标),或者更严格地说,通过观察一个特征,将获得多少关于目标变量的信息。
事实上,这是通过Iterative Dichotomiser 3训练的内部决策树用来决定将哪个特征设置为每个拆分中的节点以及后续要设置的阈值的度量。这两种方法之间的唯一区别是,一种方法适用于离散目标,另一种适用于连续目标。
https://stackoverflow.com/questions/61708970
复制相似问题