我使用mutual_info_classif来确定二进制文本分类任务中最重要的单词如下:
mi_score = mutual_info_classif(X, y)但是,上面给出了一系列的特征分数,而没有引用相应的类。
是否有一种方法可以使用MI获取每类中最重要的特性?
P.s.,我已经尝试过Chi2了,但是对于这两个类,它给出了相同的特性等级
发布于 2018-11-13 13:38:19
互信息是衡量两个变量之间相关性的一种度量。在您的示例中,每个属性变量与"Class“变量之间。当属性变量创建更好的目标变量时,互信息将给出更高的分数。这意味着你只能得到一个分数来描述属性和类之间的强度。最重要的特性是最能区分所有类的特性。
如果有一个具有多个标签的类(而不是一个二进制类),则可以使用虚拟变量为每个标签创建一个新的类变量。例如,假设您的类名是类,它包含三个不同的标签:“红色”、“绿色”和“蓝色”。创建3个新的目标变量,第一个变量将被称为"Is_Red",如果不是CLASS==“红色”或“否”,它将持有“是”。以这种方式,您可以看到类的每个特定实例之间最好的区别是哪个属性。您必须在每个新的类变量中运行相互信息。
https://stackoverflow.com/questions/53267548
复制相似问题