我刚开始我的第一个机器学习项目(朱庇特笔记本,Python,Scikit学习,熊猫),我正在研究一个Palmer企鹅数据集。我一直在做一些数据分析,在试图关联和组合数据集中的一些属性时,我陷入了困境。
该数据集包含2个分类(性别、岛屿)和4个数字(体重、鳍长、文化深度、捕食者宽度)特征以及一个标签(企鹅物种)。我第一次尝试将这些特征与标签联系起来--我使用了来自scikit的LabelEncoder --学习将物种标签转换为一个数字属性,因为熊猫数据的相关函数只对数字属性起作用。尽管我得到了一些结果,但我从许多来源读到,这是衡量范畴属性和数字属性之间相关性的一种不恰当的方法。如果有人能为我澄清,衡量这类类型之间的相关性的首选方法是什么,我将不胜感激。
我想要度量这些属性之间的相关性的原因之一是,如果有意义的话,可以用组合属性替换一些属性。其中一个逻辑上合理的组合是把性别和体重结合起来--我在想,性别分开并不能带来多大的价值,但是如果我们把性别和体重结合起来,它可能会更有价值。这样的组合有意义吗?它们能提高分类模型的准确性吗?如果是,如何使用指定的工具将分类和数字属性结合起来?
发布于 2021-12-14 03:54:25
关于你的第一点,你可以把你的特征和你的目标联系起来,就像你所做的那样(据我所知)。我不是百分之百确定)。这是因为您只是将分类类转换为数字,所以最终可能会得到类似于特性1与类1相关的结果,大约为0.4,等等。然后你可以倒转你的LabelEncoder编码以得到分类类,即1类是A类,2类是B类,我认为应该是正确的,但是如果我错了,请有人纠正我。
关于第2点,您所描述的是所谓的特性工程(),它将多个特性结合到一个基于领域知识的特性中。如果你没有领域的专业知识,那么我建议远离合并功能。
您给出的示例对我来说没有意义,因为gender是一个分类特性,而weight是一个数字特性。那么,你如何将两者结合起来呢?这可能会导致不正确/坏的结果。
https://datascience.stackexchange.com/questions/105085
复制相似问题