文章/答案/技术大牛

发布

社区首页 >问答首页 >分类问题的分类特征与数值特征的关联与结合

问分类问题的分类特征与数值特征的关联与结合
EN

Data Science用户

提问于 2021-12-13 21:27:12

回答 1查看 250关注 0票数 2

我刚开始我的第一个机器学习项目(朱庇特笔记本，Python，Scikit学习，熊猫)，我正在研究一个Palmer企鹅数据集。我一直在做一些数据分析，在试图关联和组合数据集中的一些属性时，我陷入了困境。

相关性。

该数据集包含2个分类(性别、岛屿)和4个数字(体重、鳍长、文化深度、捕食者宽度)特征以及一个标签(企鹅物种)。我第一次尝试将这些特征与标签联系起来--我使用了来自scikit的LabelEncoder --学习将物种标签转换为一个数字属性，因为熊猫数据的相关函数只对数字属性起作用。尽管我得到了一些结果，但我从许多来源读到，这是衡量范畴属性和数字属性之间相关性的一种不恰当的方法。如果有人能为我澄清，衡量这类类型之间的相关性的首选方法是什么，我将不胜感激。

结合。

我想要度量这些属性之间的相关性的原因之一是，如果有意义的话，可以用组合属性替换一些属性。其中一个逻辑上合理的组合是把性别和体重结合起来--我在想，性别分开并不能带来多大的价值，但是如果我们把性别和体重结合起来，它可能会更有价值。这样的组合有意义吗?它们能提高分类模型的准确性吗？如果是，如何使用指定的工具将分类和数字属性结合起来？

python

scikit-learn

pandas

jupyter

回答 1

Data Science用户

回答已采纳

发布于 2021-12-14 03:54:25

关于你的第一点，你可以把你的特征和你的目标联系起来，就像你所做的那样(据我所知)。我不是百分之百确定)。这是因为您只是将分类类转换为数字，所以最终可能会得到类似于特性1与类1相关的结果，大约为0.4，等等。然后你可以倒转你的LabelEncoder编码以得到分类类，即1类是A类，2类是B类，我认为应该是正确的，但是如果我错了，请有人纠正我。

关于第2点，您所描述的是所谓的特性工程()，它将多个特性结合到一个基于领域知识的特性中。如果你没有领域的专业知识，那么我建议远离合并功能。

您给出的示例对我来说没有意义，因为gender是一个分类特性，而weight是一个数字特性。那么，你如何将两者结合起来呢？这可能会导致不正确/坏的结果。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/105085

复制

相似问题

问分类问题的分类特征与数值特征的关联与结合
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分类问题的分类特征与数值特征的关联与结合EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分类问题的分类特征与数值特征的关联与结合
EN