首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >分类问题的分类特征与数值特征的关联与结合

分类问题的分类特征与数值特征的关联与结合
EN

Data Science用户
提问于 2021-12-13 21:27:12
回答 1查看 250关注 0票数 2

我刚开始我的第一个机器学习项目(朱庇特笔记本,Python,Scikit学习,熊猫),我正在研究一个Palmer企鹅数据集。我一直在做一些数据分析,在试图关联和组合数据集中的一些属性时,我陷入了困境。

  1. 相关性。

该数据集包含2个分类(性别、岛屿)和4个数字(体重、鳍长、文化深度、捕食者宽度)特征以及一个标签(企鹅物种)。我第一次尝试将这些特征与标签联系起来--我使用了来自scikit的LabelEncoder --学习将物种标签转换为一个数字属性,因为熊猫数据的相关函数只对数字属性起作用。尽管我得到了一些结果,但我从许多来源读到,这是衡量范畴属性和数字属性之间相关性的一种不恰当的方法。如果有人能为我澄清,衡量这类类型之间的相关性的首选方法是什么,我将不胜感激。

  1. 结合。

我想要度量这些属性之间的相关性的原因之一是,如果有意义的话,可以用组合属性替换一些属性。其中一个逻辑上合理的组合是把性别和体重结合起来--我在想,性别分开并不能带来多大的价值,但是如果我们把性别和体重结合起来,它可能会更有价值。这样的组合有意义吗?它们能提高分类模型的准确性吗?如果是,如何使用指定的工具将分类和数字属性结合起来?

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-12-14 03:54:25

关于你的第一点,你可以把你的特征和你的目标联系起来,就像你所做的那样(据我所知)。我不是百分之百确定)。这是因为您只是将分类类转换为数字,所以最终可能会得到类似于特性1与类1相关的结果,大约为0.4,等等。然后你可以倒转你的LabelEncoder编码以得到分类类,即1类是A类,2类是B类,我认为应该是正确的,但是如果我错了,请有人纠正我。

关于第2点,您所描述的是所谓的特性工程(),它将多个特性结合到一个基于领域知识的特性中。如果你没有领域的专业知识,那么我建议远离合并功能。

您给出的示例对我来说没有意义,因为gender是一个分类特性,而weight是一个数字特性。那么,你如何将两者结合起来呢?这可能会导致不正确/坏的结果。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/105085

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档