首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >连续特征的离散化是否也会丢失距离信息?

连续特征的离散化是否也会丢失距离信息?
EN

Data Science用户
提问于 2018-11-09 15:37:43
回答 1查看 195关注 0票数 0

在离散化过程中,它会将附近的值“压缩”到一个垃圾箱中,在此过程中丢失一点点信息。

但是它不是也失去了关于特征距离的信息吗?例如,如果我们有height作为连续特性,我们就可以创建very smallsmallmediumlargevery large。问题是,一旦我们有了这些类别,我们就失去了very smallsmallsmallvery large更接近的信息吗?

对于预测的特征来说,这将更加糟糕--我假设尝试预测height数的回归比试图预测height离散类别的分类器要成功得多,因为回归的代价函数可以说明距离正确的高度,但是分类器的成本函数只能回答“正确”或“不正确”。

然而,当我搜索关于离散化的时候,我还没有发现任何关于这个的提及。

我的假设不正确吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-11-09 16:56:21

你绝对是对的。另外,有时绑定也可能是任意的,但有时取决于您如何使用洞察力。

以市场营销为例,我们经常看到年龄被分成18-24岁,25-34岁等。

34岁和35岁的孩子的行为会有很大的不同吗?可能不会。但是,使用这样的分组仍然是有意义的,因为许多针对工具的广告平台都使用相同的bin定义。这在逻辑上是没有道理的,但实际上是可行的。

当然,这真的取决于你需要做的情况和分析的类型。对于某些发行版,您可能需要在存储之前进行日志缩放,等等。

回到你的例子,如果你觉得高度应该是一个连续的特征,而且大多数模型都可以处理它,那么有什么特别的原因你想要离散它吗?

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/40969

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档