文章/答案/技术大牛

发布

社区首页 >问答首页 >连续特征的离散化是否也会丢失距离信息？

问连续特征的离散化是否也会丢失距离信息？
EN

Data Science用户

提问于 2018-11-09 15:37:43

回答 1查看 195关注 0票数 0

在离散化过程中，它会将附近的值“压缩”到一个垃圾箱中，在此过程中丢失一点点信息。

但是它不是也失去了关于特征距离的信息吗？例如，如果我们有height作为连续特性，我们就可以创建very small、small、medium、large和very large。问题是，一旦我们有了这些类别，我们就失去了very small和small比small和very large更接近的信息吗？

对于预测的特征来说，这将更加糟糕--我假设尝试预测height数的回归比试图预测height离散类别的分类器要成功得多，因为回归的代价函数可以说明距离正确的高度，但是分类器的成本函数只能回答“正确”或“不正确”。

然而，当我搜索关于离散化的时候，我还没有发现任何关于这个的提及。

我的假设不正确吗？

data-cleaning

preprocessing

回答 1

Data Science用户

回答已采纳

发布于 2018-11-09 16:56:21

你绝对是对的。另外，有时绑定也可能是任意的，但有时取决于您如何使用洞察力。

以市场营销为例，我们经常看到年龄被分成18-24岁，25-34岁等。

34岁和35岁的孩子的行为会有很大的不同吗？可能不会。但是，使用这样的分组仍然是有意义的，因为许多针对工具的广告平台都使用相同的bin定义。这在逻辑上是没有道理的，但实际上是可行的。

当然，这真的取决于你需要做的情况和分析的类型。对于某些发行版，您可能需要在存储之前进行日志缩放，等等。

回到你的例子，如果你觉得高度应该是一个连续的特征，而且大多数模型都可以处理它，那么有什么特别的原因你想要离散它吗？

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/40969

复制

相似问题

问连续特征的离散化是否也会丢失距离信息？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问连续特征的离散化是否也会丢失距离信息？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问连续特征的离散化是否也会丢失距离信息？
EN