问决策树中的数值变量
EN

Data Science用户

提问于 2020-04-03 13:33:20

回答 1查看 246关注 0票数 4

如果我们有数值变量，决策树将使用<和>比较作为分裂条件。让我们考虑一下这种情况:如果我们的目标变量是偶数数值的1，奇数值是0。如何处理这类变量？如果我们有大量的变量，如何识别这些类型的变量？这些类型的变量有什么特定的名称吗？

decision-trees

回答 1

Data Science用户

回答已采纳

发布于 2020-04-03 18:15:49

我认为这是一个糟糕的特性工程:作为一个ML系统的设计者，一个人应该分析他们的数据并找到使ML系统尽可能好地运行的最佳方法。在这种情况下，通过为每个实例添加一个简单的特性x % 2，决策树可以完美地执行。

已添加即使在更复杂的模式下，如果存在这样的数值“集群”，则必须有一个逻辑解释来解释为什么会发生这种情况，这取决于这个问题的专家能够分析和理解的任务。在大多数实际情况下，这意味着存在一些隐藏/中间变量，而设计系统以表示这些变量是关键。换句话说，数值变量与预测响应变量在语义上没有直接关系，因为当使用数字值时，假设它们的顺序很重要(在这里，数值的行为更像是一个范畴变量)。

票数 5

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/71678

复制

相似问题

问决策树中的数值变量
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问决策树中的数值变量EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问决策树中的数值变量
EN