文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在ML模型中使用分层变量

问如何在ML模型中使用分层变量
EN

Data Science用户

提问于 2022-01-20 14:56:33

回答 1查看 77关注 0票数 0

我正在处理一个包含1000行和20个变量的二进制分类问题。

我有product_id，city，state，country，product family，product type，product segment等变量。

正如您所看到的，我的大多数变量都是分层变量。也就是说，如果我知道城市名称，我可以推断/填充其他变量，如state、country等。

product_id也是如此。如果我知道product_id信息，我可以得到关于product_family，product_segment，product type等的所有信息。

我的问题如下

因此，我应该只使用ML模型中的粒度级细节变量，而忽略其他级别的相同变量吗？因为我想这是相关的

( b)对于如何在我们的模型中处理这种情况，有什么建议或建议吗？

( c)我是否应该放弃这个项目，因为我只有很少的细粒度细节变量(即使不使用AI，也可以根据它们推断出其余的细节变量)吗？

( d)如果我进行预测，我相信分层变量的贡献是相同的。例如:如果变量city对预测的贡献率为10%，那么state、country也贡献了相同的10%，对吗？(这意味着所有因素加在一起对结果贡献了10% )

你能帮我解决这个问题吗？

machine-learning

deep-learning

neural-network

classification

feature-selection

回答 1

Data Science用户

发布于 2022-09-16 17:35:01

当然，您可以只使用粒度级变量，但这会丢弃大量信息。这些是利用层次结构的不同方法。一种方法是目标编码，如描述的这里，另一种可能的解决方案是使用分层模型。描述了一个层次回归问题的例子这里。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/107276

复制

相似问题

问如何在ML模型中使用分层变量
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在ML模型中使用分层变量EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在ML模型中使用分层变量
EN