首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在ML模型中使用分层变量

如何在ML模型中使用分层变量
EN

Data Science用户
提问于 2022-01-20 14:56:33
回答 1查看 77关注 0票数 0

我正在处理一个包含1000行和20个变量的二进制分类问题。

我有product_idcitystatecountryproduct familyproduct typeproduct segment等变量。

正如您所看到的,我的大多数变量都是分层变量。也就是说,如果我知道城市名称,我可以推断/填充其他变量,如statecountry等。

product_id也是如此。如果我知道product_id信息,我可以得到关于product_familyproduct_segmentproduct type等的所有信息。

我的问题如下

因此,我应该只使用ML模型中的粒度级细节变量,而忽略其他级别的相同变量吗?因为我想这是相关的

( b)对于如何在我们的模型中处理这种情况,有什么建议或建议吗?

( c)我是否应该放弃这个项目,因为我只有很少的细粒度细节变量(即使不使用AI,也可以根据它们推断出其余的细节变量)吗?

( d)如果我进行预测,我相信分层变量的贡献是相同的。例如:如果变量city对预测的贡献率为10%,那么statecountry也贡献了相同的10%,对吗?(这意味着所有因素加在一起对结果贡献了10% )

你能帮我解决这个问题吗?

EN

回答 1

Data Science用户

发布于 2022-09-16 17:35:01

当然,您可以只使用粒度级变量,但这会丢弃大量信息。这些是利用层次结构的不同方法。一种方法是目标编码,如描述的这里,另一种可能的解决方案是使用分层模型。描述了一个层次回归问题的例子这里

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/107276

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档