我正在处理一个包含1000行和20个变量的二进制分类问题。
我有product_id,city,state,country,product family,product type,product segment等变量。
正如您所看到的,我的大多数变量都是分层变量。也就是说,如果我知道城市名称,我可以推断/填充其他变量,如state、country等。
product_id也是如此。如果我知道product_id信息,我可以得到关于product_family,product_segment,product type等的所有信息。
我的问题如下
因此,我应该只使用ML模型中的粒度级细节变量,而忽略其他级别的相同变量吗?因为我想这是相关的
( b)对于如何在我们的模型中处理这种情况,有什么建议或建议吗?
( c)我是否应该放弃这个项目,因为我只有很少的细粒度细节变量(即使不使用AI,也可以根据它们推断出其余的细节变量)吗?
( d)如果我进行预测,我相信分层变量的贡献是相同的。例如:如果变量city对预测的贡献率为10%,那么state、country也贡献了相同的10%,对吗?(这意味着所有因素加在一起对结果贡献了10% )
你能帮我解决这个问题吗?
https://datascience.stackexchange.com/questions/107276
复制相似问题