我给出了一个描述现实世界商业问题的玩具例子。假设我是一名出版商,我有一些书店要参观。通过参观这些商店,我将检查它们是否有足够的库存,它们在货架上可见等等。现在,我正在训练一个模型,推荐我去参观的商店。比方说,我有20个特性和一些历史数据,其中有一个目标变量,表示是否访问了一个存储区(1/0)。我训练了一个关于这些数据的RandomForestClassifier模型,这就是我获得的特性重要性。

feature_14,feature_2比feature_11更重要。现在,假设feature_11是一个具有高度业务重要性的特性。举个例子,假设feature_11是书架上的书籍数量,我想在决定是否去一家商店时更加重视它。有什么方法比feature_14或feature_2更重视这个feature_11呢?从历史数据来看,模型已经认识到它是第三个最重要的变量,但我想让它成为一个关键的决定因素。有什么办法吗?
发布于 2021-06-05 11:56:55
如果我对现实世界的理解是正确的,听起来你是在试图决定访问的一组网站。总体模型“变量重要性”通常不是一个很好的方法,你想尝试从预测模型中找到与利益决策相关的东西。
您可能需要考虑使用与上一轮网站访问不同的内容作为目标变量。相反,建模的目标应该是一个期望的好处,取决于现场访问。然后,在建立了一个模型之后,您可以使用该结果生成一个排名列表站点--预计访问将提供最大的好处。
一种办法是:
如果feature_11具有业务重要性,即它与盈利能力或其他一些成功指标有关,那么它就应该自然脱离分析。然而,有一点要注意的是:任何基于过去例子的预测方法要起作用,都需要在变量之间存在一些随机变化。例如,如果去年访问了每个feature_11较大的情况,那么当Feature11= large / suspect =No可疑时,模型就没有什么可继续的了,并且假设这些条件是可疑的,那么模型就没有什么可继续的了。
https://datascience.stackexchange.com/questions/96265
复制相似问题