首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在经过训练的模型中改变特征的重要性

在经过训练的模型中改变特征的重要性
EN

Data Science用户
提问于 2021-06-04 12:56:44
回答 1查看 141关注 0票数 0

我给出了一个描述现实世界商业问题的玩具例子。假设我是一名出版商,我有一些书店要参观。通过参观这些商店,我将检查它们是否有足够的库存,它们在货架上可见等等。现在,我正在训练一个模型,推荐我去参观的商店。比方说,我有20个特性和一些历史数据,其中有一个目标变量,表示是否访问了一个存储区(1/0)。我训练了一个关于这些数据的RandomForestClassifier模型,这就是我获得的特性重要性。

feature_14,feature_2比feature_11更重要。现在,假设feature_11是一个具有高度业务重要性的特性。举个例子,假设feature_11是书架上的书籍数量,我想在决定是否去一家商店时更加重视它。有什么方法比feature_14或feature_2更重视这个feature_11呢?从历史数据来看,模型已经认识到它是第三个最重要的变量,但我想让它成为一个关键的决定因素。有什么办法吗?

EN

回答 1

Data Science用户

发布于 2021-06-05 11:56:55

如果我对现实世界的理解是正确的,听起来你是在试图决定访问的一组网站。总体模型“变量重要性”通常不是一个很好的方法,你想尝试从预测模型中找到与利益决策相关的东西。

您可能需要考虑使用与上一轮网站访问不同的内容作为目标变量。相反,建模的目标应该是一个期望的好处,取决于现场访问。然后,在建立了一个模型之后,您可以使用该结果生成一个排名列表站点--预计访问将提供最大的好处。

一种办法是:

  1. 定义一些盈利能力或其他效益指标,在对您的数据进行网站访问之前和之后都是可用的。
  2. 如果您的系统可以在连续变量上建模,则直接使用前后差异作为目标。否则,将差异分为t恤尺寸类(S/M/L/XL,如果您可以运行多类分类器;如果您仅限于二进制建模)
  3. 使用现场访问作为输入变量,在效益差异目标上建立随机森林模型.
  4. 现在,通过预测的模型运行您的案例,一次用visited=No,一次用visited=Yes。
  5. 根据“访问”预测之间最大的预测差异对结果进行排序。提供最大正向差异的前N个站点是第一个访问的N个站点。

如果feature_11具有业务重要性,即它与盈利能力或其他一些成功指标有关,那么它就应该自然脱离分析。然而,有一点要注意的是:任何基于过去例子的预测方法要起作用,都需要在变量之间存在一些随机变化。例如,如果去年访问了每个feature_11较大的情况,那么当Feature11= large / suspect =No可疑时,模型就没有什么可继续的了,并且假设这些条件是可疑的,那么模型就没有什么可继续的了。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/96265

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档