首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >是否可以将两个预测建模案例(特征重叠)的训练集组合起来?

是否可以将两个预测建模案例(特征重叠)的训练集组合起来?
EN

Data Science用户
提问于 2020-06-21 11:45:56
回答 1查看 29关注 0票数 2

假设我们有dataset D1 (列A,B,C)和D2 (列A,B,D列),目标变量E。由于这两个数据集都很小,它们各自的预测模型的性能不太好。为了提高预测性能,我可以/应该应用以下步骤吗?

  • 删除不常见的列(因此A、B和E列保留在两个数据集中)
  • 在列车和测试集中分割每个数据集(交叉验证以评估,因此没有验证集)
  • 基于D1和D2训练集组合的预测模型的训练
  • 在各自的测试集上评估D1和D2的测试集性能(使用1模型而不是2)

我认为这是允许的,但我不能完全确定是否有任何(坏的)影响。

EN

回答 1

Data Science用户

发布于 2020-06-21 14:38:58

好吧,列和行之间有一个明显的权衡。为什么不首先检查一下C和D列在各个模型中的重要性呢?它们的相关性越小,最好是把它们扔掉,把桌子弄得乱七八糟。

例如,您可以使用sklearn尝试一个随机森林,然后检查feature_importances_。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/76395

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档