假设我们有dataset D1 (列A,B,C)和D2 (列A,B,D列),目标变量E。由于这两个数据集都很小,它们各自的预测模型的性能不太好。为了提高预测性能,我可以/应该应用以下步骤吗?
我认为这是允许的,但我不能完全确定是否有任何(坏的)影响。
发布于 2020-06-21 14:38:58
好吧,列和行之间有一个明显的权衡。为什么不首先检查一下C和D列在各个模型中的重要性呢?它们的相关性越小,最好是把它们扔掉,把桌子弄得乱七八糟。
例如,您可以使用sklearn尝试一个随机森林,然后检查feature_importances_。
https://datascience.stackexchange.com/questions/76395
复制相似问题