问交叉验证，同时保留列(而不是目标)分布
EN

Data Science用户

提问于 2019-09-02 15:25:56

回答 1查看 37关注 0票数 0

所以我做交叉验证，然后我预测使用测试集(一个坚持集)上的所有数据。我的保留集在列上的比率与火车相同(似乎是这样生成测试集的，该函数对测试集进行了采样，并试图为目标类和特定列保留比率)。我的本地简历比我在测试集上的分数要低一些，我认为问题是因为我只在“y”中使用分层。

缺乏这一特征的分层是否是简历和考试分数不太接近的原因？

如果是这样的话，我如何对目标和功能执行分层！谢谢

编辑:我已经对目标进行分层，因为我的数据是不平衡的。

回答已采纳

发布于 2019-09-02 15:40:05

一种方法是将两列(一个预测器和目标)组合起来，然后使用组合列进行分层。

例如:对于一些观察，目标和列采用以下值：target = [0,1,0]和column = [A,A,B]。然后，组合列可以类似于[A0,A1,B0]，可以用于分层。

显然，我假设谓词列是绝对的--对于连续变量，您可能需要采取不同的方法。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/58557

复制

相似问题

问交叉验证，同时保留列(而不是目标)分布EN