所以我做交叉验证,然后我预测使用测试集(一个坚持集)上的所有数据。我的保留集在列上的比率与火车相同(似乎是这样生成测试集的,该函数对测试集进行了采样,并试图为目标类和特定列保留比率)。我的本地简历比我在测试集上的分数要低一些,我认为问题是因为我只在“y”中使用分层。
缺乏这一特征的分层是否是简历和考试分数不太接近的原因?
如果是这样的话,我如何对目标和功能执行分层!谢谢
编辑:我已经对目标进行分层,因为我的数据是不平衡的。
发布于 2019-09-02 15:40:05
一种方法是将两列(一个预测器和目标)组合起来,然后使用组合列进行分层。
例如:对于一些观察,目标和列采用以下值:target = [0,1,0]和column = [A,A,B]。然后,组合列可以类似于[A0,A1,B0],可以用于分层。
显然,我假设谓词列是绝对的--对于连续变量,您可能需要采取不同的方法。
https://datascience.stackexchange.com/questions/58557
复制相似问题