我使用gbm(..., data = traindata, ...)训练一个模型,并使用predict(... newdata = newdata, ...)进行预测。
我的问题是:培训数据和新数据是否需要相同的格式(顺序和变量数量)?
在gbm手册中,为“预测”()编写了以下内容:
如果对象适合使用gbm.fit,则将不存在术语组件。因此,用户有更大的责任确保新数据的格式(顺序和变量数)与最初用于模型的格式相同。
这也适用于gbm还是仅适用于gbm.fit?新数据是否可以有不同于列车数据的格式?
谢谢
发布于 2016-02-12 17:08:33
假设您的数据具有M_N的维数(M个样本数和N个变量数),那么您的预测集需要K_N表示,那么样本数并不重要,但是变量数是。希望它能帮上忙
发布于 2016-02-13 19:38:40
谢谢,但是预测集中的N个变量是否需要有与训练集(gbm)相同的顺序?
此外,与训练集相比,预测集还能有额外的变量吗?在预测过程中,这些参数显然应该被忽略。
我的问题是gbm()和predict()是否识别变量的标签。如果是这样的话,预测集中变量和附加变量的顺序应该不会对预测产生影响。
谢谢
https://stackoverflow.com/questions/35365351
复制相似问题