文章/答案/技术大牛

发布

社区首页 >问答首页 >随机森林:如果测试集也被标记，会有什么不同吗？

问随机森林:如果测试集也被标记，会有什么不同吗？
EN

Stack Overflow用户

提问于 2013-07-05 08:35:46

回答 1查看 8.4K关注 0票数 3

我能找到的所有使用随机森林进行预测的例子都已经有了实际的答案(即测试集有标签)。当你没有这个栏目的时候你会怎么做？

例如，本教程使用虹膜数据：http://mkseo.pe.kr/stats/?p=220

如果我们真的这样做，测试数据集应该有第1,4列，而不是第5列。如果您尝试在没有第5列的情况下运行此测试数据集，则会引发一个错误，即数据帧的大小不同，显然它们不是。

当你还没有一列答案时，你如何做出预测呢？

使用上述链接中的摘录编辑澄清：

准备训练和测试集。

 test = iris[ c(1:10, 51:60, 101:110), ]
 train = iris[ c(11:50, 61:100, 111:150), ]

测试数据框架有一个完整的物种列。我试着根据我从训练集上种植的森林来预测物种。所以我现在所处的位置是在跑步之后：

 test <- test[-5]

我现在的情况是，如果我出去收集了一堆植物的测量数据，并想知道基于我从训练数据中生长出来的树木模型的物种。那么，如何根据测试数据框中的剩余数据和使用训练数据框生长的森林来预测我刚刚删除的物种列呢？

supervised-learning

random-forest

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-07-05 09:21:13

尽管您引用的教程在test集合中有Species列，但正如您猜测的那样，predict函数并不需要它：

library(randomForest)
test  <- iris[ c(1:10, 51:60, 101:110), -5]  # removed the Species column here.
train <- iris[ c(11:50, 61:100, 111:150), ]
r <- randomForest(Species ~., data=train, importance=TRUE, do.trace=100)
predict(r, test)

票数 9

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/17479632

复制

相似问题

问随机森林:如果测试集也被标记，会有什么不同吗？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问随机森林:如果测试集也被标记，会有什么不同吗？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问随机森林:如果测试集也被标记，会有什么不同吗？
EN