有几个问题要问部分和党内专家。
1)我在尝试了解rpart和party中控制参数minbucket的区别。rpart中的minbucket是未加权的是正确的吗(即使提供了适合树的权重)?
2)谁能简要描述一下rpart算法中的权重是如何使用的?我试图下载和审查源代码,但我不能理解它是一个新手。rpart调用一个C函数(C_rpart),这似乎是rpart的主要部分,但我找不到有关它的更多信息。
提前谢谢你了。
发布于 2015-07-31 23:38:42
rpart (和大多数其他机器学习算法)中的权重参数可以被认为完全等同于多次重复这些训练项目。权重为5等同于将该行重复5次。只要您的数据集足够小,您就可以使用一些简单的代码显式地创建它:
data[rep(1:nrow(data),times=data$weights),] https://stackoverflow.com/questions/29289239
复制相似问题