我试图给这个包的作者发电子邮件,但没有成功,只是想知道是否有人经历过这种情况。
我在具有13个属性的4000行数据上使用rpart。我可以对300行相同的数据运行相同的测试,没有任何问题。当我在4000行上运行时,Rgui.exe始终以50%的CPU运行,并且UI挂起;如果我让它运行,并且从不退出或响应,它将保持这种状态至少4-5个小时。
下面是我在300和4000大小的子集上使用的代码:
train <- read.csv("input.csv", header=T)
y <- train[, 18]
x <- train[, 3:17]
library(rpart)
fit <- rpart(y ~ ., x)这是rpart的一个已知限制吗?我做错了什么吗?可能的变通方法?
发布于 2012-06-30 04:13:55
这里的问题是数据准备错误。
在数据集的中间很远的地方重写了一个标题。
发布于 2010-04-22 20:32:16
当你输入相似尺寸的rpart随机数据,而不是你的真实数据(来自input.csv)时,你能重现错误信息吗?如果没有,可能是您的数据有问题(可能是格式化?)。使用read.csv导入数据后,通过查看str(序列)的输出来检查数据的格式问题。
#How to do an equivalent rpart fit one some random data of equivalent dimension
dats<-data.frame(matrix(rnorm(4000*14), nrow=4000))
y<-dats[,1]
x<-dats[,-1]
library(rpart)
system.time(fit<-rpart(y~.,x))https://stackoverflow.com/questions/2686437
复制相似问题