我使用cv.glmnet()执行交叉验证,在默认情况下是10-fold。
library(Matrix)
library(tm)
library(glmnet)
library(e1071)
library(SparseM)
library(ggplot2)
trainingData <- read.csv("train.csv", stringsAsFactors=FALSE,sep=",", header = FALSE)
testingData <- read.csv("test.csv",sep=",", stringsAsFactors=FALSE, header = FALSE)
x = model.matrix(as.factor(V42)~.-1, data = trainingData)
crossVal <- cv.glmnet(x=x, y=trainingData$V42, family="multinomial", alpha=1)
plot(crossVal)我有以下错误消息
Error in lognet(x, is.sparse, ix, jx, y, weights, offset, alpha, nobs, :
one multinomial or binomial class has 1 or 0 observations; not allowed但是,如下所示,我似乎没有0或1计数的观察级别。
>table(trainingData$V42)
back buffer_overflow ftp_write guess_passwd imap ipsweep land loadmodule multihop
956 30 8 53 11 3599 18 9 7
neptune nmap normal perl phf pod portsweep rootkit satan
41214 1493 67343 3 4 201 2931 10 3633
smurf spy teardrop warezclient warezmaster
2646 2 892 890 20 有什么指示吗?
发布于 2016-03-15 12:30:28
默认情况下,cv.glmnet与N=10进行N折交叉验证.这意味着它将你的数据分割成10个子集,然后在10个子集中的9个上训练一个模型,并在剩下的1个上进行测试。它重复这一点,依次删除每个子集。
您的数据非常稀少,有时训练子集会遇到这里遇到的问题(以及你之前的问题中的问题)。最好的解决方案是通过组合比较少见的类来减少响应中的类数(例如,您真的需要获得spy或perl的预测概率)。
另外,如果您正在执行glmnet交叉验证和构造模型矩阵,您可以使用我编写的glmnetUtils包来简化流程。
https://stackoverflow.com/questions/36009672
复制相似问题