我正在使用RWeka创建一个三元模型和四元模型。我注意到三元组有一个奇怪的行为
TrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
tdm <- TermDocumentMatrix(docs, control = list(tokenize = TrigramTokenizer))
> dim(tdm)
[1] 1540099 3
> tdm
<<TermDocumentMatrix (terms: 1540099, documents: 3)>>
Non-/sparse entries: 1548629/3071668
Sparsity : 66%
Maximal term length: 180
Weighting : term frequency (tf)当我删除稀疏项时,它会将上面的大约100万行缩减为8307行
> b <- removeSparseTerms(tdm, 0.66)
> dim(b)
[1] 8307 3因为移除四元组完全不会影响它
quadgramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 4, max = 4))
tdm <- TermDocumentMatrix(docs, control = list(tokenize = QuadgramTokenizer))
<<TermDocumentMatrix (terms: 1427403, documents: 3)>>
Non-/sparse entries: 1427936/2854273
Sparsity : 67%
Maximal term length: 185
Weighting : term frequency (tf)
> dim(tdm)
[1] 1427403 3
> tdm <- removeSparseTerms(tdm, 0.67)
> dim(tdm)
[1] 1427403 3在删除稀疏术语后有100万个项目。
这看起来不太对劲。
如果我做错了什么,请让我知道
关于Ganesh
发布于 2015-08-11 22:00:32
这很奇怪。一种合乎逻辑的行为是,删除稀疏术语将在这两种情况下删除大量内容,因为三文法和四文法是不太常见的单文法。您的会话中是否有其他QuadgramTokenizer对象?您的原始函数是用一个小的"q“quadgramTokenize调用的。但是我想知道为什么它没有显示一个错误,它可能认为它是空的?我想一定是这么简单的事情。检查一下,如果没有,我将用一个数据样本运行它,看看这里可能出了什么问题。
https://stackoverflow.com/questions/31502962
复制相似问题