问R: removeCommonTerms带全德达包裹？
EN

Stack Overflow用户

提问于 2017-01-11 11:07:40

回答 1查看 493关注 0票数 1

removeCommonTerms函数是TM包的here函数，因此

removeCommonTerms <- function (x, pct) 
{
    stopifnot(inherits(x, c("DocumentTermMatrix", "TermDocumentMatrix")), 
        is.numeric(pct), pct > 0, pct < 1)
    m <- if (inherits(x, "DocumentTermMatrix")) 
        t(x)
    else x
    t <- table(m$i) < m$ncol * (pct)
    termIndex <- as.numeric(names(t[t]))
    if (inherits(x, "DocumentTermMatrix")) 
        x[, termIndex]
    else x[termIndex, ]
}

现在，我想删除与泉泰集团过于常见的条款。我可以在创建文档特征矩阵或使用文档特征矩阵之前完成此删除。

如何删除R?中的全德达包中过于常见的术语

quanteda

回答 1

Stack Overflow用户

发布于 2017-01-11 17:07:20

您需要dfm_trim函数。来自?dfm_trim

max_docfreq出现某一功能的文档的最大数量或部分，在此基础上将删除该功能。(默认值不是上限。)

这需要最新版本的quanteda (新鲜的CRAN)。

packageVersion("quanteda")
## [1] ‘0.9.9.3’

inaugdfm <- dfm(data_corpus_inaugural)

dfm_trim(inaugdfm, max_docfreq = .8)
## Removing features occurring: 
##   - in more than 0.8 * 57 = 45.6 documents: 93
##   Total features removed: 93 (1.01%).
## Document-feature matrix of: 57 documents, 9,081 features (92.4% sparse).

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41589266

复制

相似问题

问R: removeCommonTerms带全德达包裹？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问R: removeCommonTerms带全德达包裹？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问R: removeCommonTerms带全德达包裹？
EN