文章/答案/技术大牛

发布

社区首页 >问答首页 >quanteda dfm()错误:组的长度必须为ndoc(x)

问quanteda dfm()错误:组的长度必须为ndoc(x)
EN

Stack Overflow用户

提问于 2021-04-26 21:36:03

回答 2查看 594关注 0票数 1

我正在尝试运行键值分析，一切正常，然后，由于未知的原因，它开始给我一个错误。我使用的是data_corpus_inaugural，它是美国总统就职演说的quanteda-package语料库对象。

我的代码：

> corpus_pres <- corpus_subset(data_corpus_inaugural, 
+                             President %in% c("Obama", "Trump"))
> dtm_pres <- dfm(corpus_pres, groups = "President", 
+                remove = stopwords("english"), remove_punct = TRUE)
Error: groups must have length ndoc(x)
In addition: Warning messages:
1: 'dfm.corpus()' is deprecated. Use 'tokens()' first. 
2: '...' should not be used for tokens() arguments; use 'tokens()' first. 
3: 'groups' is deprecated; use dfm_group() instead 
>

error-handling

nlp

quanteda

回答 2

Stack Overflow用户

发布于 2021-06-23 22:33:46

在quanteda v3中，"dfm()从标记对象构造文档特征矩阵“- https://tutorials.quanteda.io/basic-operations/dfm/dfm/

试试这个：

toks_pres <- tokens(pres_corpus, remove_punct = TRUE) %>% 
    tokens_remove(pattern = stopwords("en")) %>%
    tokens_group(groups = President)

pres_dfm <- dfm(toks_pres)

票数 0

Stack Overflow用户

发布于 2021-10-01 21:28:19

我在分析tweeter帐户时遇到了同样的问题，这段代码适用于我。您可以跨帐户搜索术语

# to make a group in corpus
twcorpus <- corpus(users) %>%
        corpus_group(groups= interaction(user_username))
        

# to visualize textplot_xray
textplot_xray(kwic(twcorpus, "helsin*"), scale="relative")

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67267702

复制

相似问题

问quanteda dfm()错误:组的长度必须为ndoc(x)
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问quanteda dfm()错误:组的长度必须为ndoc(x)EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问quanteda dfm()错误:组的长度必须为ndoc(x)
EN