首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >quanteda dfm()错误:组的长度必须为ndoc(x)

quanteda dfm()错误:组的长度必须为ndoc(x)
EN

Stack Overflow用户
提问于 2021-04-26 21:36:03
回答 2查看 594关注 0票数 1

我正在尝试运行键值分析,一切正常,然后,由于未知的原因,它开始给我一个错误。我使用的是data_corpus_inaugural,它是美国总统就职演说的quanteda-package语料库对象。

我的代码:

代码语言:javascript
复制
> corpus_pres <- corpus_subset(data_corpus_inaugural, 
+                             President %in% c("Obama", "Trump"))
> dtm_pres <- dfm(corpus_pres, groups = "President", 
+                remove = stopwords("english"), remove_punct = TRUE)
Error: groups must have length ndoc(x)
In addition: Warning messages:
1: 'dfm.corpus()' is deprecated. Use 'tokens()' first. 
2: '...' should not be used for tokens() arguments; use 'tokens()' first. 
3: 'groups' is deprecated; use dfm_group() instead 
> 
EN

回答 2

Stack Overflow用户

发布于 2021-06-23 22:33:46

在quanteda v3中,"dfm()从标记对象构造文档特征矩阵“- https://tutorials.quanteda.io/basic-operations/dfm/dfm/

试试这个:

代码语言:javascript
复制
toks_pres <- tokens(pres_corpus, remove_punct = TRUE) %>% 
    tokens_remove(pattern = stopwords("en")) %>%
    tokens_group(groups = President)

pres_dfm <- dfm(toks_pres)
票数 0
EN

Stack Overflow用户

发布于 2021-10-01 21:28:19

我在分析tweeter帐户时遇到了同样的问题,这段代码适用于我。您可以跨帐户搜索术语

代码语言:javascript
复制
# to make a group in corpus
twcorpus <- corpus(users) %>%
        corpus_group(groups= interaction(user_username))
        

# to visualize textplot_xray
textplot_xray(kwic(twcorpus, "helsin*"), scale="relative")
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67267702

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档