首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么当我申请到quanteda.corba的英国政党宣言语料库时,quanteda的textmodel_wordfish会无限运行?

为什么当我申请到quanteda.corba的英国政党宣言语料库时,quanteda的textmodel_wordfish会无限运行?
EN

Stack Overflow用户
提问于 2019-04-13 01:05:53
回答 1查看 114关注 0票数 0

我正在尝试将wordfish应用于quanteda.corda的data_corpus_ukmanifestos,但它似乎从未停止运行。另一方面,当我使用quanteda的wordfish教程中的示例代码时,wordfish在几秒钟内就完成了。这对我来说是个问题吗?这种情况也发生在其他人身上吗?我怎样才能避开这个问题呢?

这是我现在拥有的代码。正如我所说,wordfish在爱尔兰预算演讲上运行时只需几秒钟,但在应用于政党宣言时从不停止运行。

代码语言:javascript
复制
## install/load packages
## install.packages(c("quanteda", "devtools"))
## devtools::install_github("quanteda/quanteda.corpora")
library(quanteda)
library(quanteda.corpora)
require(quanteda)
require(quanteda.corpora)
dfmat_irish <- dfm(data_corpus_irishbudget2010, remove_punct = TRUE)
tmod_wf <- textmodel_wordfish(dfmat_irish, dir = c(6,5))
summary(tmod_wf)

dfmat_uk <- dfm(data_corpus_ukmanifestos, remove_punct = TRUE)
wf_uk <- textmodel_wordfish(dfmat_uk, dir = c(83, 74))

如何让wordfish与这个语料库协同工作?

EN

回答 1

Stack Overflow用户

发布于 2019-04-13 15:47:38

试着修剪低频词。时间序列语料库的时间跨度越长,矩阵就越稀疏。英国语料库中有101个宣言,可以追溯到1945年。许多术语将是非常罕见的。

代码语言:javascript
复制
library("quanteda")
## Package version: 1.4.4
## Parallel computing: 2 of 12 threads used.
## See https://quanteda.io for tutorials and examples.
## 
## Attaching package: 'quanteda'
## The following object is masked from 'package:utils':
## 
##     View
data(data_corpus_ukmanifestos, package = "quanteda.corpora")
system.time(
  wf_uk2 <- dfm(data_corpus_ukmanifestos, remove_numbers = TRUE, remove_punct = TRUE) %>%
    dfm_trim(min_termfreq = 10, min_docfreq = 20) %>%
    textmodel_wordfish(dir = c(83, 74))
)
##    user  system elapsed 
##   2.274   0.124   2.356

您还可以使用dfm_wordstem()进一步减少功能集,但最好在修剪操作之前执行此操作。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55656561

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档