我正在尝试将wordfish应用于quanteda.corda的data_corpus_ukmanifestos,但它似乎从未停止运行。另一方面,当我使用quanteda的wordfish教程中的示例代码时,wordfish在几秒钟内就完成了。这对我来说是个问题吗?这种情况也发生在其他人身上吗?我怎样才能避开这个问题呢?
这是我现在拥有的代码。正如我所说,wordfish在爱尔兰预算演讲上运行时只需几秒钟,但在应用于政党宣言时从不停止运行。
## install/load packages
## install.packages(c("quanteda", "devtools"))
## devtools::install_github("quanteda/quanteda.corpora")
library(quanteda)
library(quanteda.corpora)
require(quanteda)
require(quanteda.corpora)
dfmat_irish <- dfm(data_corpus_irishbudget2010, remove_punct = TRUE)
tmod_wf <- textmodel_wordfish(dfmat_irish, dir = c(6,5))
summary(tmod_wf)
dfmat_uk <- dfm(data_corpus_ukmanifestos, remove_punct = TRUE)
wf_uk <- textmodel_wordfish(dfmat_uk, dir = c(83, 74))如何让wordfish与这个语料库协同工作?
发布于 2019-04-13 15:47:38
试着修剪低频词。时间序列语料库的时间跨度越长,矩阵就越稀疏。英国语料库中有101个宣言,可以追溯到1945年。许多术语将是非常罕见的。
library("quanteda")
## Package version: 1.4.4
## Parallel computing: 2 of 12 threads used.
## See https://quanteda.io for tutorials and examples.
##
## Attaching package: 'quanteda'
## The following object is masked from 'package:utils':
##
## View
data(data_corpus_ukmanifestos, package = "quanteda.corpora")
system.time(
wf_uk2 <- dfm(data_corpus_ukmanifestos, remove_numbers = TRUE, remove_punct = TRUE) %>%
dfm_trim(min_termfreq = 10, min_docfreq = 20) %>%
textmodel_wordfish(dir = c(83, 74))
)
## user system elapsed
## 2.274 0.124 2.356您还可以使用dfm_wordstem()进一步减少功能集,但最好在修剪操作之前执行此操作。
https://stackoverflow.com/questions/55656561
复制相似问题