我的文档具有类似于以下内容的字符串:
textForAnalysis <- c("non-ifrs earnings numbers are report to be...")我进入了一个语料库
textCorpus <- Corpus(VectorSource(textForAnalysis))然后翻译成TDM
textTDM <- TermDocumentMatrix(textCorpus)然后将TDM转换成整齐的格式进行分析。
textTidy <- tidy(textTDM)当我打印文本的时候,一切都很好,
textTidy
> textTidy
# A tibble: 6 × 3
term document count
<chr> <chr> <dbl>
1 are 1 1
2 earnings 1 1
3 ifrs 1 1
4 non 1 1
5 numbers 1 1
6 report 1 1除了,我想保留“非国际财务报告准则”项目作为一个单一的标记(word)。我不想把“非国际财务报告准则”一词分为“非”和“国际财务报告准则”。
我如何在我的分析/TDM中保持相邻的词语,例如“非ifrs”作为一个单一的“术语”(非ifrs)?
发布于 2017-03-24 09:02:04
TermDocumentMatrix文档中有一段可能是关键:
对于SimpleCorpus来说,这是不同的。在这种情况下,所有选项都按固定顺序一次处理,以提高性能。它总是使用Boost托卡器(通过Rcpp),并且不使用自定义函数作为选项参数。
你有任务
textCorpus <- Corpus(VectorSource(textForAnalysis))从class(textCorpus)中可以看到,变量是SimpleCorpus的一个实例。
请使用V语料库而不是语料库:
textCorpus <- VCorpus(VectorSource(textForAnalysis))现在您可以应用所有必要的控制参数:
textTDM <- TermDocumentMatrix(
textCorpus,
control=list(removePunctuation=list(preserve_intra_word_dashes = TRUE))
)结果是:
(textTidy <- tidy(textTDM))
# A tibble: 5 × 3
term document count
<chr> <chr> <dbl>
1 are 1 1
2 earnings 1 1
3 non-ifrs 1 1
4 numbers 1 1
5 report 1 1https://stackoverflow.com/questions/42971802
复制相似问题