首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在TDM中连接相邻单词(令牌)以进行整洁分析

在TDM中连接相邻单词(令牌)以进行整洁分析
EN

Stack Overflow用户
提问于 2017-03-23 09:21:21
回答 1查看 76关注 0票数 1

我的文档具有类似于以下内容的字符串:

代码语言:javascript
复制
    textForAnalysis <- c("non-ifrs earnings numbers are report to be...")

我进入了一个语料库

代码语言:javascript
复制
    textCorpus <- Corpus(VectorSource(textForAnalysis))

然后翻译成TDM

代码语言:javascript
复制
    textTDM <- TermDocumentMatrix(textCorpus)

然后将TDM转换成整齐的格式进行分析。

代码语言:javascript
复制
    textTidy <- tidy(textTDM)

当我打印文本的时候,一切都很好,

代码语言:javascript
复制
    textTidy

> textTidy
# A tibble: 6 × 3
      term document count
     <chr>    <chr> <dbl>
1      are        1     1
2 earnings        1     1
3     ifrs        1     1
4      non        1     1
5  numbers        1     1
6   report        1     1

除了,我想保留“非国际财务报告准则”项目作为一个单一的标记(word)。我不想把“非国际财务报告准则”一词分为“非”和“国际财务报告准则”。

我如何在我的分析/TDM中保持相邻的词语,例如“非ifrs”作为一个单一的“术语”(非ifrs)?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-03-24 09:02:04

TermDocumentMatrix文档中有一段可能是关键:

对于SimpleCorpus来说,这是不同的。在这种情况下,所有选项都按固定顺序一次处理,以提高性能。它总是使用Boost托卡器(通过Rcpp),并且不使用自定义函数作为选项参数。

你有任务

代码语言:javascript
复制
textCorpus <- Corpus(VectorSource(textForAnalysis))

class(textCorpus)中可以看到,变量是SimpleCorpus的一个实例。

请使用V语料库而不是语料库:

代码语言:javascript
复制
textCorpus <- VCorpus(VectorSource(textForAnalysis))

现在您可以应用所有必要的控制参数:

代码语言:javascript
复制
textTDM <- TermDocumentMatrix(
  textCorpus, 
  control=list(removePunctuation=list(preserve_intra_word_dashes = TRUE))
)

结果是:

代码语言:javascript
复制
(textTidy <- tidy(textTDM))
# A tibble: 5 × 3
      term document count
     <chr>    <chr> <dbl>
1      are        1     1
2 earnings        1     1
3 non-ifrs        1     1
4  numbers        1     1
5   report        1     1
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42971802

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档