文章/答案/技术大牛

发布

社区首页 >问答首页 >在TDM中连接相邻单词(令牌)以进行整洁分析

问在TDM中连接相邻单词(令牌)以进行整洁分析
EN

Stack Overflow用户

提问于 2017-03-23 09:21:21

回答 1查看 76关注 0票数 1

我的文档具有类似于以下内容的字符串：

    textForAnalysis <- c("non-ifrs earnings numbers are report to be...")

我进入了一个语料库

    textCorpus <- Corpus(VectorSource(textForAnalysis))

然后翻译成TDM

    textTDM <- TermDocumentMatrix(textCorpus)

然后将TDM转换成整齐的格式进行分析。

    textTidy <- tidy(textTDM)

当我打印文本的时候，一切都很好，

    textTidy

> textTidy
# A tibble: 6 × 3
      term document count
     <chr>    <chr> <dbl>
1      are        1     1
2 earnings        1     1
3     ifrs        1     1
4      non        1     1
5  numbers        1     1
6   report        1     1

除了，我想保留“非国际财务报告准则”项目作为一个单一的标记(word)。我不想把“非国际财务报告准则”一词分为“非”和“国际财务报告准则”。

我如何在我的分析/TDM中保持相邻的词语，例如“非ifrs”作为一个单一的“术语”(非ifrs)？

token

text-analysis

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-03-24 09:02:04

TermDocumentMatrix文档中有一段可能是关键：

对于SimpleCorpus来说，这是不同的。在这种情况下，所有选项都按固定顺序一次处理，以提高性能。它总是使用Boost托卡器(通过Rcpp)，并且不使用自定义函数作为选项参数。

你有任务

textCorpus <- Corpus(VectorSource(textForAnalysis))

从class(textCorpus)中可以看到，变量是SimpleCorpus的一个实例。

请使用V语料库而不是语料库：

textCorpus <- VCorpus(VectorSource(textForAnalysis))

现在您可以应用所有必要的控制参数：

textTDM <- TermDocumentMatrix(
  textCorpus, 
  control=list(removePunctuation=list(preserve_intra_word_dashes = TRUE))
)

结果是：

(textTidy <- tidy(textTDM))
# A tibble: 5 × 3
      term document count
     <chr>    <chr> <dbl>
1      are        1     1
2 earnings        1     1
3 non-ifrs        1     1
4  numbers        1     1
5   report        1     1

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42971802

复制

相似问题

问在TDM中连接相邻单词(令牌)以进行整洁分析
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在TDM中连接相邻单词(令牌)以进行整洁分析EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在TDM中连接相邻单词(令牌)以进行整洁分析
EN