问R中同句中的文本挖掘
EN

Stack Overflow用户

提问于 2017-04-17 16:38:54

回答 1查看 160关注 0票数 0

我有一个文本文件

今天我在写作。今天我在考虑写作。今天是伟大的一天

我试图在“今日写作”的句子中找到一些“今日写作”mentioned.It可能发生的情况，即“今天写作”并不在一起，但仍然是同一句的一部分(例如:第二句)，也需要捕捉到这一点。

所以在上面的例子中，我的计数是2。

知道在R里怎么做吗？提亚

text-mining

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-04-17 17:07:40

有很多方法可以做到这一点，但是使用tidytext，

library(tidyverse)
library(tidytext)

data_frame(text = "I am writing today. Today I am thinking of writing. Today is great day") %>%
    unnest_tokens(sentence, text, 'sentences', to_lower = FALSE) %>%
    mutate(sentence_number = row_number()) %>%
    unnest_tokens(word, sentence, 'words', drop = FALSE) %>%
    group_by(sentence_number) %>% 
    filter('today' %in% word, 'writing' %in% word) %>% 
    select(-word) %>% distinct() %>% ungroup() %>%
    mutate(count = n())

#> # A tibble: 2 × 3
#>                          sentence sentence_number count
#>                             <chr>           <int> <int>
#> 1             I am writing today.               1     2
#> 2 Today I am thinking of writing.               2     2

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43455540

复制

相似问题

问R中同句中的文本挖掘
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问R中同句中的文本挖掘EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问R中同句中的文本挖掘
EN