首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >R中同句中的文本挖掘

R中同句中的文本挖掘
EN

Stack Overflow用户
提问于 2017-04-17 16:38:54
回答 1查看 160关注 0票数 0

我有一个文本文件

今天我在写作。今天我在考虑写作。今天是伟大的一天

我试图在“今日写作”的句子中找到一些“今日写作”mentioned.It可能发生的情况,即“今天写作”并不在一起,但仍然是同一句的一部分(例如:第二句),也需要捕捉到这一点。

所以在上面的例子中,我的计数是2。

知道在R里怎么做吗?提亚

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-04-17 17:07:40

有很多方法可以做到这一点,但是使用tidytext,

代码语言:javascript
复制
library(tidyverse)
library(tidytext)

data_frame(text = "I am writing today. Today I am thinking of writing. Today is great day") %>%
    unnest_tokens(sentence, text, 'sentences', to_lower = FALSE) %>%
    mutate(sentence_number = row_number()) %>%
    unnest_tokens(word, sentence, 'words', drop = FALSE) %>%
    group_by(sentence_number) %>% 
    filter('today' %in% word, 'writing' %in% word) %>% 
    select(-word) %>% distinct() %>% ungroup() %>%
    mutate(count = n())

#> # A tibble: 2 × 3
#>                          sentence sentence_number count
#>                             <chr>           <int> <int>
#> 1             I am writing today.               1     2
#> 2 Today I am thinking of writing.               2     2
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43455540

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档