首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >对相似词进行分类

对相似词进行分类
EN

Stack Overflow用户
提问于 2015-08-07 14:20:16
回答 1查看 637关注 0票数 0

我目前正在做一个文本挖掘过程,我想在其中转换相似的单词(表,表等)。变成一个单词(表)‘。我看到tm包提供了一个这样的工具,但是这个包不支持我正在寻找的语言。因此,我想自己创造一些东西。

对于该函数,我希望有一个链接表->

代码语言:javascript
复制
 a <- c("Table", "Tables", "Tree", "Trees")
 b <- c("Table", "Tree", "Chair", "Invoice")
 df <- data.frame(b, a)

这样我就可以自动将所有的"Tables“值转换成"Table”

有没有想过我该怎么做?

EN

回答 1

Stack Overflow用户

发布于 2015-08-07 16:03:08

在R中搜索词干,你可以查找here,你可以尝试:

代码语言:javascript
复制
a <- c("Table", "Tables", "Tree", "Trees")
b <- c("Table", "Tree", "Chair", "Invoice")
library("SnowballC")
wordStem(words = a, language = "porter")
##[1] "Tabl" "Tabl" "Tree" "Tree"
library("tm") # tm use wordStem
stemCompletion(x = stemDocument(x = a), dictionary = b)
##   Tabl    Tabl    Tree    Tree 
##"Table" "Table"  "Tree"  "Tree" 

或者使用起来更复杂但更完整,您可以查看korPus包并使用TreeTagger处理您的文本:

代码语言:javascript
复制
library("koRpus")
tagged.results <- treetag(tolower(a), treetagger="manual", format="obj",
                          TT.tknz=FALSE , lang="en",
                          TT.options=list(path="./TreeTagger", preset="en"))
tagged.results@TT.res
##   token tag lemma lttr wclass                   desc stop stem
##1  table  NN table    5   noun Noun, singular or mass   NA   NA
##2 tables NNS table    6   noun           Noun, plural   NA   NA
##3   tree  NN  tree    4   noun Noun, singular or mass   NA   NA
##4  trees NNS  tree    5   noun           Noun, plural   NA   NA

你想要的是:

代码语言:javascript
复制
tagged.results@TT.res$lemma
##[1] "table" "table" "tree"  "tree" 
票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31870959

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档