我将举例说明:
library(data.table)
dt <- data.table(words = c("finance", "financial", "business"),
freq = c(123, 5, 4589))
dt <- dt[, words := SnowballC::wordStem(words, language = "english")]
View(dt)
words freq
financ 123
financi 5
busi 4589我以为这句话能给我带来金融、金融和商业。我至少希望金融和金融有同样的基础词。我试着把相似的单词组合起来,它对一些单词有效,比如拥有和两者都变成了拥有,但是对于像上面这样的词,它似乎不起作用,除非我误解了?
发布于 2016-05-23 08:53:35
看起来你的结果就是Porter stemmer算法应该做的事情。
文档 (步骤4)展示了使用示例中使用的后缀进行词干处理的示例:
(m>1) AL ->复兴-> reviv (m>1) ->津贴->允许
如果您想对您的单词进行分组,那么您可能希望在运行wordStem之前修剪它们,或者在词干结束后使用字符串匹配函数(例如,agrep)。
https://stackoverflow.com/questions/37385880
复制相似问题