首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >切词太多了

切词太多了
EN

Stack Overflow用户
提问于 2016-05-23 08:14:20
回答 1查看 169关注 0票数 2

我将举例说明:

代码语言:javascript
复制
library(data.table)
dt <- data.table(words = c("finance", "financial", "business"),
                  freq = c(123, 5, 4589))
dt <- dt[, words := SnowballC::wordStem(words, language = "english")]
View(dt)

words    freq
financ    123
financi    5
busi     4589

我以为这句话能给我带来金融、金融和商业。我至少希望金融和金融有同样的基础词。我试着把相似的单词组合起来,它对一些单词有效,比如拥有和两者都变成了拥有,但是对于像上面这样的词,它似乎不起作用,除非我误解了?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-05-23 08:53:35

看起来你的结果就是Porter stemmer算法应该做的事情。

文档 (步骤4)展示了使用示例中使用的后缀进行词干处理的示例:

(m>1) AL ->复兴-> reviv (m>1) ->津贴->允许

如果您想对您的单词进行分组,那么您可能希望在运行wordStem之前修剪它们,或者在词干结束后使用字符串匹配函数(例如,agrep)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37385880

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档