文章/答案/技术大牛

发布

问切词太多了
EN

Stack Overflow用户

提问于 2016-05-23 08:14:20

回答 1查看 169关注 0票数 2

我将举例说明：

library(data.table)
dt <- data.table(words = c("finance", "financial", "business"),
                  freq = c(123, 5, 4589))
dt <- dt[, words := SnowballC::wordStem(words, language = "english")]
View(dt)

words    freq
financ    123
financi    5
busi     4589

我以为这句话能给我带来金融、金融和商业。我至少希望金融和金融有同样的基础词。我试着把相似的单词组合起来，它对一些单词有效，比如拥有和两者都变成了拥有，但是对于像上面这样的词，它似乎不起作用，除非我误解了？

word

stemming

data.table

text-mining

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-05-23 08:53:35

看起来你的结果就是Porter stemmer算法应该做的事情。

文档 (步骤4)展示了使用示例中使用的后缀进行词干处理的示例：

(m>1) AL ->复兴-> reviv (m>1) ->津贴->允许

如果您想对您的单词进行分组，那么您可能希望在运行wordStem之前修剪它们，或者在词干结束后使用字符串匹配函数(例如，agrep)。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/37385880

复制

相似问题

问切词太多了
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问切词太多了EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问切词太多了
EN