文章/答案/技术大牛

发布

问在R中使用字符串
EN

Stack Overflow用户

提问于 2015-12-14 10:00:31

回答 3查看 993关注 0票数 0

让我说出以下几个字：

word1 = 'john lennon'
word2 = 'john lenon'
word3 = 'lennon john'

几乎可以清楚地看到，这三个词是对同一个人说的。具有以下代码：

library(stringdist)
>stringdist('john lennon','john lenon',method = 'jw')
[1] 0.06363636
>stringdist('john lennon','lennon john',method = 'qgram')
[1] 0
>stringdist('john lennon','lennon john',method = 'jw')
[1] 0.33
>stringdist('john lennon','john lenon',method = 'qgram')
[1] 1

很明显，在本例中，qgram工作得更好。但那只是那件事。我的问题是如何将这两种方法结合起来？

jw给出了更好的结果，但不能“捕捉”相反的单词(在我的例子中，姓和姓)。有什么建议吗？

stringdist

回答 3

Stack Overflow用户

回答已采纳

发布于 2015-12-14 11:33:22

我有一个想法，在计算上似乎是昂贵的，但至少它提供了相当好的结果。

word1 = 'john lennon'
word2 = 'john lenon'
word3 = 'lennon john'

首先，移除空间：

word1b = gsub(' ','',word1)
word2b = gsub(' ','',word2)
word3b = gsub(' ','',word3)

按字母顺序排列：

word1c = paste(sort(unlist(strsplit(word1b, ""))), collapse = "")
word2c = paste(sort(unlist(strsplit(word2b, ""))), collapse = "")
word3c = paste(sort(unlist(strsplit(word3b, ""))), collapse = "")

最后使用jw方法：

stringdist(word1c,word2c,method = 'jw')
[1] 0.03333333
stringdist(word1c,word3c,method = 'jw')
[1] 0
stringdist(word2c,word3c,method = 'jw')
[1] 0.03333333

结果满意。缺点:可能有不想要的结果，长度较小的字。

票数 0

Stack Overflow用户

发布于 2015-12-14 10:32:27

您可以集成一个" if“语句，它将运行jw方法当且仅当qgram不等于0。即if(stringdist(('john lennon','john lenon',method = 'qgram')!=0){stringdist('john lennon','john lenon',method = 'jw')}

票数 1

Stack Overflow用户

发布于 2015-12-14 10:06:02

我的建议是一个两级方案，在单词上匹配单词，在“句子”上匹配“句子”，可能只是尝试所有单词的组合。

这取决于您是否允许删除空白(johnlennon)。

票数 -3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/34264126

复制

相似问题

问在R中使用字符串
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在R中使用字符串EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在R中使用字符串
EN