文章/答案/技术大牛

发布

社区首页 >问答首页 >聚类内聚类，即多类聚类的数据表的嵌套聚类

问聚类内聚类，即多类聚类的数据表的嵌套聚类
EN

Stack Overflow用户

提问于 2019-06-15 13:15:16

回答 1查看 151关注 0票数 1

如何对数据集中具有相似名称(如McDonald和Mc DOnald's)的字符串应用聚类，并且如果字符串相同(如sam和其他sam)，则如何再次基于价值或价格进行聚类例如-考虑一个具有10个元素的数据表

name           price
ram               200
shyam             150
ram12              59
gita               45
ram 2                45 
g11ita                23
john2                32
john                 7
jonh21               8
jonh                 38
ram22                3

那么分组应该是

ram                    200

ram12                  59
ram  2                 45

ram22                   3

john2                    32
jonh                     37

john                    7
john21                   8

gita                 45
g11ita               23

我使用了使用fuzzywuzzy和Levenheneitein distance的字符串聚类，但它只能聚类字符串，而不能聚类价格如何聚类第一个字符串，如果相同，则聚类价格

cluster-analysis

python

python-2.7

machine-learning

artificial-intelligence

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-06-16 01:54:49

您需要仔细平衡文本相似度和数值相似度的阈值。不会有一个简单的解决方案，除非您有非常庞大的数据，否则手动方法可能是最好的。

短字符串的文本相似性是非常不可靠的。

例如："dog“和"fog”只有一个字母的区别，但都是不太可能的打字错误。他们有Levenshtein距离1，最小的非零值！正因为如此，如果你依赖于Levenshtein，你将会有大量的误报-如果你手动验证它们是可以的，但不是为了自动处理。

因此，至少您需要使用了解(a)现有单词，这些单词不太可能拼写错误，(b)常见拼写错误，以及(c)语音相似度来估计单词拼写错误的可能性，(d)键盘相似度，单词输入错误的可能性……

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56607559

复制

相似问题

问聚类内聚类，即多类聚类的数据表的嵌套聚类
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问聚类内聚类，即多类聚类的数据表的嵌套聚类EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问聚类内聚类，即多类聚类的数据表的嵌套聚类
EN