问分类数据和数值数据的聚类
EN

Stack Overflow用户

提问于 2015-11-13 03:11:08

回答 1查看 753关注 0票数 2

我有一个警报集合，我想根据相似性/距离对其进行分组。由于我们有非数值数据，我如何对这类数据执行聚类.

  set.seed(42)   
  data.frame(Host1 = rep("del",10), 
  Host2 = c(rep("cpp",4), rep("sscp",3), rep("portal",3)),
 Host3 = c(rep("web",5), rep("apache",3), rep("app",2)), 
 Host4 = c(sample(3,8, replace = TRUE), rep("con",2)), 
 Date1 = abs(round(1:10 + rnorm(10),2))) 



   Host1  Host2  Host3 Host4 Date1
1    del    cpp    web     3  1.40
2    del    cpp    web     3  1.89
3    del    cpp    web     1  4.51
4    del    cpp    web     3  3.91
5    del   sscp    web     2  7.02
6    del   sscp apache     2  5.94
7    del   sscp apache     3  8.30
8    del portal apache     1 10.29
9    del portal    app   con  7.61
10   del portal    app   con  9.72

期待建立集群。

cluster-analysis

data-manipulation

回答 1

Stack Overflow用户

发布于 2015-11-13 12:05:21

K-表示仅适用于数值(连续)数据。

根据定义，它最小化了平方偏差。最小化平方偏差只对连续数据有意义。任何一种单一的热编码都只是一种黑客；它使数据类型兼容，而不是合理的方法。

你的相似性/距离是多少？

分层聚类是可行的。如果您可以定义一个有意义的距离函数来量化距离。但是，这是应用程序依赖的。我们没有你的数据，也不了解你的问题。我们不能帮你解决这个问题。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33685321

复制

相似问题

问分类数据和数值数据的聚类
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分类数据和数值数据的聚类EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分类数据和数值数据的聚类
EN