首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >分类数据和数值数据的聚类

分类数据和数值数据的聚类
EN

Stack Overflow用户
提问于 2015-11-13 03:11:08
回答 1查看 753关注 0票数 2

我有一个警报集合,我想根据相似性/距离对其进行分组。由于我们有非数值数据,我如何对这类数据执行聚类.

代码语言:javascript
复制
  set.seed(42)   
  data.frame(Host1 = rep("del",10), 
  Host2 = c(rep("cpp",4), rep("sscp",3), rep("portal",3)),
 Host3 = c(rep("web",5), rep("apache",3), rep("app",2)), 
 Host4 = c(sample(3,8, replace = TRUE), rep("con",2)), 
 Date1 = abs(round(1:10 + rnorm(10),2))) 



   Host1  Host2  Host3 Host4 Date1
1    del    cpp    web     3  1.40
2    del    cpp    web     3  1.89
3    del    cpp    web     1  4.51
4    del    cpp    web     3  3.91
5    del   sscp    web     2  7.02
6    del   sscp apache     2  5.94
7    del   sscp apache     3  8.30
8    del portal apache     1 10.29
9    del portal    app   con  7.61
10   del portal    app   con  9.72

期待建立集群。

EN

回答 1

Stack Overflow用户

发布于 2015-11-13 12:05:21

K-表示仅适用于数值(连续)数据。

根据定义,它最小化了平方偏差。最小化平方偏差只对连续数据有意义。任何一种单一的热编码都只是一种黑客;它使数据类型兼容,而不是合理的方法。

你的相似性/距离是多少?

分层聚类是可行的。如果您可以定义一个有意义的距离函数来量化距离。但是,这是应用程序依赖的。我们没有你的数据,也不了解你的问题。我们不能帮你解决这个问题。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33685321

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档