首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在进行K均值聚类后,如何在每个聚类中找到最具代表性的特征?

在进行K均值聚类后,如何在每个聚类中找到最具代表性的特征?
EN

Stack Overflow用户
提问于 2017-05-09 17:19:42
回答 1查看 434关注 0票数 0

我试图在高维数据集(CDR数据)中使用K均值。

在集群之后,我想用characteristic来表示每个集群--最丰富的特性,它可以显示该集群中客户的唯一/代表性的。

例如,

群集1High:call_duration,Low:number_of_friends,High:call_at_night 群集2Low:call_duration,High:use_promotion 集群3High:internet_usage

我想知道..。

问题1:如何找到那些能代表每个集群的信息特性?问题2:如果有许多信息特性,如何衡量哪一个更有代表性?

另一个问题是“如何衡量这个值是高还是低?”

我目前的解决方案是将z-规范化应用于每个集群质心中的每个特性,然后我假设

  • <-2σ>2σ是孤立点
  • (-2σto -1σ)(1σto 2σ)低/高
  • -1σ到1σ是中等的

问题3:这个测量有意义吗?请给我你的建议。

EN

回答 1

Stack Overflow用户

发布于 2017-05-10 06:23:59

训练决策树来区分簇。

或任何其他特征选择方法的分类,因为这现在是一个分类问题。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43876135

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档