我试图在高维数据集(CDR数据)中使用K均值。
在集群之后,我想用characteristic来表示每个集群和--最丰富的特性,它可以显示该集群中客户的唯一/代表性的。
例如,
群集1:High:call_duration,Low:number_of_friends,High:call_at_night 群集2:Low:call_duration,High:use_promotion 集群3:High:internet_usage
我想知道..。
问题1:如何找到那些能代表每个集群的信息特性?问题2:如果有许多信息特性,如何衡量哪一个更有代表性?
另一个问题是“如何衡量这个值是高还是低?”
我目前的解决方案是将z-规范化应用于每个集群质心中的每个特性,然后我假设
问题3:这个测量有意义吗?请给我你的建议。
发布于 2017-05-10 06:23:59
训练决策树来区分簇。
或任何其他特征选择方法的分类,因为这现在是一个分类问题。
https://stackoverflow.com/questions/43876135
复制相似问题