我有银行到达人数的日志,每半个小时一次,为期一个月。
我试图根据“到达”的数量找到不同的集群组。我试了一天,我试了一小时(不是特定的一天)。我想根据某一天的具体时间试一试。
举个例子:
我有一个csv文件,列有:Date,Day(1-7),Time,Arrivals
直到现在我才用这个:
km <- kmeans(table, 3, 15)
plot(km)(我尝试了3个集群)-这个代码集群对。(一个3x3的矩阵,图中每3列中有2列)
有办法吗?
发布于 2014-05-25 15:51:29
K-均值和类似的算法将对这类数据产生毫无意义的结果。
问题是,您在错误的数据上使用了错误的工具来处理错误的问题。
您的数据是:Date, Day(1-7), Time, Arrivals
K-均值将尝试最小化方差.但是,方差对这个数据集有任何意义吗?你怎么知道k最有意义?因为Arrivals可能是这些属性中变化最大的,所以它将完全控制您的结果。
首先你应该试着回答的问题是:,什么是好结果,?然后,考虑将结果可视化的方法,以验证您是否在做某事。当您将数据可视化后,考虑如何在可视化上手动标记所需的结果,这可能对您来说已经足够了。比祈祷k-意味着产生一些有意义的结果更好;因为在这种混合类型的数据上,它通常不能很好地工作。
https://stackoverflow.com/questions/23852799
复制相似问题