我想为一个数据集做一些集群,在这个数据集中,我查看了10,000人使用某些电子设备的情况。我有11栏,第一栏只是一个代表研究中每一个人的骨灰盒。另外十列用于每周使用,以分钟为单位,每台设备(例如电话、笔记本电脑、t.v )。等)。
没有人真正拥有这十种设备。他们通常有2-4的倾向。因此,对于它们使用的每个设备,它们的值为n,如果没有所述设备,则为"0“。因此,我显然不能忽略其中包含0的行,并且0不一定意味着丢失数据,而不是实际上意味着它们不拥有设备。
我想知道,在这种情况下,如何进行典型的基本聚类分析?/怎样才是进行这种研究的适当方式?(我正在使用R作分析,以供参考)
谢谢你的帮助。
发布于 2019-12-18 00:24:57
K-均值是这个问题的错误算法.
它假设输入数据是密集的、连续的,但您还没有。
https://datascience.stackexchange.com/questions/64945
复制相似问题