首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么同样的集群类别是分开的?

为什么同样的集群类别是分开的?
EN

Data Science用户
提问于 2020-07-11 10:56:32
回答 1查看 45关注 0票数 1

我有这200个向量,是基于关键字权重相似度的K-均值聚类,由TF(术语频率-逆文档频率)给出的。在阿姆斯特丹、鹿特丹、海牙和乌得勒支四个城市,对矢量进行了聚类。我选择了k-星系团质心= 6,这意味着集群0到簇5。在每个集群上,我还计算了关键字的数值权重的平均数,从而得到了最相关和最不相关的关键字集,如下所示:

相关关键字和最不相关的关键字都可以帮助解释集群的内容。例如,集群0与铁路运输有关,因为在最相关的关键字中包括电车、线路、电车轨道、车站和铁路。最不相关的关键词强调对聚类0的解释,其中关键词包括摄影、自行车、拼音、绿色、自然和花卉。

在这张图片中,我看到了阿姆斯特丹市所有六个星系团的星团图:

问题是在阿姆斯特丹,没有与铁路运输相关的0集群。在我的分析意见中,这是因为所有与铁路运输有关的向量都聚在第3组中,而第3组也与铁路运输有关(根据我对这两个组中最相关和最不相关的关键词的解释)。第3组也与铁路运输有关,因为在最相关的关键词中包括电车、线路、电车、车站和铁路。最不相关的关键词强调对聚类0的解释,其中关键词包括摄影、自行车、拼音、绿色、自然和花卉。

还有证据表明,在鹿特丹和海牙市找不到第3组,因为这两个城市所有与铁路运输有关的载体都聚集在第0组。在下面,您可以在两个城市找到集群地图的图片:

我的问题是我的分析是否合理?但是,为什么两个主题相同的集群可以被分开呢?他们为什么不聚在一起?

EN

回答 1

Data Science用户

发布于 2020-07-12 12:19:42

这种KMeans聚类是基于200个特征及其长度的空间点的代表。我认为在你的观点和实际的聚类中存在一些差距。

除了“有轨电车”外,大多数其他相关功能在两条铁路集群中都是不常见的。因此,在太空中产生了两个不同的气泡。

看这张图片,数据在同一地点的电车维度,但其他特征已经创建了两个不同的组。

这些是你可以采取的方法-

  • 清除领域上下文中重复/相似含义的所有功能,例如铁路、铁路

  • 尝试不同的集群计数,例如5,看看这两个合并

  • 即使这些不是合并,也会有一些信息,您应该弄清楚。例如gvg,combino,电车,城市
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/77556

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档