文章/答案/技术大牛

发布

社区首页 >问答首页 >一种多值分类数据的聚类算法

问一种多值分类数据的聚类算法
EN

Data Science用户

提问于 2019-10-02 03:32:34

回答 1查看 443关注 0票数 -2

让我有一个人的数据，如性别，年龄，婚姻状况，教育，就业，爱好。

我想把这些人聚在一起，他们之间有一些相似之处/共同之处(例如，他们有共同的爱好、教育、年龄等)。

这里有一个我的数据集的示例：

我应该使用一种算法来处理分类数据，比如K-原型，但我不知道如何具体处理这些爱好，因为这个特性可能有很多值，从1到N。

python

clustering

k-means

categorical-data

回答 1

Data Science用户

发布于 2019-10-02 06:28:13

K-均值聚类是基于距离的。当您能够定义一个分类特征的两个值之间的距离时，理论上使用该算法是可能的，但并不总是简单明了的。

我建议的基本思想是为自己提供对每个特性的距离度量。这可能并不容易。您可能需要手动设置距离矩阵。例如，对于Marital Status特性，假设单身为索引0，已婚为1，分隔为2，则可以获得以下矩阵：

\begin{pmatrix} 0 & 0.8 & 0.3 \\ 0.8 & 0 & 0.5 \\ 0.3 & 0.5 & 0 \end{pmatrix}

如果不能定义相关的距离，则如果两个记录具有相同的功能值，则可以将其设为0，否则为1。

这将允许您充分计算数据集中两个记录之间的距离。从那时起，k均值算法就可以像所有的数值数据一样被应用.

票数 -1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/61123

复制

相似问题

问一种多值分类数据的聚类算法
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问一种多值分类数据的聚类算法EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问一种多值分类数据的聚类算法
EN