首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于分类变量的Clusering?

基于分类变量的Clusering?
EN

Data Science用户
提问于 2016-06-28 20:23:29
回答 1查看 2.1K关注 0票数 6

我正在做一个项目,目前正在试验聚类分析。数据集主要是分类变量和离散数。请原谅我的编程技巧很差,因为我不太熟悉MathJax,但是我将在下面的三个例子中尝试用文字来总结数据集。

  1. 假设第1列是参与者的名字,当然,从column2 - 5开始,每个列的值范围从1(最不重要)到5(最重要)。所以在这种情况下,第2-8列只有离散的数据.
  2. 例如,第6列,因为这是一个选择题。第1行选择“尼斯”作为回答,但第2行选择“较差”。在这种情况下,我们有一个列包含多个分类答案。
  3. 对于第7-9栏,这是另一种类型的选择题.然而,这一次,每一列只代表一个答案。第7列只允许字符串值"true",第8列只允许字符串“有点”。因此,在这个例子中,我们有多个列,它们代表同一个问题的多个答案。

有什么办法解决这个问题吗?感谢所有的投入!

代码语言:javascript
复制
A2       A3       A4       A5       A6       A7         A8         A9
1        4        5        4        nice     true       somewhate  false
2        4        3        1        poor     true                  false
1        5        2        1        nice                somewhate    
3        2        1        5        nice     true                  false
EN

回答 1

Data Science用户

发布于 2016-06-29 02:25:33

我想你的数据集就像

代码语言:javascript
复制
A0 A1 A2 B0 B1 B2
1  0  0  1  1  0
0  1  0  0  0  1
0  1  0  0  1  1
      ...

如果A0指的是问题A的答案,选择0和问题A是一个单一的选择问题,B是一个允许多个答案的问题。每一行代表一条记录。

对于这种数据格式,每一列都可以被视为一个维度(如果可以将某些列量化为一个值,您可以将它们分组为一个列,ex "Like = 1,中性= 0,into = -1"),然后应用聚类算法,例如K-均值对其进行聚类。

如果您的数据集格式与我的假设不同,请告诉我。

6月30日更新:

其思想是量化变量,对于第2-5列,值已经被量化为第5列的1,5,它允许(“很差”/“很好”)。虽然它们是字符串,但它们代表的是不同大小的偏好。它们也可以转换为“贫穷”= 0,“很好”= 1。对于第7-9列,因为它是一个二进制选项,它们也可以很容易地转换为ex。"true“= 0,"”= 1。

然后,您将得到一个矩阵:

代码语言:javascript
复制
1    4    5    4    1    1    1    1
2    4    3    1    0    1    0    1
1    5    2    1    1    0    1    1
3    2    1    5    1    1    0    1

Remark1:对于二进制选项,如第9列,只允许"False“或"null",选择"False”=1或0并不重要。在分类上,只有距离才重要。

Remark2:如果列允许不同的字符串,如“苹果”、“香蕉”、“橙色”,则可以将其转换为一个热向量。例如。

代码语言:javascript
复制
A
apple
orange
orange
banana

可以转换为

代码语言:javascript
复制
A0   A1   A2
1    0    0
0    0    1
0    0    1
0    1    0

A0,A1,A2代表“苹果”、“香蕉”和“橙色”。

Remark3:如果有一列允许存储多个答案,则为ex。

代码语言:javascript
复制
A
apple
apple orange
orange
orange banana

可以转换为A0 A1 A2 1 0 0 1 0 0 1 0 0 1 1 1

Remark4:在应用K-均值等分类算法之前,最好是对每个维度的大小进行规范化。例如,第9列的值是0,1,可以将5次标准化为0,5。因素/维度的范围反映了这一因素的重要性。

我希望我的回答能有所帮助。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/12475

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档