首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Kmeans聚类非数值列

Kmeans聚类非数值列
EN

Stack Overflow用户
提问于 2021-08-04 07:30:46
回答 1查看 35关注 0票数 1

enter image description here

这是我的数据集

代码语言:javascript
复制
>   0   1   2   3   4   5
> 
> 0 2020    14446999.0  300340.0    300287.0    2.0 お笑い
> 1 2020    12725811.0  300451.0    300445.0    2.0 格闘技
> 2 2020    15894610.0  300452.0    300451.0    3.0 ボクシング
> 3 2020    16334176.0  300445.0    0.0 1.0 スポーツ
> 4 2020    12725811.0  300451.0    300445.0    2.0 格闘技

大家好。

我有一个看起来像这样的数据集,我希望我可以对列5进行聚类,其中包括people.like 4客户/组的兴趣,以查看人们的主要兴趣。

第一列是date,column3和4是ID。问题是我在kaggle中搜索了很多示例。似乎所有的Kmeans聚类示例都是基于数据集的,这些数据集都是数值数据。我的第五栏是日语单词,而不是英语。这让我很不爽。我该怎么做,或者任何人都可以为我分享一个链接示例?提前谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-08-04 07:53:42

您可以使用pd.factorize将字符串列转换为数字:

输入数据帧

代码语言:javascript
复制
>>> df
      1           2         3         4    5      6
0  2020  14446999.0  300340.0  300287.0  2.0    お笑い
1  2020  12725811.0  300451.0  300445.0  2.0    格闘技
2  2020  15894610.0  300452.0  300451.0  3.0  ボクシング
3  2020  16334176.0  300445.0       0.0  1.0   スポーツ
4  2020  12725811.0  300451.0  300445.0  2.0    格闘技
代码语言:javascript
复制
df[6] = pd.factorize(df[6])[0]

输出结果

代码语言:javascript
复制
>>> df
      1           2         3         4    5  6
0  2020  14446999.0  300340.0  300287.0  2.0  0
1  2020  12725811.0  300451.0  300445.0  2.0  1
2  2020  15894610.0  300452.0  300451.0  3.0  2
3  2020  16334176.0  300445.0       0.0  1.0  3
4  2020  12725811.0  300451.0  300445.0  2.0  1
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68647111

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档