文章/答案/技术大牛

发布

社区首页 >问答首页 >Kmeans聚类非数值列

问Kmeans聚类非数值列
EN

Stack Overflow用户

提问于 2021-08-04 07:30:46

回答 1查看 35关注 0票数 1

enter image description here

这是我的数据集

>   0   1   2   3   4   5
> 
> 0 2020    14446999.0  300340.0    300287.0    2.0 お笑い
> 1 2020    12725811.0  300451.0    300445.0    2.0 格闘技
> 2 2020    15894610.0  300452.0    300451.0    3.0 ボクシング
> 3 2020    16334176.0  300445.0    0.0 1.0 スポーツ
> 4 2020    12725811.0  300451.0    300445.0    2.0 格闘技

大家好。

我有一个看起来像这样的数据集，我希望我可以对列5进行聚类，其中包括people.like 4客户/组的兴趣，以查看人们的主要兴趣。

第一列是date，column3和4是ID。问题是我在kaggle中搜索了很多示例。似乎所有的Kmeans聚类示例都是基于数据集的，这些数据集都是数值数据。我的第五栏是日语单词，而不是英语。这让我很不爽。我该怎么做，或者任何人都可以为我分享一个链接示例？提前谢谢。

python

pandas

k-means

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-08-04 07:53:42

您可以使用pd.factorize将字符串列转换为数字：

输入数据帧

>>> df
      1           2         3         4    5      6
0  2020  14446999.0  300340.0  300287.0  2.0    お笑い
1  2020  12725811.0  300451.0  300445.0  2.0    格闘技
2  2020  15894610.0  300452.0  300451.0  3.0  ボクシング
3  2020  16334176.0  300445.0       0.0  1.0   スポーツ
4  2020  12725811.0  300451.0  300445.0  2.0    格闘技

df[6] = pd.factorize(df[6])[0]

输出结果

>>> df
      1           2         3         4    5  6
0  2020  14446999.0  300340.0  300287.0  2.0  0
1  2020  12725811.0  300451.0  300445.0  2.0  1
2  2020  15894610.0  300452.0  300451.0  3.0  2
3  2020  16334176.0  300445.0       0.0  1.0  3
4  2020  12725811.0  300451.0  300445.0  2.0  1

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68647111

复制

相似问题

问Kmeans聚类非数值列
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Kmeans聚类非数值列EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Kmeans聚类非数值列
EN