这是我的数据集
> 0 1 2 3 4 5
>
> 0 2020 14446999.0 300340.0 300287.0 2.0 お笑い
> 1 2020 12725811.0 300451.0 300445.0 2.0 格闘技
> 2 2020 15894610.0 300452.0 300451.0 3.0 ボクシング
> 3 2020 16334176.0 300445.0 0.0 1.0 スポーツ
> 4 2020 12725811.0 300451.0 300445.0 2.0 格闘技大家好。
我有一个看起来像这样的数据集,我希望我可以对列5进行聚类,其中包括people.like 4客户/组的兴趣,以查看人们的主要兴趣。
第一列是date,column3和4是ID。问题是我在kaggle中搜索了很多示例。似乎所有的Kmeans聚类示例都是基于数据集的,这些数据集都是数值数据。我的第五栏是日语单词,而不是英语。这让我很不爽。我该怎么做,或者任何人都可以为我分享一个链接示例?提前谢谢。
发布于 2021-08-04 07:53:42
您可以使用pd.factorize将字符串列转换为数字:
输入数据帧
>>> df
1 2 3 4 5 6
0 2020 14446999.0 300340.0 300287.0 2.0 お笑い
1 2020 12725811.0 300451.0 300445.0 2.0 格闘技
2 2020 15894610.0 300452.0 300451.0 3.0 ボクシング
3 2020 16334176.0 300445.0 0.0 1.0 スポーツ
4 2020 12725811.0 300451.0 300445.0 2.0 格闘技df[6] = pd.factorize(df[6])[0]输出结果
>>> df
1 2 3 4 5 6
0 2020 14446999.0 300340.0 300287.0 2.0 0
1 2020 12725811.0 300451.0 300445.0 2.0 1
2 2020 15894610.0 300452.0 300451.0 3.0 2
3 2020 16334176.0 300445.0 0.0 1.0 3
4 2020 12725811.0 300451.0 300445.0 2.0 1https://stackoverflow.com/questions/68647111
复制相似问题