首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Movielens数据集最喜欢的电影类型

Movielens数据集最喜欢的电影类型
EN

Stack Overflow用户
提问于 2020-06-15 14:01:05
回答 1查看 297关注 0票数 1

我正在使用MovieLens 100K数据集。我想有一个图表可视化最喜欢的电影类型为女性用户。就目前而言,这是通过总结他们对特定类型的电影进行了多少次评级(即他们参与了该类型)来实现的。然而,考虑到一些女性用户比其他人给出了更多的评分,可能结果并不是很真实。也许有一位女性用户真的很喜欢“戏剧”,并给出了100分。有什么方法可以标准化这些数据并真实地表示最受欢迎的流派是什么?

代码语言:javascript
复制
plt.figure(figsize=(18,10))
for column in all_female_users[['Action', 'Adventure' , 'Animation' ,
              'Childrens' , 'Comedy' , 'Crime' , 'Documentary' , 'Drama' , 'Fantasy' ,
              'Film-Noir' , 'Horror' , 'Musical' , 'Mystery' , 'Romance' , 'Sci-Fi' ,
              'Thriller' , 'War' , 'Western']]:
   # Select column contents by column name using [] operator
    columnSeriesObj = all_female_users[column]

    plt.bar(column, columnSeriesObj.sum())
    plt.xlabel("Movie Genre")
    plt.ylabel("Number of preferred times")
    plt.title("Most preferred movie genres by women")
#     print('Movie Genre:', column)
#     print('Move Genre Sum:', columnSeriesObj.sum())
EN

回答 1

Stack Overflow用户

发布于 2020-06-15 14:22:30

问题是您的方法对绝对值而不是相对值求和。

对于每一个女性用户,你可以在所有类型之间“正常化”。例如,如果一位女性用户给50部电视剧和50部喜剧片打分,那么你将其转换为电视剧0.5分,喜剧0.5分。在女性用户评分100部电视剧电影的情况下,如果这是她评分的唯一类型,那么这将被转换为1.0,这就相当于他只评分了50部电视剧电影或只有1部电视剧电影-这种方法确保了给100部电影评分的用户在将所有这些归一化值相加时不会过度代表这一类别。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62382233

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档