我正在计算熊猫的数据,我的熊猫数据命名如下:
用户标识
1034 -3
1034 -0
1034 -5
1337 -2
1337 -1
1337 -2
2288 -6
……
我还有其他特性列。我使用以下方法来选择在我的熊猫数据集中具有重复值的行。例如,UserId发生3次以上。
unique_spam_row=data["UserID“、"UserCreatedAt”、"UserDescriptionLength“、"UserFollowersCount”、"UserFriendsCount“、"UserLocation"]
我删除重复的值。spam_data=unique_spam_row.drop_duplicates()
但是我需要在新的UserID数据中保存每个spam_data的平均hashtag计数。
所以我照做了
spam=data.groupby('UserID')"HashtagCount".sum()
我得到了
UserID
1034 -8
1337 -5
2288 -9
.
类型(垃圾邮件)给我,这是一个系列,我需要添加这8,5,9 ....as AvgHashtag列中的spam_data数据已删除重复行.非常感谢你的暗示。
发布于 2015-07-15 08:07:31
我认为transform应该有效:
data['count'] = data.groupby('UserID')["HashtagCount"].transform('sum')这将返回一系列与原始df对齐的索引,这样就可以将其正确地添加为列。
https://stackoverflow.com/questions/31424797
复制相似问题