首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >熊猫drop_duplicates掉了太多行了

熊猫drop_duplicates掉了太多行了
EN

Stack Overflow用户
提问于 2022-05-30 12:59:30
回答 1查看 61关注 0票数 0

我有一个喜欢和不喜欢的歌曲的数据集。共有8764首不喜欢的歌曲和2213首不喜欢的歌曲,共计11000行。我有很多复制喜欢的歌曲,但我希望复制是最多2000-5000首歌曲,我很确定没有任何重复不喜欢的歌曲。但是,当我使用相同的track_name、first_artist_ duration_ms组合删除重复行时,将删除10904行,只剩下196行。生成的数据集从第8700行开始。我哪里出问题了?

代码语言:javascript
复制
import pandas as pd
data = pd.read_csv('data 1.csv')

# Number of rows before dropping duplicates
print(len(data)) # 11000

# Number of duplicate rows
print(len(data.loc[data.duplicated(subset=['track_name', 'first_artist', 'duration_ms'])]['track_name'])) # 10904

# Dropping the duplicate tracks
data.drop_duplicates(subset=['track_name', 'first_artist', 'duration_ms'], keep='last', inplace=True)

# Number of unique rows
print(len(data)) # 196
EN

回答 1

Stack Overflow用户

发布于 2022-05-30 13:20:42

您能找到并提供一些您希望保留但没有保留的示例(提供数据格式,而不是截图)。我测试了你的代码,它似乎对我有用。

代码语言:javascript
复制
data = {
    'Artist' : ['An Artist', 'Another Artist', 'Last Artist', 'An Artist'],
    'Track_Name' : ['A Track', 'Another Track', 'Last Track', 'A Track'],
    'Duration_MS' : [1000, 2000, 3000, 1000], 
    'Disliked_Artist' : ['A Disliked Artist', 'Another Disliked Artist', 'Last Disliked Artist', 'A Different Disliked Artist']
}
df = pd.DataFrame(data)
df.drop_duplicates(keep = 'last', subset=['Track_Name', 'Artist', 'Duration_MS'])

因此,更多的信息可能有助于解决您可能存在的任何疑问/问题。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72434744

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档