所以,假设我有这个数据:
df = DataFrame({'ID': [1001,4003,1001, 4003, 7000, 7000],
'col_2': ['3', '8', '2', '1','7','9'],
'col_3': ['Steak','Chicken','Chicken','Steak','Chicken','Chicken']})我想要创建3个数据帧。前两个是每个有鸡的ID的数据帧。第二种是所有有牛肉的身份证。这很容易做到:
dfsteak = df[~(df['col_3'] != 'Steak')]
dfchicken = df[~(df['col_3'] != 'Chicken')]但是在第三次,我想删除任何行,如果一个ID没有鸡一次,牛排另一次。所以在这个例子中,DF是ID 7000,他只订购了鸡肉。但我该如何实现呢?
发布于 2018-05-19 20:47:57
filter与any的结合
df.groupby('ID').filter(lambda x : ((x['col_3']=='Steak').any())&((x['col_3']=='Chicken').any()))
Out[14]:
ID col_2 col_3
0 1001 3 Steak
1 4003 8 Chicken
2 1001 2 Chicken
3 4003 1 Steak过滤掉ID 7000
df.groupby('ID').filter(lambda x : ~((x['col_3']=='Steak').any())&((x['col_3']=='Chicken').any()))
Out[16]:
ID col_2 col_3
4 7000 7 Chicken
5 7000 9 Chicken发布于 2018-05-19 20:52:03
这里有一个直观的方法。其想法是创建一个由col_3聚合到set的ID系列。
然后对映射的set不是{'Steak', 'Chicken'}的超集进行筛选。
s = df.groupby('ID')['col_3'].apply(set)
df = df[~(df['ID'].map(s) >= {'Steak', 'Chicken'})]
print(df)
ID col_2 col_3
4 7000 7 Chicken
5 7000 9 Chickenhttps://stackoverflow.com/questions/50429261
复制相似问题