首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Pandas Dataframe:限制具有公共子集值的行数

Pandas Dataframe:限制具有公共子集值的行数
EN

Stack Overflow用户
提问于 2019-11-04 18:58:39
回答 3查看 185关注 0票数 0

我有这个数据集(输出到一个.csv文件中):

代码语言:javascript
复制
email, link
0,,
1, hello@dog.com, dog.com
2, bark@dog.com, dog.com
3, growl@dog.com, dog.com
4, meow@cat.net, cat.net
5, purr@cat.net, cat.net,
6, sleep@cat.net, cat.net
7, scream@monkey.eu, monkey.eu
8, run@horse.com, horse.com

正如你所看到的,一些链接是相同的,而电子邮件总是唯一的。我想保留相同链接的最多2行,删除第三行和后续序列,如下所示:

代码语言:javascript
复制
email, link
0,,
1, hello@dog.com, dog.com
2, bark@dog.com, dog.com
3, meow@cat.net, cat.net
4, purr@cat.net, cat.net,
5, scream@monkey.eu, monkey.eu
6, run@horse.com, horse.com

该怎么做呢?我尝试了这个解决方案,但它只输出链接。将其与电子邮件地址合并,由于子集(列表)的长度不同,一切都会变得混乱:

代码语言:javascript
复制
from collections import Counter

def keep_n_dupes(remove_from, how_many):
    counts = Counter()
    for item in remove_from:
        counts[item] += 1
        if counts[item] <= how_many:
            yield item
new_links = list(keep_n_dupes(df['link'], 2))
EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2019-11-04 19:01:26

使用groupby.head

代码语言:javascript
复制
df.groupby('link').head(2)

          email         link
0     hello@dog.com    dog.com
1      bark@dog.com    dog.com
3      meow@cat.net    cat.net
4      purr@cat.net    cat.net
6  scream@monkey.eu  monkey.eu
7     run@horse.com  horse.com
票数 2
EN

Stack Overflow用户

发布于 2019-11-04 19:27:45

另一种方法是使用nth

代码语言:javascript
复制
df.groupby('link', as_index=False).nth([0,1])

Out[587]:
               email        link
1      hello@dog.com     dog.com
2       bark@dog.com     dog.com
4       meow@cat.net     cat.net
5       purr@cat.net     cat.net
7   scream@monkey.eu   monkey.eu
8      run@horse.com   horse.com
票数 1
EN

Stack Overflow用户

发布于 2019-11-04 19:04:51

Pandas具有groupby功能

代码语言:javascript
复制
import pandas as pd
df = pd.read_csv('path to the file')
df.groupby('link').head(2)

上面的命令将对链接进行分组,并打印具有相同链接的前2行

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58692016

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档