文章/答案/技术大牛

发布

社区首页 >问答首页 >Pandas Dataframe:限制具有公共子集值的行数

问Pandas Dataframe:限制具有公共子集值的行数
EN

Stack Overflow用户

提问于 2019-11-04 18:58:39

回答 3查看 185关注 0票数 0

我有这个数据集(输出到一个.csv文件中)：

email, link
0,,
1, hello@dog.com, dog.com
2, bark@dog.com, dog.com
3, growl@dog.com, dog.com
4, meow@cat.net, cat.net
5, purr@cat.net, cat.net,
6, sleep@cat.net, cat.net
7, scream@monkey.eu, monkey.eu
8, run@horse.com, horse.com

正如你所看到的，一些链接是相同的，而电子邮件总是唯一的。我想保留相同链接的最多2行，删除第三行和后续序列，如下所示：

email, link
0,,
1, hello@dog.com, dog.com
2, bark@dog.com, dog.com
3, meow@cat.net, cat.net
4, purr@cat.net, cat.net,
5, scream@monkey.eu, monkey.eu
6, run@horse.com, horse.com

该怎么做呢？我尝试了这个解决方案，但它只输出链接。将其与电子邮件地址合并，由于子集(列表)的长度不同，一切都会变得混乱：

from collections import Counter

def keep_n_dupes(remove_from, how_many):
    counts = Counter()
    for item in remove_from:
        counts[item] += 1
        if counts[item] <= how_many:
            yield item
new_links = list(keep_n_dupes(df['link'], 2))

python

pandas

回答 3

Stack Overflow用户

回答已采纳

发布于 2019-11-04 19:01:26

使用groupby.head

df.groupby('link').head(2)

          email         link
0     hello@dog.com    dog.com
1      bark@dog.com    dog.com
3      meow@cat.net    cat.net
4      purr@cat.net    cat.net
6  scream@monkey.eu  monkey.eu
7     run@horse.com  horse.com

票数 2

Stack Overflow用户

发布于 2019-11-04 19:27:45

另一种方法是使用nth

df.groupby('link', as_index=False).nth([0,1])

Out[587]:
               email        link
1      hello@dog.com     dog.com
2       bark@dog.com     dog.com
4       meow@cat.net     cat.net
5       purr@cat.net     cat.net
7   scream@monkey.eu   monkey.eu
8      run@horse.com   horse.com

票数 1

Stack Overflow用户

发布于 2019-11-04 19:04:51

Pandas具有groupby功能

import pandas as pd
df = pd.read_csv('path to the file')
df.groupby('link').head(2)

上面的命令将对链接进行分组，并打印具有相同链接的前2行

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58692016

复制

相似问题

问Pandas Dataframe:限制具有公共子集值的行数
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Pandas Dataframe:限制具有公共子集值的行数EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Pandas Dataframe:限制具有公共子集值的行数
EN