首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在组内迭代,直到大熊猫列发生变化

在组内迭代,直到大熊猫列发生变化
EN

Stack Overflow用户
提问于 2022-01-18 17:20:23
回答 2查看 44关注 0票数 2

我有以下输入df:

代码语言:javascript
复制
    domain      ip      timestamp
0   Google      101     2020-04-01 23:01:41
1   Google      101     2020-04-01 23:01:59
2   Google      101     2020-04-02 12:01:41
3   Facebook    101     2020-04-02 13:11:33
4   Facebook    101     2020-04-02 13:11:35
5   Youtube     103     2020-04-21 13:01:41
6   Youtube     103     2020-04-21 13:11:46
7   Youtube     103     2020-04-22 01:01:01
8   Google      103     2020-04-22 02:11:23
9   Facebook    103     2020-04-23 14:11:13
10  Youtube     103     2020-04-23 14:11:55

我怎样才能得到这个输出?其中,domain_num是一个迭代器,每次域在IP内切换时都会增加。

代码语言:javascript
复制
    domain      ip      timestamp             domain_num
0   Google      101     2020-04-01 23:01:41   1
1   Google      101     2020-04-01 23:01:59   1
2   Google      101     2020-04-02 12:01:41   1
3   Facebook    101     2020-04-02 13:11:33   2
4   Facebook    101     2020-04-02 13:11:35   2
5   Youtube     103     2020-04-21 13:01:41   1
6   Youtube     103     2020-04-21 13:11:46   1
7   Youtube     103     2020-04-22 01:01:01   1
8   Google      103     2020-04-22 02:11:23   2
9   Facebook    103     2020-04-23 14:11:13   3
10  Youtube     103     2020-04-23 14:11:55   4

我试过这样的方法,得到计数,但我需要按ip分组

代码语言:javascript
复制
df['domain'].ne(df['domain'].shift()).cumsum()

下面的代码出错了

代码语言:javascript
复制
df.groupby('ip').apply(lambda x : x[x.domain.ne(x.domain.shift().cumsum())])

数据

代码语言:javascript
复制
import pandas as pd

data = {'domain':['Google', 'Google', 'Google', 'Facebook', 'Facebook', 'Youtube', 'Youtube', 'Youtube', 'Google', 'Facebook', 'Youtube'],
        'ip':[101, 101, 101, 101, 101, 103, 103, 103, 103, 103, 103],
        'timestamp' : ['2020-04-01 23:01:41', '2020-04-01 23:01:59', '2020-04-02 12:01:41', '2020-04-02 13:11:33',
        '2020-04-02 13:11:35', '2020-04-21 13:01:41', '2020-04-21 13:11:46', 
                       '2020-04-22 01:01:01', '2020-04-22 02:11:23','2020-04-23 14:11:13', '2020-04-23 14:11:55' ]}

df = pd.DataFrame(data)
df['timestamp']= pd.to_datetime(df['timestamp'])
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2022-01-18 17:25:54

假设您的数据按timestamp列排序:

代码语言:javascript
复制
inc_domain_num = lambda x: x.ne(x.shift()).cumsum()
df['domain_num'] = df.groupby('ip')['domain'].apply(inc_domain_num)
print(df)

# Output
      domain   ip           timestamp  domain_num
0     Google  101 2020-04-01 23:01:41           1
1     Google  101 2020-04-01 23:01:59           1
2     Google  101 2020-04-02 12:01:41           1
3   Facebook  101 2020-04-02 13:11:33           2
4   Facebook  101 2020-04-02 13:11:35           2
5    Youtube  103 2020-04-21 13:01:41           1
6    Youtube  103 2020-04-21 13:11:46           1
7    Youtube  103 2020-04-22 01:01:01           1
8     Google  103 2020-04-22 02:11:23           2
9   Facebook  103 2020-04-23 14:11:13           3
10   Youtube  103 2020-04-23 14:11:55           4
票数 1
EN

Stack Overflow用户

发布于 2022-01-18 17:32:02

假设ip被正确地分组(不一定按排序顺序排列),首先查找您希望在以下位置增加的所有位置:

代码语言:javascript
复制
df['domain_num'] = (df['domain'] != df['domain'].shift(1)) | (df['ip'] != df['ip'].shift(1))

现在将其替换为累积和,但对每一组都是独立的:

代码语言:javascript
复制
df['domain_num'] = df.groupby('ip')['domain_num'].cumsum()
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70759785

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档