文章/答案/技术大牛

发布

问Pandas数据分组
EN

Stack Overflow用户

提问于 2022-04-08 10:22:20

回答 2查看 86关注 0票数 2

我有一个数据框架

Name    Subset    Type    System
A00     IU00-A    OP      A
A00     IT00      PP      A
B01     IT-01A    PP      B
B01     IU        OP      B
B03     IM-09-B   LP      A
B03     IM03A     OP      A
B03     IT-09     OP      A
D09     IT        OP      A
D09     IM        LP      B
D09     IM        OP      A

基本数据，我需要转换它基于分组名称和子集字符串提取使用extractall(r'[^a-zA-Z]*([a-zA-Z]+)[^,]*').groupby(level=0).agg(', '.join)。系统、子集应按类型依次提及。

输出示例：

Subset Cluster    Type Cluster    Name          System        Subsets
IU,IT             OP,PP           A00,B01       A,A,B,B       IU00-A,IT00
IM,IM,IT          LP, OP, OP      B03, D09      A,A,A,A,B,A   IM-09-B,IM03A,IT-09,IT,IM,IM

python

python-3.x

pandas

pandas-groupby

回答 2

Stack Overflow用户

回答已采纳

发布于 2022-04-08 21:54:07

双groupby (首先按“名称”分组，然后再按“子集集群”和“类型集群”分组)可以完成以下任务：

out = df.assign(**{'Subset Cluster': df['Subset'].str.extractall(r'[^a-zA-Z]*([a-zA-Z]+)[^,]*')\
                                                 .groupby(level=0)[0].agg(', '.join)})\
        .sort_values(by=df.columns.tolist())\
        .groupby('Name', as_index=False).agg(', '.join).rename(columns={'Type':'Type Cluster'})\
        .groupby(['Subset Cluster', 'Type Cluster'], as_index=False).agg(', '.join)

输出：

  Subset Cluster  Type Cluster      Name                             Subset            System
0     IM, IM, IT    LP, OP, OP  B03, D09  IM-09-B, IM03A, IT-09, IM, IM, IT  A, A, A, B, A, A  
1         IT, IU        PP, OP  A00, B01           IT00, IU00-A, IT-01A, IU        A, A, B, B

票数 3

Stack Overflow用户

发布于 2022-04-08 12:57:48

从dataframe开始，为了达到您的结果，我将使用两个聚合操作，因为您需要进行两个分组，相对于Name和Subset Cluster。我会这样做：

df.rename(columns={'Subset': 'Subset Cluster'}, inplace=True)
df['Subsets'] = df['Subset Cluster'].apply(lambda s: s[:2])

df = df.groupby('Name').agg(lambda col: ', '.join(sorted(list(col))) ).reset_index()
df = df.groupby('Subsets').agg(lambda col: ', '.join(sorted(list(col))) ).reset_index()

df

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71795377

复制

相似问题

问Pandas数据分组
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Pandas数据分组EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Pandas数据分组
EN