首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为列中的每个唯一值返回数据value的限号行

为列中的每个唯一值返回数据value的限号行
EN

Stack Overflow用户
提问于 2022-03-30 18:26:02
回答 2查看 194关注 0票数 0

我有一个数据,充满了不同地区分配的引线,其总长度为600 K行。我想返回一个数据,从每个地区400记录,但无法找到这样做的方法。

下面是我到目前为止对一个样本数据集的了解:

原始数据集:

代码语言:javascript
复制
                              Account Name   Territory            group
366663                       THOMPSON RAY E  South Carolina175    g7
529113            SOUTHERN TRADITION REALTY  South Carolina175    g7
143584            DELANCO INSPECTION CENTER      New Jersey221    g6
17636                   ONE VISION ELECTRIC      New Jersey221    g6
561095         SIMPLEFLOORS NORTH HOLLYWOOD       Texas73         g11
306094                    TEXAS REALTY CAFE       Texas73         g11 

假设我想返回最后数据集中的每个区域中的一个:期望的输出:

代码语言:javascript
复制
                              Account Name   Territory            group
366663                       THOMPSON RAY E  South Carolina175    g7
143584            DELANCO INSPECTION CENTER      New Jersey221    g6
561095         SIMPLEFLOORS NORTH HOLLYWOOD       Texas73         g11

我不在乎在最终结果中返回来自每个区域的哪些记录,只是每个区域的记录数量相同(实际上,我希望每个区域的记录超过1条,这样子集上的drop_duplicates就不能工作了)。

我试过使用groupby,但是除了在每个地区创建所有记录的组之外,我想不出如何做任何事情。任何帮助都很感激。谢谢。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2022-03-30 18:31:12

使用groupbysample

代码语言:javascript
复制
>>> df.groupby("Territory").sample(1)
                        Account Name          Territory group
143584     DELANCO INSPECTION CENTER      New Jersey221    g6
529113     SOUTHERN TRADITION REALTY  South Carolina175    g7
561095  SIMPLEFLOORS NORTH HOLLYWOOD            Texas73   g11
票数 2
EN

Stack Overflow用户

发布于 2022-03-30 18:57:16

您也可以使用cumcount (计数器从0开始)

代码语言:javascript
复制
# N = 1  (or N = 400)
>>> df[df.groupby('Territory').cumcount() < N]
                        Account Name          Territory group
366663                THOMPSON RAY E  South Carolina175    g7
143584     DELANCO INSPECTION CENTER      New Jersey221    g6
561095  SIMPLEFLOORS NORTH HOLLYWOOD            Texas73   g11
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71682302

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档