首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从分类变量中删除其值计数不满足条件的行?

如何从分类变量中删除其值计数不满足条件的行?
EN

Stack Overflow用户
提问于 2020-03-26 06:39:26
回答 1查看 943关注 0票数 2

我是ML和数据科学的新手(最近从商业分析硕士毕业),在寻找数据科学/商业分析的职位时,我现在尽可能多地自学。

我正在处理一个实践数据集,目的是预测哪些客户可能会错过他们预定的约会。我的数据集中的列之一是"Neighbourhood",它包含30多个不同的邻居的名称。我的数据集有10,000个观察值,一些邻居名称只出现了不到50次。我认为在数据集中出现少于50次的邻域太少了,无法通过机器学习模型进行适当的分析。因此,我想从"Neighborhood“列中删除在该列中出现少于50次的邻居名称。

我已经试着为此写了几个小时的代码,但努力做到这一点。到目前为止,我已经得到了以下版本:

代码语言:javascript
复制
my_df = my_df.drop(my_df["Neighbourhood"].value_counts() < 50, axis = 0)

我还尝试了其他版本的代码来删除分类列中的行,但我一直收到类似的错误:

代码语言:javascript
复制
KeyError: '[False False ...  True  True] not found in axis'

感谢您提前给予我的帮助,感谢您与我分享您的知识和见解!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-03-26 06:46:29

尝试下面的代码-它使用.loc运算符根据特定条件选择行(即在计数较高的社区)

代码语言:javascript
复制
counts = my_df['Neighborhood'].value_counts()
new_df = my_df.loc[my_df['Neighborhood'].isin(counts.index[counts > 50])]
票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60858422

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档