首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如果列中的所有标记都包含python中的from停止词列表,如何筛选行?

如果列中的所有标记都包含python中的from停止词列表,如何筛选行?
EN

Stack Overflow用户
提问于 2020-03-23 09:14:56
回答 2查看 158关注 0票数 0

假设我有一个数据中心:

代码语言:javascript
复制
Sentences              Group
It is you                0
She likes flower         1
She hates gardening      2

以及一份停车名单:

代码语言:javascript
复制
from nltk.corpus import stopwords
stop_words = stopwords.words('english')

如果列df['Sentences']中的所有标记/单词都包含stop_words列表中的任何标记/单词,如何删除行。因此,我的结果应该是这样的:

代码语言:javascript
复制
Sentences              Group
She likes flower         1
She hates gardening      2
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-03-23 09:31:10

可以用空格分隔列,然后比较列表:

代码语言:javascript
复制
df = df[~df['Sentences'].apply(lambda r: list(set(r.split(' ')).intersection(stop_words))!=[] )]

~的意思是“不包含”以下行。

票数 1
EN

Stack Overflow用户

发布于 2020-03-23 09:58:54

这是我的解决方案:

代码语言:javascript
复制
filtered_df = df[~df['Sentences'].str.split().apply(lambda x: any(s for s in x if s in stop_words))]

先分句。然后检查句子中的任何单词是否也在你的stop_words中。如果其中有一个单词,any将返回True。我们用~来逆转这一点。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60810645

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档