首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从包含字母和数字的df.columns单词的文本中删除非英语单词

从包含字母和数字的df.columns单词的文本中删除非英语单词
EN

Stack Overflow用户
提问于 2020-05-28 14:34:07
回答 1查看 46关注 0票数 0

如何从包含字母和数字的df.columns单词的文本中删除非英文单词

例如

df‘’text‘

“母亲节快乐!”没有什么比母亲的影响力更强大了。“-sara josepha…母亲节快乐!祝全世界的母亲们快乐!

0wat3bxtfl‘

“但还是每天都在想你,母亲节快乐,弗朗西斯·麦克拉弗蒂(mccool) 9wlhju7cxf”

从上面的两行中,我需要删除单词‘0wat3bxtfl’和'9wlhju7cxf‘。

EN

回答 1

Stack Overflow用户

发布于 2020-05-28 15:07:05

该示例包括保留一些在英语单词列表中找不到的字符串("nrd“、"mcclafferty”、"mccool"),同时删除“0wat3bxtfl”和"9wlhju7cxf",因此最好通过删除包含字母后跟数字或数字后跟字母(以及后面的任何空格)的非空格序列来实现预期结果,而不管单词是否为" English“。

下面的代码将完成此操作:

代码语言:javascript
复制
import re

...

filtered = re.sub('[^\s]*(\d[a-zA-Z]|[a-zA-Z]\d)[^\s]* *', '', df['text'])
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62058420

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档