文章/答案/技术大牛

发布

社区首页 >问答首页 >从包含字母和数字的df.columns单词的文本中删除非英语单词

问从包含字母和数字的df.columns单词的文本中删除非英语单词
EN

Stack Overflow用户

提问于 2020-05-28 14:34:07

回答 1查看 46关注 0票数 0

如何从包含字母和数字的df.columns单词的文本中删除非英文单词

例如

df‘’text‘

“母亲节快乐！”没有什么比母亲的影响力更强大了。“-sara josepha…母亲节快乐！祝全世界的母亲们快乐！

0wat3bxtfl‘

“但还是每天都在想你，母亲节快乐，弗朗西斯·麦克拉弗蒂(mccool) 9wlhju7cxf”

从上面的两行中，我需要删除单词‘0wat3bxtfl’和'9wlhju7cxf‘。

nlp

nltk

preprocessor

word

python

回答 1

Stack Overflow用户

发布于 2020-05-28 15:07:05

该示例包括保留一些在英语单词列表中找不到的字符串("nrd“、"mcclafferty”、"mccool")，同时删除“0wat3bxtfl”和"9wlhju7cxf"，因此最好通过删除包含字母后跟数字或数字后跟字母(以及后面的任何空格)的非空格序列来实现预期结果，而不管单词是否为" English“。

下面的代码将完成此操作：

import re

...

filtered = re.sub('[^\s]*(\d[a-zA-Z]|[a-zA-Z]\d)[^\s]* *', '', df['text'])

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62058420

复制

相似问题

问从包含字母和数字的df.columns单词的文本中删除非英语单词
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从包含字母和数字的df.columns单词的文本中删除非英语单词EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从包含字母和数字的df.columns单词的文本中删除非英语单词
EN