如何从包含字母和数字的df.columns单词的文本中删除非英文单词
例如
df‘’text‘
“母亲节快乐!”没有什么比母亲的影响力更强大了。“-sara josepha…母亲节快乐!祝全世界的母亲们快乐!
0wat3bxtfl‘
“但还是每天都在想你,母亲节快乐,弗朗西斯·麦克拉弗蒂(mccool) 9wlhju7cxf”
从上面的两行中,我需要删除单词‘0wat3bxtfl’和'9wlhju7cxf‘。
发布于 2020-05-28 15:07:05
该示例包括保留一些在英语单词列表中找不到的字符串("nrd“、"mcclafferty”、"mccool"),同时删除“0wat3bxtfl”和"9wlhju7cxf",因此最好通过删除包含字母后跟数字或数字后跟字母(以及后面的任何空格)的非空格序列来实现预期结果,而不管单词是否为" English“。
下面的代码将完成此操作:
import re
...
filtered = re.sub('[^\s]*(\d[a-zA-Z]|[a-zA-Z]\d)[^\s]* *', '', df['text'])https://stackoverflow.com/questions/62058420
复制相似问题