首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python -仅保留字母数字和空格,忽略非ASCII

Python -仅保留字母数字和空格,忽略非ASCII
EN

Stack Overflow用户
提问于 2019-04-29 19:05:56
回答 3查看 24.4K关注 0票数 7

我使用此行删除除空格以外的所有非字母数字字符

代码语言:javascript
复制
re.sub(r'\W+', '', s)

不过,它仍然保留了非英文字符。

例如,如果我有

代码语言:javascript
复制
re.sub(r'\W+', '', 'This is a sentence, and here are non-english 托利 苏 !!11')

我想要作为输出:

代码语言:javascript
复制
> 'This is a sentence and here are non-english  11'
EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2019-04-29 19:08:01

代码语言:javascript
复制
re.sub(r'[^A-Za-z0-9 ]+', '', s)

(编辑)澄清:[]创建一个字符列表。^会否定该列表。A-Za-z是英文字母表,是空格。对于其中的任何一个或多个(即,不是A-Z、a-z或空格的任何内容),请替换为空字符串。

票数 26
EN

Stack Overflow用户

发布于 2019-04-29 19:51:18

我曾经遇到过这个问题,唯一的区别是我不能导入任何东西或使用正则表达式。

为了解决我的问题,我创建了一个列表,其中包含我想要保留的所有值:

代码语言:javascript
复制
values = list("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789 ")

然后我创建了一个函数,它将遍历字符串中的每一项,如果它不在values列表中,它将从字符串中删除(替换)它:

代码语言:javascript
复制
def remover(my_string = ""):
  for item in my_string:
    if item not in values:
      my_string = my_string.replace(item, "")
  return my_string

例如,以下代码:

代码语言:javascript
复制
print(remover("H!e£l$l%o^ W&o*r(l)d!:)"))

应输出:

代码语言:javascript
复制
'Hello World'

当然,这不是最好的方法,但考虑到目前的情况,这是一种快速而简单的完成工作的方法。

注意:您可以通过将if item not in values更改为if item in values来替换values列表中的项。

注意:我不被允许使用string constants,因为必须导入string包才能使用它们。

祝好运。

票数 2
EN

Stack Overflow用户

发布于 2021-06-29 18:53:01

这可能不是这个具体问题的答案,但我在研究过程中遇到了这个主题。

我想要达到与提问者相同的目标,但我想包括非英语字符,如:ä,ü,?,...

提问者代码的工作方式,空格也将被删除。

以下是一个简单的解决方法:

代码语言:javascript
复制
re.sub(r'[^ \w+]', '', string)

^表示除以下各项外的所有内容都已选中。在这种情况下\w,因此每个单词字符(包括非英语)和空格。

我希望这能在将来帮助一些人。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55902042

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档