首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用“单词”分隔句子,将多个大写词(假定为专有名词)作为一个整体

用“单词”分隔句子,将多个大写词(假定为专有名词)作为一个整体
EN

Stack Overflow用户
提问于 2020-10-21 06:48:20
回答 1查看 64关注 0票数 1

我试图拆分一个字符串,其中多个词的专有名词被认为是一个标记.例如,需要更改以下代码,

代码语言:javascript
复制
import re

s = 'Multi-Criteria Decision Making (MCDM) is increasingly used in RE projects.'
out = re.compile("\s").split(s)

print(out)

为了取得预期的结果:

代码语言:javascript
复制
['Multi-Criteria Decision Making', 'MCDM', 'is', 'increasingly', 'used', 'in', 'RE', 'projects']

我已经找到了,但是我无法将它正确地合并到代码中。

提前感谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-10-21 08:34:02

您可以匹配连续的单词,从大写字符开始,然后是1+小写字符,中间有空格或-,以获得多标准决策的单个匹配。

要匹配其他单词,可以使用替换|来匹配一个或多个单词字符。

代码语言:javascript
复制
[A-Z][a-z]+(?:[ -][A-Z][a-z]+)*|\w+

Regex演示

如果在圆括号之间应该有一个带有2个或更多大写字符的部分,则可以使用正前瞻。

请注意,查找只检查大写字符的存在,它与前面单词中相同的大写字符不匹配。

代码语言:javascript
复制
[A-Z][a-z]+(?:[ -][A-Z][a-z]+)+(?= \([A-Z]{2,}\))|\w+

Regex演示 x- Python演示

代码语言:javascript
复制
import re
 
s = 'Multi-Criteria Decision Making (MCDM) is increasingly used in RE projects.'
pattern = r'[A-Z][a-z]+(?:[ -][A-Z][a-z]+)+(?= \([A-Z]{2,}\))|\w+'
print(re.findall(pattern, s))

输出

代码语言:javascript
复制
['Multi-Criteria Decision Making', 'MCDM', 'is', 'increasingly', 'used', 'in', 'RE', 'projects']
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64458050

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档