我试图拆分一个字符串,其中多个词的专有名词被认为是一个标记.例如,需要更改以下代码,
import re
s = 'Multi-Criteria Decision Making (MCDM) is increasingly used in RE projects.'
out = re.compile("\s").split(s)
print(out)为了取得预期的结果:
['Multi-Criteria Decision Making', 'MCDM', 'is', 'increasingly', 'used', 'in', 'RE', 'projects']我已经找到了这,但是我无法将它正确地合并到代码中。
提前感谢!
发布于 2020-10-21 08:34:02
您可以匹配连续的单词,从大写字符开始,然后是1+小写字符,中间有空格或-,以获得多标准决策的单个匹配。
要匹配其他单词,可以使用替换|来匹配一个或多个单词字符。
[A-Z][a-z]+(?:[ -][A-Z][a-z]+)*|\w+如果在圆括号之间应该有一个带有2个或更多大写字符的部分,则可以使用正前瞻。
请注意,查找只检查大写字符的存在,它与前面单词中相同的大写字符不匹配。
[A-Z][a-z]+(?:[ -][A-Z][a-z]+)+(?= \([A-Z]{2,}\))|\w+import re
s = 'Multi-Criteria Decision Making (MCDM) is increasingly used in RE projects.'
pattern = r'[A-Z][a-z]+(?:[ -][A-Z][a-z]+)+(?= \([A-Z]{2,}\))|\w+'
print(re.findall(pattern, s))输出
['Multi-Criteria Decision Making', 'MCDM', 'is', 'increasingly', 'used', 'in', 'RE', 'projects']https://stackoverflow.com/questions/64458050
复制相似问题