我有一个叫做file.txt的文件格式,它有这样的行:婴儿:n:婴儿苍蝇:n:苍蝇女士:n:女士绵羊:n:绵羊家具:n:家具行李箱:n:行李箱等现在,我只需要提取f1和f3之间的共同模式,并想在格式中写:示例:这里,婴儿有共同的模式,直到'bab‘和’in‘在以下单词中也是相加。格式:<e lm="babies"><i>bab</i><par n="bab"/></e>
发布于 2019-02-20 19:35:43
你的问题不清楚,如果你能多解释一下就太好了。
但是,我认为您应该使用regex (正则表达式)。这是一个很好的使用正则表达式的网站:https://regex101.com/
在python中,您可以使用re模块(import re)。
如果你有像"babies :n: baby“这样的字符串,你可以用正则表达式:(\w+).*:n:(\1).*提取相似度,意思是:(\w+) -查找字母表字符序列:n:-然后找到:n:(\1) -然后找到我们在第一个()中捕获的相同单词。
python示例:
对于一次搜索:
import re
pattern = r"(\w+).*:n:(\1).*"
result = re.search(pattern, word)
return result.group()并且对于许多搜索:
import re
pattern = r"(\w+).*:n:(\1).*"
result = re.findall(pattern, word)
return resulthttps://stackoverflow.com/questions/54784032
复制相似问题