我有一个包含字符串的html文本,例如句子转换器/释义-MiniLM-L6-v2。
我想提取所有出现在“语句转换/”之后的字符串。
我尝试了models = re.findall("sentence-transformers/"+"(\w+)", text),但是它只输出第一个单词(复述),而我想要完整的“释义-MiniLM-L6-v2”。
此外,我也不知道的连(释义-迷你L6 L6-v2)的先验。
如何提取完整的字符串?
非常感谢,Ele
发布于 2022-07-06 11:04:15
正则表达式的问题是,-不是一个单词字符,您只是在搜索单词字符。下面的regex适用于您的示例:
text = 'sentence-transformers/paraphrase-MiniLM-L6-v2'
models = re.findall(r'sentence-transformers/([\w-]+)', text)
assert models[0] == 'paraphrase-MiniLM-L6-v2'https://stackoverflow.com/questions/72882334
复制相似问题