是否有Python函数可以将系列标题组合并到1条记录中?我想从系列名称中删除额外的扩展。
标题
1.晚版2022年3月16日(第6部分)
2.晚间版17/01/2022
3.晚版2021年11月30日(第1部分)
4.冬季奥林匹克运动会2022年:每日亮点日13第2部分
5.2022年冬季奥运会:每日亮点日15第2部分
我正在寻找的结果如下:
标题
1.晚间版
2.2022年冬季奥运会
发布于 2022-05-31 09:09:15
我认为您要寻找的是拥有最长的公共子字符串。为了做到这一点,您可以执行以下操作:
from difflib import SequenceMatcher
title1= "something Evening Edition something else"
title2 = "Evening Edition 30 Nov 2021 (Part 1)"
clean_title = SequenceMatcher(None, title1, title2).find_longest_match()这将给你‘晚间版’,为这种情况,但它将给你‘冬季奥运会2022年:每日要闻’为第二个案例。我不确定这是否适用于您,但是如果没有关于数据的更多信息,那么做其他事情是非常巧妙的。
也许您会在这里为您的用例找到更好的东西,https://docs.python.org/3/library/difflib.html#。
https://stackoverflow.com/questions/72444578
复制相似问题