考虑一下text1:
什么是Lorem Ipsum: Lorem Ipsum只是印刷和排版行业的虚拟文本。 它从何而来: 与流行的观点相反,Lorem Ipsum并不是简单的随机文本。 为什么我们要用它: 这是一个长期的事实,读者将分心的可读内容的网页时,看看它的布局。
text2:
什么是Lorem Ipsum: Lorem Ipsum只是印刷和排版行业的虚拟文本。 其他专题: Lorem Ipsum的传代有许多变化。 为什么我们要用它: 这是一个长期的事实,读者将分心的可读内容的网页时,看看它的布局。
text3:
什么是Lorem Ipsum: Lorem Ipsum只是印刷和排版行业的虚拟文本。 它从何而来: 与流行的观点相反,Lorem Ipsum并不是简单的随机文本。 其他一些专题: 这些年来,各种版本都有了发展。
我可以使用python处理这个文本,以提取开始字符串和结束字符串之间的内容。我用的密码-
# This code is run once separately for each text variation
import sys
s = "text1 or text2 or text3" # one at a time
start_String = s.find("What is Lorem Ipsum:")
end_String = s.find("Why do we use it:")
if start_String == -1 or end_String == -1:
print("Not found")
sys.exit(0)
print(s[start_String:end_String])但我的要求不一样。我只需要与“什么是Lorem Ipsum:”、“它从哪里来”、“为什么我们使用它:”相关的文本。
预期结果:
text1:
什么是Lorem Ipsum: Lorem Ipsum只是印刷和排版行业的虚拟文本。 它从何而来: 与流行的观点相反,Lorem Ipsum并不是简单的随机文本。 为什么我们要用它: 这是一个长期的事实,读者将分心的可读内容的网页时,看看它的布局。
text2:
什么是Lorem Ipsum: Lorem Ipsum只是印刷和排版行业的虚拟文本。 为什么我们要用它: 这是一个长期的事实,读者将分心的可读内容的网页时,看看它的布局。
text3:
什么是Lorem Ipsum: Lorem Ipsum只是印刷和排版行业的虚拟文本。 它从何而来: 与流行的观点相反,Lorem Ipsum并不是简单的随机文本。
在一个巨大的数据集中,我有像上面这样的文本集合。我所需要做的只是根据必要的主题只提取所需的子文本。我如何在python中实现这一点?我希望我说的有道理。
发布于 2019-01-28 14:58:24
这正是你想要的:
my_list=["""What is Lorem Ipsum:
Lorem Ipsum is simply dummy text of the printing and typesetting industry.
Where does it come from:
Contrary to popular belief, Lorem Ipsum is not simply random text.
Why do we use it:
It is a long established fact that a reader will be distracted by the readable content of a page when looking at its layout.""","""What is Lorem Ipsum:
Lorem Ipsum is simply dummy text of the printing and typesetting industry.
Why do we use it:
It is a long established fact that a reader will be distracted by the readable content of a page when looking at its layout.""","""What is Lorem Ipsum:
Lorem Ipsum is simply dummy text of the printing and typesetting industry.
Where does it come from:
Contrary to popular belief, Lorem Ipsum is not simply random text."""]
new_list =[] ## Creating an empty list
for i in range(len(my_list)):
new_list.extend(my_list[i].split(":"))https://stackoverflow.com/questions/54402910
复制相似问题