首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用python(数据清理/提取/处理)根据文本中的主题提取子文本。

使用python(数据清理/提取/处理)根据文本中的主题提取子文本。
EN

Stack Overflow用户
提问于 2019-01-28 13:18:57
回答 1查看 64关注 0票数 0

考虑一下text1:

什么是Lorem Ipsum: Lorem Ipsum只是印刷和排版行业的虚拟文本。 它从何而来: 与流行的观点相反,Lorem Ipsum并不是简单的随机文本。 为什么我们要用它: 这是一个长期的事实,读者将分心的可读内容的网页时,看看它的布局。

text2:

什么是Lorem Ipsum: Lorem Ipsum只是印刷和排版行业的虚拟文本。 其他专题: Lorem Ipsum的传代有许多变化。 为什么我们要用它: 这是一个长期的事实,读者将分心的可读内容的网页时,看看它的布局。

text3:

什么是Lorem Ipsum: Lorem Ipsum只是印刷和排版行业的虚拟文本。 它从何而来: 与流行的观点相反,Lorem Ipsum并不是简单的随机文本。 其他一些专题: 这些年来,各种版本都有了发展。

我可以使用python处理这个文本,以提取开始字符串和结束字符串之间的内容。我用的密码-

代码语言:javascript
复制
# This code is run once separately for each text variation 
import sys
s = "text1 or text2 or text3" # one at a time
start_String = s.find("What is Lorem Ipsum:")
end_String = s.find("Why do we use it:")
if start_String == -1 or end_String == -1:
    print("Not found")
    sys.exit(0)
print(s[start_String:end_String])

但我的要求不一样。我只需要与“什么是Lorem Ipsum:”、“它从哪里来”、“为什么我们使用它:”相关的文本。

预期结果:

text1:

什么是Lorem Ipsum: Lorem Ipsum只是印刷和排版行业的虚拟文本。 它从何而来: 与流行的观点相反,Lorem Ipsum并不是简单的随机文本。 为什么我们要用它: 这是一个长期的事实,读者将分心的可读内容的网页时,看看它的布局。

text2:

什么是Lorem Ipsum: Lorem Ipsum只是印刷和排版行业的虚拟文本。 为什么我们要用它: 这是一个长期的事实,读者将分心的可读内容的网页时,看看它的布局。

text3:

什么是Lorem Ipsum: Lorem Ipsum只是印刷和排版行业的虚拟文本。 它从何而来: 与流行的观点相反,Lorem Ipsum并不是简单的随机文本。

在一个巨大的数据集中,我有像上面这样的文本集合。我所需要做的只是根据必要的主题只提取所需的子文本。我如何在python中实现这一点?我希望我说的有道理。

EN

回答 1

Stack Overflow用户

发布于 2019-01-28 14:58:24

这正是你想要的:

代码语言:javascript
复制
my_list=["""What is Lorem Ipsum:
Lorem Ipsum is simply dummy text of the printing and typesetting industry.

Where does it come from:
Contrary to popular belief, Lorem Ipsum is not simply random text.

Why do we use it:
It is a long established fact that a reader will be distracted by the readable content of a page when looking at its layout.""","""What is Lorem Ipsum:
Lorem Ipsum is simply dummy text of the printing and typesetting industry.

Why do we use it:
It is a long established fact that a reader will be distracted by the readable content of a page when looking at its layout.""","""What is Lorem Ipsum:
Lorem Ipsum is simply dummy text of the printing and typesetting industry.

Where does it come from:
Contrary to popular belief, Lorem Ipsum is not simply random text."""]


new_list =[]   ## Creating an empty list

for i in range(len(my_list)):
    new_list.extend(my_list[i].split(":"))
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54402910

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档