文章/答案/技术大牛

发布

社区首页 >问答首页 >使用python(数据清理/提取/处理)根据文本中的主题提取子文本。

问使用python(数据清理/提取/处理)根据文本中的主题提取子文本。
EN

Stack Overflow用户

提问于 2019-01-28 13:18:57

回答 1查看 64关注 0票数 0

考虑一下text1：

什么是Lorem Ipsum： Lorem Ipsum只是印刷和排版行业的虚拟文本。它从何而来：与流行的观点相反，Lorem Ipsum并不是简单的随机文本。为什么我们要用它：这是一个长期的事实，读者将分心的可读内容的网页时，看看它的布局。

text2：

什么是Lorem Ipsum： Lorem Ipsum只是印刷和排版行业的虚拟文本。其他专题： Lorem Ipsum的传代有许多变化。为什么我们要用它：这是一个长期的事实，读者将分心的可读内容的网页时，看看它的布局。

text3：

什么是Lorem Ipsum： Lorem Ipsum只是印刷和排版行业的虚拟文本。它从何而来：与流行的观点相反，Lorem Ipsum并不是简单的随机文本。其他一些专题：这些年来，各种版本都有了发展。

我可以使用python处理这个文本，以提取开始字符串和结束字符串之间的内容。我用的密码-

# This code is run once separately for each text variation 
import sys
s = "text1 or text2 or text3" # one at a time
start_String = s.find("What is Lorem Ipsum:")
end_String = s.find("Why do we use it:")
if start_String == -1 or end_String == -1:
    print("Not found")
    sys.exit(0)
print(s[start_String:end_String])

但我的要求不一样。我只需要与“什么是Lorem Ipsum:”、“它从哪里来”、“为什么我们使用它：”相关的文本。

预期结果：

text1：

什么是Lorem Ipsum： Lorem Ipsum只是印刷和排版行业的虚拟文本。它从何而来：与流行的观点相反，Lorem Ipsum并不是简单的随机文本。为什么我们要用它：这是一个长期的事实，读者将分心的可读内容的网页时，看看它的布局。

text2：

什么是Lorem Ipsum： Lorem Ipsum只是印刷和排版行业的虚拟文本。为什么我们要用它：这是一个长期的事实，读者将分心的可读内容的网页时，看看它的布局。

text3：

什么是Lorem Ipsum： Lorem Ipsum只是印刷和排版行业的虚拟文本。它从何而来：与流行的观点相反，Lorem Ipsum并不是简单的随机文本。

在一个巨大的数据集中，我有像上面这样的文本集合。我所需要做的只是根据必要的主题只提取所需的子文本。我如何在python中实现这一点？我希望我说的有道理。

python

text

nlp

data-cleaning

回答 1

Stack Overflow用户

发布于 2019-01-28 14:58:24

这正是你想要的：

my_list=["""What is Lorem Ipsum:
Lorem Ipsum is simply dummy text of the printing and typesetting industry.

Where does it come from:
Contrary to popular belief, Lorem Ipsum is not simply random text.

Why do we use it:
It is a long established fact that a reader will be distracted by the readable content of a page when looking at its layout.""","""What is Lorem Ipsum:
Lorem Ipsum is simply dummy text of the printing and typesetting industry.

Why do we use it:
It is a long established fact that a reader will be distracted by the readable content of a page when looking at its layout.""","""What is Lorem Ipsum:
Lorem Ipsum is simply dummy text of the printing and typesetting industry.

Where does it come from:
Contrary to popular belief, Lorem Ipsum is not simply random text."""]


new_list =[]   ## Creating an empty list

for i in range(len(my_list)):
    new_list.extend(my_list[i].split(":"))

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54402910

复制

相似问题

问使用python(数据清理/提取/处理)根据文本中的主题提取子文本。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用python(数据清理/提取/处理)根据文本中的主题提取子文本。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用python(数据清理/提取/处理)根据文本中的主题提取子文本。
EN