首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从提取的文本中删除/排除标记

从提取的文本中删除/排除标记
EN

Stack Overflow用户
提问于 2020-09-23 08:30:40
回答 1查看 300关注 0票数 0

在使用scrapy和CSS选择器之后,我尝试从HTML中抓取一个段落。该段包含带有标记<a ....>text</a>的超链接。如果我使用response.css("p::text").get(),那么超链接就不会出现在我的文本中。如果我直接使用这段代码,如果我使用response.css("p").get(),那么我将得到包含<a>标记的文本,我无法使用regex删除该标记。不管标签是什么,我都想知道获取文本的代码。就像。

我们应该注意到,美国国家变态反应和InfectiousDiseases研究所所长安东尼·福奇博士赞扬了政府对旅行的限制。在2020年2月29日,他说:“我们阻止中国去美国旅行。如果我们不这样做,我们将有更多,更多的案件,我们将不得不处理。”

正如您在文本提取过程中所看到的,我希望删除或排除标记(如上面斜体所示),并使用scrapy使用CSS选择器获取以下文本

我们应该注意到,美国国家变态反应和InfectiousDiseases研究所所长安东尼·福奇博士赞扬了政府对旅行的限制。在2020年2月29日,他说:“我们阻止中国去美国旅行。如果我们不这样做,我们将有更多,更多的案件,我们将不得不处理这里。”

EN

回答 1

Stack Overflow用户

发布于 2020-09-23 09:10:38

有用吗?

代码语言:javascript
复制
from w3lib.html import remove_tags
remove_tags(my_text)  # print this
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64023966

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档