文章/答案/技术大牛

发布

社区首页 >问答首页 >从提取的文本中删除/排除标记

问从提取的文本中删除/排除标记
EN

Stack Overflow用户

提问于 2020-09-23 08:30:40

回答 1查看 300关注 0票数 0

在使用scrapy和CSS选择器之后，我尝试从HTML中抓取一个段落。该段包含带有标记<a ....>text</a>的超链接。如果我使用response.css("p::text").get()，那么超链接就不会出现在我的文本中。如果我直接使用这段代码，如果我使用response.css("p").get()，那么我将得到包含<a>标记的文本，我无法使用regex删除该标记。不管标签是什么，我都想知道获取文本的代码。就像。

我们应该注意到，美国国家变态反应和InfectiousDiseases研究所所长安东尼·福奇博士赞扬了政府对旅行的限制。在2020年2月29日，他说：“我们阻止中国去美国旅行。如果我们不这样做，我们将有更多，更多的案件，我们将不得不处理。”

正如您在文本提取过程中所看到的，我希望删除或排除标记(如上面斜体所示)，并使用scrapy使用CSS选择器获取以下文本

我们应该注意到，美国国家变态反应和InfectiousDiseases研究所所长安东尼·福奇博士赞扬了政府对旅行的限制。在2020年2月29日，他说：“我们阻止中国去美国旅行。如果我们不这样做，我们将有更多，更多的案件，我们将不得不处理这里。”

。

python

html

css

scrapy

回答 1

Stack Overflow用户

发布于 2020-09-23 09:10:38

有用吗？

from w3lib.html import remove_tags
remove_tags(my_text)  # print this

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64023966

复制

相似问题

问从提取的文本中删除/排除标记
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从提取的文本中删除/排除标记EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从提取的文本中删除/排除标记
EN