在使用scrapy和CSS选择器之后,我尝试从HTML中抓取一个段落。该段包含带有标记<a ....>text</a>的超链接。如果我使用response.css("p::text").get(),那么超链接就不会出现在我的文本中。如果我直接使用这段代码,如果我使用response.css("p").get(),那么我将得到包含<a>标记的文本,我无法使用regex删除该标记。不管标签是什么,我都想知道获取文本的代码。就像。
我们应该注意到,美国国家变态反应和InfectiousDiseases研究所所长安东尼·福奇博士赞扬了政府对旅行的限制。在2020年2月29日,他说:“我们阻止中国去美国旅行。如果我们不这样做,我们将有更多,更多的案件,我们将不得不处理。”
正如您在文本提取过程中所看到的,我希望删除或排除标记(如上面斜体所示),并使用scrapy使用CSS选择器获取以下文本
我们应该注意到,美国国家变态反应和InfectiousDiseases研究所所长安东尼·福奇博士赞扬了政府对旅行的限制。在2020年2月29日,他说:“我们阻止中国去美国旅行。如果我们不这样做,我们将有更多,更多的案件,我们将不得不处理这里。”
。
发布于 2020-09-23 09:10:38
有用吗?
from w3lib.html import remove_tags
remove_tags(my_text) # print thishttps://stackoverflow.com/questions/64023966
复制相似问题