首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Scrapy-递归地抓取网页并将内容保存为html文件

Scrapy-递归地抓取网页并将内容保存为html文件
EN

Stack Overflow用户
提问于 2013-07-05 08:57:34
回答 1查看 1.4K关注 0票数 3

我正在使用scrapy提取网页标签中的信息,然后将这些网页保存为HTML files.Eg http://www.austlii.edu.au/au/cases/cth/HCA/1945/这个网站有一些与司法案件有关的网页。我想转到每个链接,只保存与特定司法案件相关的内容作为HTML page.eg。转到此http://www.austlii.edu.au/au/cases/cth/HCA/1945/1.html,然后保存与案件相关的信息。

有没有一种方法可以递归地在scrapy中执行此操作,并将内容保存在HTML页面中

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-07-05 15:53:22

是的,你可以用Scrapy做到这一点,Link Extractors会提供帮助:

代码语言:javascript
复制
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector


class AustliiSpider(CrawlSpider):
    name = "austlii"
    allowed_domains = ["austlii.edu.au"]
    start_urls = ["http://www.austlii.edu.au/au/cases/cth/HCA/1945/"]
    rules = (
        Rule(SgmlLinkExtractor(allow=r"au/cases/cth/HCA/1945/\d+.html"), follow=True, callback='parse_item'),
    )

    def parse_item(self, response):
        hxs = HtmlXPathSelector(response)

        # do whatever with html content (response.body variable)

希望这能有所帮助。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/17479744

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档