问Scrapy-递归地抓取网页并将内容保存为html文件
EN

Stack Overflow用户

提问于 2013-07-05 08:57:34

回答 1查看 1.4K关注 0票数 3

我正在使用scrapy提取网页标签中的信息，然后将这些网页保存为HTML files.Eg http://www.austlii.edu.au/au/cases/cth/HCA/1945/这个网站有一些与司法案件有关的网页。我想转到每个链接，只保存与特定司法案件相关的内容作为HTML page.eg。转到此http://www.austlii.edu.au/au/cases/cth/HCA/1945/1.html，然后保存与案件相关的信息。

有没有一种方法可以递归地在scrapy中执行此操作，并将内容保存在HTML页面中

scrapy

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-07-05 15:53:22

是的，你可以用Scrapy做到这一点，Link Extractors会提供帮助：

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector


class AustliiSpider(CrawlSpider):
    name = "austlii"
    allowed_domains = ["austlii.edu.au"]
    start_urls = ["http://www.austlii.edu.au/au/cases/cth/HCA/1945/"]
    rules = (
        Rule(SgmlLinkExtractor(allow=r"au/cases/cth/HCA/1945/\d+.html"), follow=True, callback='parse_item'),
    )

    def parse_item(self, response):
        hxs = HtmlXPathSelector(response)

        # do whatever with html content (response.body variable)

希望这能有所帮助。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/17479744

复制

相似问题

问Scrapy-递归地抓取网页并将内容保存为html文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scrapy-递归地抓取网页并将内容保存为html文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scrapy-递归地抓取网页并将内容保存为html文件
EN