我正在使用scrapy提取网页标签中的信息,然后将这些网页保存为HTML files.Eg http://www.austlii.edu.au/au/cases/cth/HCA/1945/这个网站有一些与司法案件有关的网页。我想转到每个链接,只保存与特定司法案件相关的内容作为HTML page.eg。转到此http://www.austlii.edu.au/au/cases/cth/HCA/1945/1.html,然后保存与案件相关的信息。
有没有一种方法可以递归地在scrapy中执行此操作,并将内容保存在HTML页面中
发布于 2013-07-05 15:53:22
是的,你可以用Scrapy做到这一点,Link Extractors会提供帮助:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
class AustliiSpider(CrawlSpider):
name = "austlii"
allowed_domains = ["austlii.edu.au"]
start_urls = ["http://www.austlii.edu.au/au/cases/cth/HCA/1945/"]
rules = (
Rule(SgmlLinkExtractor(allow=r"au/cases/cth/HCA/1945/\d+.html"), follow=True, callback='parse_item'),
)
def parse_item(self, response):
hxs = HtmlXPathSelector(response)
# do whatever with html content (response.body variable)希望这能有所帮助。
https://stackoverflow.com/questions/17479744
复制相似问题