我一直在尝试理解在web抓取中使用BaseSpider和CrawlSpider的概念。我读过医生。,但在BaseSpider上没有提到。如果有人能解释BaseSpider和CrawlSpider之间的区别,我会很有帮助的。
发布于 2015-09-17 13:51:03
BaseSpider以前是存在的,现在已被废弃(自0.22以来)--使用scrapy.Spider代替:
import scrapy
class MySpider(scrapy.Spider):
# ...scrapy.Spider是最简单的爬行器,它基本上可以访问start_urls中定义的URL或start_requests()返回的URL。
当您需要“爬行”行为时使用CrawlSpider --提取链接并跟踪它们:
这是最常用的爬行器,因为它通过定义一组规则(),为跟踪链接提供了一种方便的机制。它可能不是最适合您的特定网站或项目,但它足够通用的几种情况下,所以您可以从它开始,并根据需要覆盖它,以获得更多的自定义功能,或者只是实现您自己的蜘蛛。
https://stackoverflow.com/questions/32632001
复制相似问题