我正在读上一个蜘蛛发布的日志。我很想知道这个异常是从哪里来的,以及我如何处理它:
2019-04-12 22:00:55 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.website.com/next_page> (referer: https://www.website.com/prev_page)
Traceback (most recent call last):...我查看了项目中的middlewares.py、settings.py等文件,没有找到任何写成logging.error或spider.logger.error的行。即使在内置方法def process_spider_exception(self, response, exception, spider):或def process_exception(self, request, exception, spider):中,我也找不到对日志消息进行排序的任何行。对于我来说,查看文档并没有澄清这一点。
现在就要采取行动了。如果我想知道它来自哪里,是因为我想尝试插入一些行,这些行命令将urls添加到一个文件中,该文件专门用于某种类型的异常,使爬虫错误处理产生分析它,纠正它,并在此文件中的这些特定urls上再次启动爬虫,因为这比从一个粗糙的日志文件中启动爬虫更舒服。
除了对它采取行动的愿望之外,我想知道它在哪里以及它是如何工作的。
发布于 2019-04-14 21:47:50
为了回答您的问题,日志消息来自于scrapy包中的handle_spider_error方法
关于查找错误源,提示通常是随此错误日志一起提供的回溯。
您还可以遵循将此url称为'https://www.website.com/next_page‘的代码
https://stackoverflow.com/questions/55674995
复制相似问题