文章/答案/技术大牛

发布

社区首页 >问答首页 >其中来自“错误:爬行器错误处理<GET...”在scrapy？

问其中来自“错误:爬行器错误处理<GET...”在scrapy？
EN

Stack Overflow用户

提问于 2019-04-14 19:56:47

回答 1查看 419关注 0票数 0

我正在读上一个蜘蛛发布的日志。我很想知道这个异常是从哪里来的，以及我如何处理它：

2019-04-12 22:00:55 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.website.com/next_page> (referer: https://www.website.com/prev_page)
Traceback (most recent call last):...

我查看了项目中的middlewares.py、settings.py等文件，没有找到任何写成logging.error或spider.logger.error的行。即使在内置方法def process_spider_exception(self, response, exception, spider):或def process_exception(self, request, exception, spider):中，我也找不到对日志消息进行排序的任何行。对于我来说，查看文档并没有澄清这一点。

现在就要采取行动了。如果我想知道它来自哪里，是因为我想尝试插入一些行，这些行命令将urls添加到一个文件中，该文件专门用于某种类型的异常，使爬虫错误处理产生分析它，纠正它，并在此文件中的这些特定urls上再次启动爬虫，因为这比从一个粗糙的日志文件中启动爬虫更舒服。

除了对它采取行动的愿望之外，我想知道它在哪里以及它是如何工作的。

python

logging

scrapy

error-logging

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-04-14 21:47:50

为了回答您的问题，日志消息来自于scrapy包中的handle_spider_error方法

core/scraper.py

关于查找错误源，提示通常是随此错误日志一起提供的回溯。

您还可以遵循将此url称为'https://www.website.com/next_page‘的代码

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55674995

复制

相似问题

问其中来自“错误:爬行器错误处理<GET...”在scrapy？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问其中来自“错误:爬行器错误处理<GET...”在scrapy？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问其中来自“错误:爬行器错误处理<GET...”在scrapy？
EN