首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >其中来自“错误:爬行器错误处理<GET...”在scrapy?

其中来自“错误:爬行器错误处理<GET...”在scrapy?
EN

Stack Overflow用户
提问于 2019-04-14 19:56:47
回答 1查看 419关注 0票数 0

我正在读上一个蜘蛛发布的日志。我很想知道这个异常是从哪里来的,以及我如何处理它:

代码语言:javascript
复制
2019-04-12 22:00:55 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.website.com/next_page> (referer: https://www.website.com/prev_page)
Traceback (most recent call last):...

我查看了项目中的middlewares.pysettings.py等文件,没有找到任何写成logging.errorspider.logger.error的行。即使在内置方法def process_spider_exception(self, response, exception, spider):def process_exception(self, request, exception, spider):中,我也找不到对日志消息进行排序的任何行。对于我来说,查看文档并没有澄清这一点。

现在就要采取行动了。如果我想知道它来自哪里,是因为我想尝试插入一些行,这些行命令将urls添加到一个文件中,该文件专门用于某种类型的异常,使爬虫错误处理产生分析它,纠正它,并在此文件中的这些特定urls上再次启动爬虫,因为这比从一个粗糙的日志文件中启动爬虫更舒服。

除了对它采取行动的愿望之外,我想知道它在哪里以及它是如何工作的。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-04-14 21:47:50

为了回答您的问题,日志消息来自于scrapy包中的handle_spider_error方法

core/scraper.py

关于查找错误源,提示通常是随此错误日志一起提供的回溯。

您还可以遵循将此url称为'https://www.website.com/next_page‘的代码

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55674995

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档