首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >scraperwiki如何限制执行时间?

scraperwiki如何限制执行时间?
EN

Stack Overflow用户
提问于 2011-05-20 15:30:50
回答 1查看 331关注 0票数 4

scraperwiki如何决定停止预定的运行?它是基于实际执行时间还是基于CPU时间?或者是其他的东西。

我抓取了一个网站,机械化需要30秒来加载每个页面,但我只使用了很少的CPU来处理页面,所以我想知道服务器的缓慢是否是一个主要问题。

EN

回答 1

Stack Overflow用户

发布于 2011-05-25 22:44:08

CPU时间,而不是挂钟时间。它基于Linux函数setrlimit。

每一次刮板运行都有大约80秒的处理时间限制。在那之后,在Python和Ruby语言中,你会得到一个异常"ScraperWiki CPU时间超时“。在PHP中,它将以"terminated by SIGXCPU“结尾。

在许多情况下,当您第一次抓取站点时,会发生这种情况,以便处理现有数据的积压。处理它的最好方法是使用save_var和get_var函数(参见http://scraperwiki.com/docs/python/python_help_documentation/)让您的刮取器一次执行一个块,以记住您所在的位置。

这也让您可以更轻松地从其他解析错误中恢复。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6068809

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档