scraperwiki如何决定停止预定的运行?它是基于实际执行时间还是基于CPU时间?或者是其他的东西。
我抓取了一个网站,机械化需要30秒来加载每个页面,但我只使用了很少的CPU来处理页面,所以我想知道服务器的缓慢是否是一个主要问题。
发布于 2011-05-25 22:44:08
CPU时间,而不是挂钟时间。它基于Linux函数setrlimit。
每一次刮板运行都有大约80秒的处理时间限制。在那之后,在Python和Ruby语言中,你会得到一个异常"ScraperWiki CPU时间超时“。在PHP中,它将以"terminated by SIGXCPU“结尾。
在许多情况下,当您第一次抓取站点时,会发生这种情况,以便处理现有数据的积压。处理它的最好方法是使用save_var和get_var函数(参见http://scraperwiki.com/docs/python/python_help_documentation/)让您的刮取器一次执行一个块,以记住您所在的位置。
这也让您可以更轻松地从其他解析错误中恢复。
https://stackoverflow.com/questions/6068809
复制相似问题