首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何为web爬虫设置有效的cron作业

如何为web爬虫设置有效的cron作业
EN

Stack Overflow用户
提问于 2012-09-26 23:40:13
回答 1查看 1.7K关注 0票数 1

我已经写了一个php网络爬虫来索引只有180个特定来源的内容,但它平均每页需要2秒来分析,抓取和保存我想要的内容:图片,网址,标题,完整内容,摘录,标签。(有几种算法可以分析所有元标签以获得正确的数据)

我只抓取最新的9个文章页面,所以每个信息源需要18-25秒。

我创建了10个不同的cron作业(它们之间相隔6分钟),因此每个作业可以处理18个源(大约350秒)。

这似乎非常低效,特别是如果我想达到1000个源码的话。我应该修改什么?

ps:我正在一个共享主机上测试它,一个专用的服务器会大大减少时间吗?

cron作业类似于:

lynx -auth用户名:密码website.com/crawler.php?group=1

lynx -auth用户名:密码website.com/crawler.php?group=2

lynx -auth用户名:密码website.com/crawler.php?group=3等。

爬虫脚本访问数据库中的18个源,获取最新的9个文章页面并爬取内容,对其进行分析,并根据结果将其存储在数据库中。

EN

回答 1

Stack Overflow用户

发布于 2012-09-26 23:49:06

老实说,不要使用cron job来完成这个任务。设置一个守护进程,它将一直运行。如果它崩溃了,重新绘制,以此类推。

http://pear.php.net/package/System_Daemon

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12605453

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档