首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Abot Web Crawler性能

Abot Web Crawler性能
EN

Stack Overflow用户
提问于 2016-06-27 04:19:15
回答 2查看 1.2K关注 0票数 3

我已经构建了一个robots.txt爬虫,它从机器人中提取urls,然后在页面完成后加载带有一些后处理的页面。这一切都发生的相当快,我可以从5页每秒提取信息。

在网站没有robots.txt的情况下,我使用代替。问题是Abot比直接robots.txt爬行器慢得多。似乎当Abot点击一个有大量链接的页面时,它会非常慢地安排每个链接。有些页面需要20+秒来排队,然后运行上面提到的post进程。

我使用PoliteWebCrawler,它被配置为不爬行外部页面。我应该一次爬行多个网站,还是有另一种更快的解决方案呢?

谢谢!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-06-30 05:00:50

添加了一个补丁到Abot,以解决类似的问题。应该可以在nuget版本1.5.1.42中找到。有关更多详细信息,请参阅第134期。你能证实这解决了你的问题吗?

票数 2
EN

Stack Overflow用户

发布于 2016-06-28 00:01:18

您正在爬行的站点是否可能无法处理大量并发请求?一个快速的测试将是打开一个浏览器,并开始点击周围的网站,而Abot正在爬行。如果浏览器明显地慢下来,那么服务器就会显示负载的迹象。

如果这是问题所在,则需要在配置设置中减缓爬行速度。

如果没有,你能给一个网站或网页的网址,正在缓慢爬行吗?Abot的完整配置也会有所帮助。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38045880

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档