文章/答案/技术大牛

发布

社区首页 >问答首页 >Abot Web Crawler性能

问Abot Web Crawler性能
EN

Stack Overflow用户

提问于 2016-06-27 04:19:15

回答 2查看 1.2K关注 0票数 3

我已经构建了一个robots.txt爬虫，它从机器人中提取urls，然后在页面完成后加载带有一些后处理的页面。这一切都发生的相当快，我可以从5页每秒提取信息。

在网站没有robots.txt的情况下，我使用代替。问题是Abot比直接robots.txt爬行器慢得多。似乎当Abot点击一个有大量链接的页面时，它会非常慢地安排每个链接。有些页面需要20+秒来排队，然后运行上面提到的post进程。

我使用PoliteWebCrawler，它被配置为不爬行外部页面。我应该一次爬行多个网站，还是有另一种更快的解决方案呢？

谢谢!

.net

web-crawler

screen-scraping

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-06-30 05:00:50

添加了一个补丁到Abot，以解决类似的问题。应该可以在nuget版本1.5.1.42中找到。有关更多详细信息，请参阅第134期。你能证实这解决了你的问题吗？

票数 2

Stack Overflow用户

发布于 2016-06-28 00:01:18

您正在爬行的站点是否可能无法处理大量并发请求？一个快速的测试将是打开一个浏览器，并开始点击周围的网站，而Abot正在爬行。如果浏览器明显地慢下来，那么服务器就会显示负载的迹象。

如果这是问题所在，则需要在配置设置中减缓爬行速度。

如果没有，你能给一个网站或网页的网址，正在缓慢爬行吗？Abot的完整配置也会有所帮助。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38045880

复制

相似问题

问Abot Web Crawler性能
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Abot Web Crawler性能EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Abot Web Crawler性能
EN