我已经构建了一个robots.txt爬虫,它从机器人中提取urls,然后在页面完成后加载带有一些后处理的页面。这一切都发生的相当快,我可以从5页每秒提取信息。
在网站没有robots.txt的情况下,我使用代替。问题是Abot比直接robots.txt爬行器慢得多。似乎当Abot点击一个有大量链接的页面时,它会非常慢地安排每个链接。有些页面需要20+秒来排队,然后运行上面提到的post进程。
我使用PoliteWebCrawler,它被配置为不爬行外部页面。我应该一次爬行多个网站,还是有另一种更快的解决方案呢?
谢谢!
发布于 2016-06-30 05:00:50
添加了一个补丁到Abot,以解决类似的问题。应该可以在nuget版本1.5.1.42中找到。有关更多详细信息,请参阅第134期。你能证实这解决了你的问题吗?
发布于 2016-06-28 00:01:18
您正在爬行的站点是否可能无法处理大量并发请求?一个快速的测试将是打开一个浏览器,并开始点击周围的网站,而Abot正在爬行。如果浏览器明显地慢下来,那么服务器就会显示负载的迹象。
如果这是问题所在,则需要在配置设置中减缓爬行速度。
如果没有,你能给一个网站或网页的网址,正在缓慢爬行吗?Abot的完整配置也会有所帮助。
https://stackoverflow.com/questions/38045880
复制相似问题