首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >RCrawler :限制RCrawler收集的页面数量的方法?(不是爬网深度)

RCrawler :限制RCrawler收集的页面数量的方法?(不是爬网深度)
EN

Stack Overflow用户
提问于 2019-12-10 21:56:32
回答 1查看 95关注 0票数 0

我正在使用RCrawler抓取大约300个网站。网站的大小相当不同:一些很小(十几个页面),另一些很大(每个域1000个页面)。抓取后者非常耗时,而且--就我的研究目的而言--在我已经有几百个页面的情况下,更多页面的附加值会减少。

那么:如果收集了x个页面,有没有办法停止爬行?

我知道我可以用MaxDepth限制爬行,但即使在MaxDepth=2,这仍然是一个问题。对于我的研究来说,MaxDepth=1是不可取的。此外,我更喜欢保持高MaxDepth,这样较小的网站就会被完全爬行。

非常感谢!

EN

回答 1

Stack Overflow用户

发布于 2020-01-26 05:51:17

如何为Rcrawler函数的FUNPageFilter参数实现一个自定义函数呢?自定义函数检查DIR中的文件数量,如果文件太多,则返回FALSE。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59268856

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档