我正在使用RCrawler抓取大约300个网站。网站的大小相当不同:一些很小(十几个页面),另一些很大(每个域1000个页面)。抓取后者非常耗时,而且--就我的研究目的而言--在我已经有几百个页面的情况下,更多页面的附加值会减少。
那么:如果收集了x个页面,有没有办法停止爬行?
我知道我可以用MaxDepth限制爬行,但即使在MaxDepth=2,这仍然是一个问题。对于我的研究来说,MaxDepth=1是不可取的。此外,我更喜欢保持高MaxDepth,这样较小的网站就会被完全爬行。
非常感谢!
发布于 2020-01-26 05:51:17
如何为Rcrawler函数的FUNPageFilter参数实现一个自定义函数呢?自定义函数检查DIR中的文件数量,如果文件太多,则返回FALSE。
https://stackoverflow.com/questions/59268856
复制相似问题