我正在用Apache (1.18版本)爬行网页。
我认为添加更多hadoop节点会使Nutch爬行网页更快。
但是,它没有。当爬行有3个和5个datanodes时,几乎没有区别。
我添加了--num-获取器参数(值为5,因为我的hadoop数据阳极的数量也是5)。
请帮我找出问题所在。
发布于 2021-06-28 09:42:31
只有覆盖许多网站(主机/域)的广泛的web爬行才能从添加更多Hadoop节点中获益。如果只爬行少量站点,并行化将不会使Nutch更快。默认情况下,Nutch配置为彬彬有礼,不并行访问单个站点,并且在来自同一站点的连续获取之间等待。
但是有一些方法可以让Nutch更快地爬到一个网站上。
fetcher.server.delay、fetcher.threads.per.queue和其他获取器属性。请注意,在未经同意的情况下,让Nutch更咄咄逼人可能会导致爬行网站管理员的抱怨,并增加被屏蔽的可能性!
https://stackoverflow.com/questions/68156543
复制相似问题