我有一个稍微不同的版本的网络爬虫。我想比较它们的性能(特定的时间爬行一个给定的域)。我曾考虑过这两种选择:
1的缺点是,当运行第二个网络时,网络可以运行得更慢/更快。2的缺点是,一个可以劫持大部分带宽,似乎工作得更快,而另一个则可以在相同带宽的情况下更好地工作。
我不知道如何(如果可能的话)限制带宽(或者cpu的使用?)每一个过程。如果我能做到这一点,我会给每个人一个公平的份额,并同时运行,这样它就可以工作。
有什么办法吗?
发布于 2012-09-15 14:21:16
选择选项1,并抽取大量样本。运行一个星期,然后运行另一个一个星期。当然,网络带宽会有所不同,但应该平均化。
另外,您可能希望找到一种方法来控制爬虫,这样它就不会消耗您所有的资源。一旦你有了它,选项2就成为一个更好的选择。
https://stackoverflow.com/questions/12437824
复制相似问题