我在不同的地理位置有几台台式机。我需要创建一个爬虫与客户端在每个台式机和一个中央服务器,其中的数据是索引。有没有可能在Nutch中创建这样的爬虫?还有没有别的选择。基于Python的爬虫会更好。
发布于 2011-07-08 01:28:27
如果你像buffer建议的那样使用Nutch,Nutch Wiki上有一个脚本可能会对你有所帮助。在执行此操作之前,您只需要将每个系统中的linkdb、crawldb和段发送到中央服务器-我认为在索引过程中尝试远程访问这些资源会花费很长时间。
https://stackoverflow.com/questions/6565329
复制相似问题