搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

尝试用ZeroMQ构建分布式爬虫

我刚开始学习ZeroMQ，想要在学习的同时构建一个分布式的网络爬虫作为一个例子。我的想法是使用PHP编写一个"server"，它接受爬行应该从哪里开始的url。

浏览 2修改于2017-05-23得票数 3

回答已采纳

1回答

分布式爬虫和一致性

我们正在用Perl编写爬虫，但是任何语言对我们来说都是很好的，因为我们可以借鉴背后的想法。任何建议都将不胜感激。雷迪斯？ZeroMQ？谢谢

浏览 15提问于2019-06-04得票数 0

1回答

Python爬虫中的分布式计算

我的目标是构建一个分布式爬虫，它一次处理超过一个网站，同时也处理多个查询。为此，我使用“请求”和“BeautifulSoup”等标准包在Python中构建了一个web爬虫。效果很好。

浏览 2修改于2017-07-30得票数 1

3回答

Web爬虫-如何构建访问的url集？

我已经在rabbitMQ上实现了一个分布式网络爬虫。除了访问的url集之外，一切几乎都完成了。我希望在不同的爬虫之间有某种共享的变量。在分布式环境中存储、访问和共享访问过的urls列表的最佳方法是什么？

浏览 6提问于2017-04-29得票数 0

1回答

分布式系统中的任务分配

我的爬虫使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个爬虫产生数据卡夫卡。我的问题是:当一个爬虫想要爬一个网站，其他爬虫不应该尝试爬行它。如何在分布式环境中与它们通信？

浏览 0修改于2017-06-02得票数 2

1回答

你如何确保它确实与谷歌云酒吧/潜艇一起工作？

我目前正在做一个分布式爬行服务。在做这件事的时候，我有一些需要解决的问题。爬虫需要保存每个特定站点上的每个公告板上的所有帖子。此外，对于分布式爬虫的稳定实现，我是否可以参考pub/sub或其他好功能？

浏览 3提问于2022-03-23得票数 0

2回答

使用Java的web索引器

当用Java开发时，并行系统和分布式系统哪个更适合网站爬虫和web索引器？可用的框架有哪些？

浏览 3修改于2012-03-01得票数 2

回答已采纳

1回答

如何将ApacheNutch2.x连接到远程HBase集群？

一台机器在伪分布式模式下运行HBase 0.92.2，另一台使用Nutch2.x爬虫.我如何配置这两台机器，使一台具有HBase-0.92.2的机器充当后端存储，另一台使用Nutch-2.x充当爬虫？

浏览 1修改于2020-12-14得票数 1

回答已采纳

1回答

如何顺利地重启scrapy-redis蜘蛛？

我用scrapy-redis写了一个简单的爬虫来制作分布式蜘蛛。当我启动两只蜘蛛，然后把它们都杀死时，我发现了这点。redis队列只留下了‘dupfilter’队列。当我重新启动这两个爬虫时，它们根本不起作用。那么，如果蜘蛛意外死亡或崩溃，如何重新启动它们呢？

浏览 0提问于2016-05-30得票数 0

1回答

连接到多个TOR出口节点

我想开发一个使用TOR的分布式网络爬虫。我如何通过TOR实现20种不同的连接？我想用20个外部ips同时浏览网站。请用Python编写代码示例。

浏览 1提问于2012-08-23得票数 2

回答已采纳

2回答

Elasticsearch HTTP API或python API

我是一个实时分布式搜索引擎elasticsearch的新手，但我想问一个技术问题。真正的问题如下所示。哪种技术更适合我的场合？

浏览 4提问于2015-12-01得票数 1

1回答

在HBase 0.90.6中推荐哪种Hadoop版本？

我没有其他选择，除了安装HBase 0.90.6，因为它只是推荐的稳定版本的纳奇(网络爬虫)，除了0.90.4。我的问题是，在HBase 0.90.6中推荐哪一个Hadoop版本才能在伪分布式模式下工作？

浏览 0提问于2013-10-06得票数 0

回答已采纳

1回答

如何在分布式模式下运行apache nutch

我正在运行爬虫程序的一个实例。它每天抓取大约30k-50k个页面。我不得不每天抓取更多的页面(假设价值约为100万)。我已经尝试了Nutch的FAQ中的不同问题。但是抓取的文档不能增加。我认为我应该在完全分布式模式下运行Nutch (我期望Nutch的完全分布式模式运行多个实例)。我的问题的解决方案是什么？

浏览 4修改于2015-10-13得票数 0

2回答