腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
尝试用ZeroMQ构建
分布式
爬虫
我刚开始学习ZeroMQ,想要在学习的同时构建一个
分布式
的网络
爬虫
作为一个例子。 我的想法是使用PHP编写一个"server",它接受爬行应该从哪里开始的url。
浏览 2
修改于2017-05-23
得票数 3
回答已采纳
1
回答
分布式
爬虫
和一致性
我们正在用Perl编写
爬虫
,但是任何语言对我们来说都是很好的,因为我们可以借鉴背后的想法。 任何建议都将不胜感激。雷迪斯?ZeroMQ? 谢谢
浏览 15
提问于2019-06-04
得票数 0
1
回答
Python
爬虫
中的
分布式
计算
我的目标是构建一个
分布式
爬虫
,它一次处理超过一个网站,同时也处理多个查询。为此,我使用“请求”和“BeautifulSoup”等标准包在Python中构建了一个web
爬虫
。效果很好。
浏览 2
修改于2017-07-30
得票数 1
3
回答
Web
爬虫
-如何构建访问的url集?
我已经在rabbitMQ上实现了一个
分布式
网络
爬虫
。除了访问的url集之外,一切几乎都完成了。我希望在不同的
爬虫
之间有某种共享的变量。在
分布式
环境中存储、访问和共享访问过的urls列表的最佳方法是什么?
浏览 6
提问于2017-04-29
得票数 0
1
回答
分布式
系统中的任务分配
我的
爬虫
使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个
爬虫
产生数据卡夫卡。 我的问题是:当一个
爬虫
想要爬一个网站,其他
爬虫
不应该尝试爬行它。如何在
分布式
环境中与它们通信?
浏览 0
修改于2017-06-02
得票数 2
1
回答
你如何确保它确实与谷歌云酒吧/潜艇一起工作?
我目前正在做一个
分布式
爬行服务。在做这件事的时候,我有一些需要解决的问题。
爬虫
需要保存每个特定站点上的每个公告板上的所有帖子。此外,对于
分布式
爬虫
的稳定实现,我是否可以参考pub/sub或其他好功能?
浏览 3
提问于2022-03-23
得票数 0
2
回答
使用Java的web索引器
当用Java开发时,并行系统和
分布式
系统哪个更适合网站
爬虫
和web索引器?可用的框架有哪些?
浏览 3
修改于2012-03-01
得票数 2
回答已采纳
1
回答
如何将ApacheNutch2.x连接到远程HBase集群?
一台机器在伪
分布式
模式下运行HBase 0.92.2,另一台使用Nutch2.x
爬虫
.我如何配置这两台机器,使一台具有HBase-0.92.2的机器充当后端存储,另一台使用Nutch-2.x充当
爬虫
?
浏览 1
修改于2020-12-14
得票数 1
回答已采纳
1
回答
如何顺利地重启scrapy-redis蜘蛛?
我用scrapy-redis写了一个简单的
爬虫
来制作
分布式
蜘蛛。当我启动两只蜘蛛,然后把它们都杀死时,我发现了这点。redis队列只留下了‘dupfilter’队列。当我重新启动这两个
爬虫
时,它们根本不起作用。那么,如果蜘蛛意外死亡或崩溃,如何重新启动它们呢?
浏览 0
提问于2016-05-30
得票数 0
1
回答
连接到多个TOR出口节点
我想开发一个使用TOR的
分布式
网络
爬虫
。我如何通过TOR实现20种不同的连接?我想用20个外部ips同时浏览网站。请用Python编写代码示例。
浏览 1
提问于2012-08-23
得票数 2
回答已采纳
2
回答
Elasticsearch HTTP API或python API
我是一个实时
分布式
搜索引擎elasticsearch的新手,但我想问一个技术问题。真正的问题如下所示。哪种技术更适合我的场合?
浏览 4
提问于2015-12-01
得票数 1
1
回答
在HBase 0.90.6中推荐哪种Hadoop版本?
我没有其他选择,除了安装HBase 0.90.6,因为它只是推荐的稳定版本的纳奇(网络
爬虫
),除了0.90.4。我的问题是,在HBase 0.90.6中推荐哪一个Hadoop版本才能在伪
分布式
模式下工作?
浏览 0
提问于2013-10-06
得票数 0
回答已采纳
1
回答
如何在
分布式
模式下运行apache nutch
我正在运行
爬虫
程序的一个实例。它每天抓取大约30k-50k个页面。我不得不每天抓取更多的页面(假设价值约为100万)。我已经尝试了Nutch的FAQ中的不同问题。但是抓取的文档不能增加。我认为我应该在完全
分布式
模式下运行Nutch (我期望Nutch的完全
分布式
模式运行多个实例)。 我的问题的解决方案是什么?
浏览 4
修改于2015-10-13
得票数 0
2
回答
爬虫
存储系统所需的建议
我计划用c++编写一个网络
爬虫
,它每天爬行N个页面。主要的问题是我把存储系统搞糊涂了。所以我需要一个高效的
分布式
数据库来存储我抓取的数据。有没有人能给我推荐一个符合条件的db?
浏览 0
修改于2011-03-20
得票数 1
1
回答
用Java在
分布式
体系结构上实现Web
爬虫
朋友们,我用Java实现了一个多线程的网络
爬虫
。为了使它更高效,我想将其转换为
分布式
架构,即在3台机器上。据我所知,主从架构是最好的。
浏览 0
提问于2013-02-26
得票数 0
2
回答
如何使用Scrapyd和ScrapydWeb在集群中分布
爬虫
?
我在一个使用Scrapy的
爬虫
项目中工作,我需要将我的
爬虫
分布在集群中的不同节点上,以使过程更快。问题是爬行是并行运行的(内容是由两台机器获取的),我的目的是以一种
分布式
的方式进行爬行,以最小化爬行时间。 有人能帮我吗?提前谢谢你。
浏览 6
提问于2020-05-07
得票数 2
3
回答
使用使用AGPL-v3授权代码生成的数据是否被视为分发?
我们只需要库的
爬虫
类步骤在后端。如果我们使用
爬虫
中的库生成数据并将其推入数据库,并且我们的web应用程序完全由另一个程序/进程承载,从数据库读取数据,那么我们是否需要发布任何源代码呢?面向web的(“
分布式
”)代码不会调用AGPL-v3授权代码,只使用它生成的输出。 任何洞察力都是非常感谢的!
浏览 0
修改于2015-01-27
得票数 2
2
回答
为什么我们需要hadoop用于hypertable
我用c++写了一个
爬虫
,我正在寻找一个
分布式
数据存储,我找到了hbase hypertable 这两个都是Big table的实现,我刚刚回顾了hypertable。
浏览 0
修改于2012-06-05
得票数 5
5
回答
如何使用Apache Nutch保存原始html文件
我是搜索引擎和网络
爬虫
的新手。现在,我希望将特定网站中的所有原始页面存储为html文件,但使用Apache Nutch只能获得二进制数据库文件。如何使用Nutch获取原始html文件?(支持
分布式
爬行的工具更好。)
浏览 2
修改于2013-04-09
得票数 5
回答已采纳
2
回答
构建
分布式
日志聚合器(比如Splunk)的最佳组件堆栈是什么?
我认为建筑是: 我的主要问题是
分布式
日志存储。
浏览 4
修改于2010-06-23
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券