腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
支持windows
增量
爬行的Web
爬虫
我需要一个开源的web
爬虫
在java开发的
增量
爬行支持。 Nutch -一个
网络
爬虫
,有更多的hadoop支持功能。Crawl4j是一个很好的
网络
爬虫
,但是它没有
增量<
浏览 4
提问于2014-09-22
得票数 1
回答已采纳
3
回答
Web
爬虫
-如何构建访问的url集?
我已经在rabbitMQ上实现了一个分布
式
网络
爬虫
。除了访问的url集之外,一切几乎都完成了。我希望在不同的
爬虫
之间有某种共享的变量。在分布
式
环境中存储、访问和共享访问过的urls列表的最佳方法是什么?
浏览 6
提问于2017-04-29
得票数 0
2
回答
如何在AWS Glue Crawler中监视和控制DPU使用
在中,据说亚马逊
网络
服务默认为每个ETL任务分配10个DPU,每个开发端点默认分配5个DPU,即使两者都可以配置最少2个DPU。它还提到,爬行也是以秒为
增量
定价的,最小运行时间为10分钟,但没有指定分配了多少DPU。可以在Glue控制台中配置作业和开发端点以消耗更少的DPU,但我还没有看到
爬虫
程序有任何这样的配置。每个
爬虫
有固定数量的DPU吗?我们能控制这个数量吗?
浏览 0
提问于2018-03-08
得票数 9
1
回答
Postgres函数/存储过程中的条件锁定
我正在为一个
网络
爬虫
构建一个事件采购服务,其中有几个
爬虫
工人抓取几个网站,并试图为抓取的资源保留
增量
。我选择了PostgreSQL作为底层数据存储。最初,我使用一个表,利用事务的自动
增量
为每个“流”构建乐观锁定功能,但我很快发现,服务器可以处理的表数有一个文件系统上限。由于我不能再使用自动
增量
,因此我尝试使用两个表构建此功能,一个用于控制流的顺序,另一个用于存储事件本身。 我的第一个问题是,我应该使用存储过程还是函数。
浏览 2
修改于2020-05-12
得票数 2
1
回答
连接到多个TOR出口节点
我想开发一个使用TOR的分布
式
网络
爬虫
。我如何通过TOR实现20种不同的连接?我想用20个外部ips同时浏览网站。请用Python编写代码示例。
浏览 1
提问于2012-08-23
得票数 2
回答已采纳
1
回答
运行刮伤
式
网络
爬虫
时出错
import scrapy name = "example" start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/R
浏览 0
修改于2014-07-01
得票数 3
回答已采纳
1
回答
在HBase 0.90.6中推荐哪种Hadoop版本?
我没有其他选择,除了安装HBase 0.90.6,因为它只是推荐的稳定版本的纳奇(
网络
爬虫
),除了0.90.4。我的问题是,在HBase 0.90.6中推荐哪一个Hadoop版本才能在伪分布
式
模式下工作?
浏览 0
提问于2013-10-06
得票数 0
回答已采纳
1
回答
Python selenium屏幕捕获未获取整个页面
我正在尝试创建一个通用的
网络
爬虫
,将去一个网站,并采取屏幕截图。我使用的是Python、Selnium和PhantomJS。问题是屏幕截图没有捕捉到页面上的所有图像。(我没有足够高的代表来发布屏幕截图)我认为这可能与动态内容有关,但我已经尝试了等待函数,如隐
式
等待和on set_page_load_timeout方法。因为这是一个通用的
爬虫
,所以我不能等待特定的事件(我想抓取数百个站点)。 有没有可能创建一个通用的
网络
爬虫
来完成我正在尝试的屏幕截图?
浏览 4
修改于2014-10-06
得票数 3
3
回答
流式文件
增量
编码/解码
这就是问题所在--我想在服务器上生成一个二进制文件(大小>1MB)的
增量
,并通过HTTP将
增量
发送到内存受限( RAM低,没有动态内存)的嵌入
式
设备。Deltas是首选的(而不是从服务器发送完整的二进制文件),因为通过
网络
传输数据的成本很高。也许,与其问是否有合适的库存在,我还可以采取哪些替代方法来解决
浏览 1
修改于2017-03-10
得票数 4
2
回答
Glue Crawler可以抓取deltalake文件来创建aws胶水目录中的表吗?
我们有一个现有的基础设施,可以通过aws
爬虫
爬行S3目录。这些S3目录是作为AWS的一部分创建的,并通过spark作业转储。为了实现
增量
功能,我们在deltalake上做了一个POC。因此,当我通过星火三角洲作业在S3中编写这些deltalake文件时,我的
爬虫
程序无法从这些
爬虫
器中创建表。 我们能用AWS
爬虫
来抓取三角洲湖的文件吗?
浏览 5
提问于2020-09-05
得票数 2
回答已采纳
2
回答
爬虫
存储系统所需的建议
我计划用c++编写一个
网络
爬虫
,它每天爬行N个页面。主要的问题是我把存储系统搞糊涂了。所以我需要一个高效的分布
式
数据库来存储我抓取的数据。有没有人能给我推荐一个符合条件的db?
浏览 0
修改于2011-03-20
得票数 1
1
回答
用Java在分布
式
体系结构上实现Web
爬虫
朋友们,我用Java实现了一个多线程的
网络
爬虫
。为了使它更高效,我想将其转换为分布
式
架构,即在3台机器上。据我所知,主从架构是最好的。
浏览 0
提问于2013-02-26
得票数 0
2
回答
在网站和独立应用程序中使用Django框架
我计划为它写一个
网络
爬虫
和一个基于
网络
的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让
网络
爬虫
使用与网站相同的MySQL后端(而不是让
网络
爬虫
本身成为“网站”)。
浏览 1
修改于2013-03-14
得票数 1
回答已采纳
2
回答
检查页面是否为python中的HTML页面?
我正在尝试为
网络
爬虫
写一段python代码。我想检查我要抓取的页面是否是HTML页面,而不是像.pdf/.doc/.docx等那样的页面。我不想用扩展.html来检查它,因为asp、aspx或像这样的页面不会显
式
地.html扩展,但它们是.html页面。在python中有什么好的方法吗?
浏览 2
提问于2013-09-19
得票数 3
5
回答
有哪些好的基于Ruby的
网络
爬虫
?
我正在考虑写我自己的,但我想知道是否有好的
网络
爬虫
在那里是用Ruby编写的。 除了一个成熟的
网络
爬虫
,任何可能有助于构建
网络
爬虫
的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了,但是一个适用于构建
网络
爬虫
的宝石列表也是一个很好的资源。
浏览 2
提问于2011-02-13
得票数 21
回答已采纳
1
回答
Web Crawler的功能
网络
爬虫
是否只从网页中返回提取的文本?例如,如果web服务器中也存储了一些pdf/doc文件。
网络
爬虫
可以爬行它们并返回它们的内容吗?不管怎样,对于一个好的开源Java
网络
爬虫
有什么建议呢? 谢谢!
浏览 2
提问于2011-06-26
得票数 0
回答已采纳
5
回答
Googlebot是用哪种编程语言编写的(或任何其他高效的
网络
爬虫
)?
或者,更普遍的是,高效的
网络
爬虫
是用哪种语言编写的? 我见过很多Java语言,但在我看来,它不是最适合开发
网络
爬虫
的语言,因为它产生了太多的开销(尝试使用Heritrix
网络
爬虫
,它非常重)。
浏览 0
提问于2009-10-29
得票数 1
回答已采纳
2
回答
最适合用于图像爬行的开源、可扩展
爬虫
我们正处于一个项目的开始阶段,我们目前想知道哪个
爬虫
是我们最好的选择。基本上,我们要建立Hadoop和抓取
网络
上的图像。一些特殊问题:现在这些看起来是最好的三种选择-摘要: 我们需要从
网络
上获取
浏览 5
修改于2009-07-28
得票数 3
5
回答
如何使用Apache Nutch保存原始html文件
我是搜索引擎和
网络
爬虫
的新手。现在,我希望将特定网站中的所有原始页面存储为html文件,但使用Apache Nutch只能获得二进制数据库文件。如何使用Nutch获取原始html文件?(支持分布
式
爬行的工具更好。)
浏览 2
修改于2013-04-09
得票数 5
回答已采纳
2
回答
在MYSQL中删除非常非常相似的行
在PHPMYAdmin中,我正在运行一个
网络
爬虫
。
网络
爬虫
偶尔会拾取相同的urls。在
网络
爬虫
中,它已经索引了数千个链接,我不想要重复的链接。有没有办法在SQL中删除相似的行(唯一的区别是id字段)
浏览 1
提问于2012-08-17
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券