腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
木偶人爬行器大规模爬行
我们正在使用Puppeteer编写一个网络
爬虫
。我们写的木偶
爬虫
执行和爬行网站的网址没有问题的网页,如约1,500 -
5
,000,但是,当我们执行的网站超过
5
,000,如果它在中间由于一些错误或崩溃而中断,那么它需要重新开始。如果出现任何错误,如何使基于Puppeteer的网络
爬虫
从爬行的最后状态恢复?在Puppeteer中有没有内置的函数?如何让这个木偶手无头的chrome web爬行通过一个队列系统?
浏览 14
提问于2020-12-05
得票数 2
4
回答
HTML
5
语义标记在intranet应用程序中的用途是什么?
据我所知,HTML
5
语义标记的唯一真正优势是搜索引擎和web
爬虫
能够更好地解释文档。 由于内部网应用程序与搜索引擎或网络
爬虫
无关,在HTML
5
中使用语义标记有哪些优点?
浏览 5
修改于2017-06-08
得票数 2
回答已采纳
1
回答
每隔
5
分钟向作为POST请求参数传递的URL发送统计数据
我需要将
爬虫
统计信息发送到作为
爬虫
参数传递的URL。我需要每隔
5
分钟定期发送一次POST请求。我该怎么做呢?
浏览 0
提问于2019-02-15
得票数 0
1
回答
在C#中添加延迟的最佳方法
我目前正在建立一个网络
爬虫
,并希望增加一个延迟的请求,这样我就不会击中网络服务器硬。另外,
爬虫
的适当延迟量是多少?我在想.
5
-1秒。 谢谢
浏览 2
提问于2013-03-28
得票数 0
回答已采纳
1
回答
如何阻止facebook
爬虫
导致CPU使用率过高
事实证明,
爬虫
以极高的速度访问我的网站,特别是Facebook。我试图将facebook
爬虫
的爬行延迟添加到robot.txt文件中,如下所示:Disallow:但我还是看到了高使用率的尖峰。这是由于错误的代码,还是有更好的方法来完全停止
爬虫
使用我的服务器的资源这么多? 任何帮助都是非常感谢的。
浏览 0
提问于2018-05-02
得票数 1
回答已采纳
0
回答
PyQt
5
制作雪球网股票数据
爬虫
工具,源码谁有?
qt
、
爬虫
PyQt
5
制作雪球网股票数据
爬虫
工具,源码谁有
浏览 197
提问于2022-06-26
1
回答
用Mongodb检查小
爬虫
中URL的存在
我使用MongoDB在一个小型
爬虫
中索引URL。我的
爬虫
中最大的URL数量大约是
5
亿个URL。
浏览 3
修改于2015-02-02
得票数 0
4
回答
PHP警告: exec()无法分叉
我有
爬虫
脚本,运行从每个网站抓取产品。由于每个网站是不同的,每个
爬虫
脚本必须定制,以抓取特定的零售商网站。所以基本上每个零售商我有一个
爬虫
。在这个时候,我有21个
爬虫
不断运行,以收集和更新这些网站的产品。不过,最近我将检查
爬虫
脚本,并注意到其中一个脚本不再运行,在错误日志中我发现了以下内容。,然而,因为它是“无法叉”,它从来没有重新启动和最初的实例的
爬虫
结束,它通常这样做。显然,这不是一个权限问题,因为这21个
爬虫
脚本在运行结束时每
5
或10分钟运行一次
浏览 7
提问于2013-12-18
得票数 13
回答已采纳
2
回答
使用wget抓取网站并限制抓取的链接总数
我想通过使用wget工具来学习更多关于
爬虫
的知识。我有兴趣爬行我的部门的网站,并找到该网站上的前100个链接。到目前为止,下面的命令就是我所拥有的。如何限制
爬虫
在100个链接后停止?wget -r -o output.txt -l 0 -t 1 --spider -w
5
-A html -e robots=on "http://www.example.com"
浏览 0
修改于2011-02-12
得票数 3
回答已采纳
1
回答
aws crawler不创建awsdatacatalog
在使用aws
爬虫
之后,当我查询雅典娜时,我得到了以下错误...SYNTAX_ERROR:第1:15行:表awsdatacatalog.datahub2.datahub2不存在标签上次更新Mon
5
月20日15:07:07 GMT+100 2019创建日期Mon
5
月20日15:07:07在2周前,这个
爬虫
创建了一个
浏览 1
提问于2019-05-20
得票数 0
1
回答
PuppeteerCrawler:面向多个用户的登录和抓取
我必须登录每个用户到系统和刮
5
页,然后注销,并继续与下一个用户。我正在从扩展这个示例,并在Apify云中运行它。登录后,要刮掉的相关
5
页将排队。
浏览 0
修改于2019-09-07
得票数 0
1
回答
向远程MySQL提供数据的模式
我有一个“无所不包”的服务器,它是were服务器,mysql,
爬虫
服务器。由于使用监视工具的两三周时间,我发现当我的
爬虫
运行时,我的平均负载总是超过
5
(一个4核心服务器,可以一直使用到4.00作为负载)。所以,我有另一台服务器,我想把我的
爬虫
移到那里。我的问题是。一旦我在我的
爬虫
服务器中爬行数据,我必须插入我的数据库。我不想打开远程连接并将其插入数据库中,因为我更喜欢使用Rails框架,顺便说一句,我使用rails,以便更容易地创建所有关系,等等。想法: 将csv从
爬虫
移除到删除服务器(
浏览 2
提问于2011-05-01
得票数 0
2
回答
如何获取glue
爬虫
事件状态?
我手动触发了
爬虫
,但在
爬虫
完成后,它不会触发lambda。从
爬虫
日志中,我可以看到:[6c8450a
5
-970a-4190-bd2b-829a82d67fdf] INFO : Table redditmovies_bb008c32d0d970f0465f47490123f749in database video has been updated with new schema04:36:30 [6c8450a
5
-970a-4190-bd2b-829a82d67fdf]BENCHM
浏览 0
修改于2019-07-29
得票数 0
1
回答
StormCrawler可以抓取文件系统而不是URL吗?
我们有需要爬行和索引(使用ElasticSearch). )的
5
+百万文件索引需要每天更新或更频繁地更新。其他
爬虫
需要花费50+小时来抓取完整的文件集。这使得更新周期太慢。例如,如果您需要每天更新搜索索引,或者更频繁地更新搜索索引,则其他
爬虫
是不可能的。
浏览 5
修改于2020-02-06
得票数 0
1
回答
AWS胶爬行器.输入文件中列的顺序
因此,在这些文件之上运行Glue
爬虫
,这些文件被注册为Glue目录中的一个表,我可以通过雅典娜查询该表。分区-1:在s3中加载csv文件,csv文件有
5
列分区2:在s3中加载csv文件,csv文件具有与上面相同的
5
列,但与(1) 的顺序不同。胶中列的顺序重要吗?
浏览 3
修改于2020-03-30
得票数 0
回答已采纳
1
回答
爬虫
和
爬虫
架构
当我遇到这个设计问题时,我一直在用php构建一个刮板和
爬虫
。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在
爬虫
爬行时抓取任务的系统之间的权衡。
浏览 4
修改于2012-04-16
得票数 2
回答已采纳
1
回答
HTML流的SEO/爬行性影响
随着HTML流(例如反应18流)的兴起,我想知道
爬虫
是如何处理HTML的。谷歌
爬虫
是如何处理这个问题的?谷歌确实提到了流这里,但它没有说明谷歌
爬虫
如何处理HTML。 其他
爬虫
(DuckDuckGo,Bing,Facebook,Twitter等)怎么样?我假设
爬虫
会等到HTML流结束时,这个假设安全吗?
浏览 0
提问于2021-07-27
得票数 7
1
回答
ruby on rails如何杀死resque工作人员
我在resque队列中运行
爬虫
程序。它是一个
爬虫
程序,将信息提取到数据库中...我想阻止它..。然后,我使用以下命令在服务器中启动控制台:=> "09ec127d-bb90-4629-a6f2-bb2610885ab
5
:62:*" irb(main):003:0> Resque.remove_worker("09ec127d-bb90-4629-a6f2-bb2610885ab
5
:62:*"
浏览 0
提问于2013-04-12
得票数 0
4
回答
如何停止云主机上的
爬虫
?
云服务器
我在云主机上运行了一个scrapy
爬虫
,这个
爬虫
可以一直运行,假如我没有停止
爬虫
就和主机断开了连接,是不是除了关机就没有办法停止
爬虫
了?
浏览 535
提问于2018-01-27
1
回答
Java -线程优先和套接字
我正在开发一个网络
爬虫
。程序的每个线程尝试读取3主机/秒(330 of连接和读取超时)。每个线程的优先级为10 (Ubuntu12.04)。当我设置10个线程时,
爬虫
将返回150个活动主机(主机没有超时)。 当我设置400个线程时,
爬虫
只返回20个活着的主机。我不知道到底有多少个主机还活着或存在。我使用的是一个ubuntu12.04 x64 -桌面,4GB内存,CPU i
5
浏览 4
提问于2015-02-12
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券