搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

木偶人爬行器大规模爬行

我们正在使用Puppeteer编写一个网络爬虫。我们写的木偶爬虫执行和爬行网站的网址没有问题的网页，如约1,500 - 5,000，但是，当我们执行的网站超过5,000，如果它在中间由于一些错误或崩溃而中断，那么它需要重新开始。如果出现任何错误，如何使基于Puppeteer的网络爬虫从爬行的最后状态恢复？在Puppeteer中有没有内置的函数？如何让这个木偶手无头的chrome web爬行通过一个队列系统？

浏览 14提问于2020-12-05得票数 2

4回答

HTML5语义标记在intranet应用程序中的用途是什么？

据我所知，HTML5语义标记的唯一真正优势是搜索引擎和web爬虫能够更好地解释文档。由于内部网应用程序与搜索引擎或网络爬虫无关，在HTML5中使用语义标记有哪些优点？

浏览 5修改于2017-06-08得票数 2

回答已采纳

1回答

每隔5分钟向作为POST请求参数传递的URL发送统计数据

我需要将爬虫统计信息发送到作为爬虫参数传递的URL。我需要每隔5分钟定期发送一次POST请求。我该怎么做呢？

浏览 0提问于2019-02-15得票数 0

1回答

在C#中添加延迟的最佳方法

我目前正在建立一个网络爬虫，并希望增加一个延迟的请求，这样我就不会击中网络服务器硬。另外，爬虫的适当延迟量是多少？我在想.5-1秒。谢谢

浏览 2提问于2013-03-28得票数 0

回答已采纳

1回答

如何阻止facebook爬虫导致CPU使用率过高

事实证明，爬虫以极高的速度访问我的网站，特别是Facebook。我试图将facebook爬虫的爬行延迟添加到robot.txt文件中，如下所示：Disallow:但我还是看到了高使用率的尖峰。这是由于错误的代码，还是有更好的方法来完全停止爬虫使用我的服务器的资源这么多？任何帮助都是非常感谢的。

浏览 0提问于2018-05-02得票数 1

回答已采纳

0回答

PyQt5制作雪球网股票数据爬虫工具，源码谁有？

qt、爬虫

PyQt5制作雪球网股票数据爬虫工具，源码谁有

浏览 197提问于2022-06-26

1回答

用Mongodb检查小爬虫中URL的存在

我使用MongoDB在一个小型爬虫中索引URL。我的爬虫中最大的URL数量大约是5亿个URL。

浏览 3修改于2015-02-02得票数 0

4回答

PHP警告: exec()无法分叉

我有爬虫脚本，运行从每个网站抓取产品。由于每个网站是不同的，每个爬虫脚本必须定制，以抓取特定的零售商网站。所以基本上每个零售商我有一个爬虫。在这个时候，我有21个爬虫不断运行，以收集和更新这些网站的产品。不过，最近我将检查爬虫脚本，并注意到其中一个脚本不再运行，在错误日志中我发现了以下内容。，然而，因为它是“无法叉”，它从来没有重新启动和最初的实例的爬虫结束，它通常这样做。显然，这不是一个权限问题，因为这21个爬虫脚本在运行结束时每5或10分钟运行一次

浏览 7提问于2013-12-18得票数 13

回答已采纳

2回答

使用wget抓取网站并限制抓取的链接总数

我想通过使用wget工具来学习更多关于爬虫的知识。我有兴趣爬行我的部门的网站，并找到该网站上的前100个链接。到目前为止，下面的命令就是我所拥有的。如何限制爬虫在100个链接后停止？wget -r -o output.txt -l 0 -t 1 --spider -w 5 -A html -e robots=on "http://www.example.com"

浏览 0修改于2011-02-12得票数 3

回答已采纳

1回答

aws crawler不创建awsdatacatalog

在使用aws爬虫之后，当我查询雅典娜时，我得到了以下错误...SYNTAX_ERROR:第1:15行:表awsdatacatalog.datahub2.datahub2不存在标签上次更新Mon 5月20日15:07:07 GMT+100 2019创建日期Mon 5月20日15:07:07在2周前，这个爬虫创建了一个

浏览 1提问于2019-05-20得票数 0

1回答

PuppeteerCrawler:面向多个用户的登录和抓取

我必须登录每个用户到系统和刮5页，然后注销，并继续与下一个用户。我正在从扩展这个示例，并在Apify云中运行它。登录后，要刮掉的相关5页将排队。

浏览 0修改于2019-09-07得票数 0

1回答

向远程MySQL提供数据的模式

我有一个“无所不包”的服务器，它是were服务器，mysql，爬虫服务器。由于使用监视工具的两三周时间，我发现当我的爬虫运行时，我的平均负载总是超过5(一个4核心服务器，可以一直使用到4.00作为负载)。所以，我有另一台服务器，我想把我的爬虫移到那里。我的问题是。一旦我在我的爬虫服务器中爬行数据，我必须插入我的数据库。我不想打开远程连接并将其插入数据库中，因为我更喜欢使用Rails框架，顺便说一句，我使用rails，以便更容易地创建所有关系，等等。想法：将csv从爬虫移除到删除服务器(

浏览 2提问于2011-05-01得票数 0

2回答

如何获取glue爬虫事件状态？

我手动触发了爬虫，但在爬虫完成后，它不会触发lambda。从爬虫日志中，我可以看到：[6c8450a5-970a-4190-bd2b-829a82d67fdf] INFO : Table redditmovies_bb008c32d0d970f0465f47490123f749in database video has been updated with new schema04:36:30 [6c8450a5-970a-4190-bd2b-829a82d67fdf]BENCHM

浏览 0修改于2019-07-29得票数 0

1回答

StormCrawler可以抓取文件系统而不是URL吗？

我们有需要爬行和索引(使用ElasticSearch). )的5+百万文件索引需要每天更新或更频繁地更新。其他爬虫需要花费50+小时来抓取完整的文件集。这使得更新周期太慢。例如，如果您需要每天更新搜索索引，或者更频繁地更新搜索索引，则其他爬虫是不可能的。

浏览 5修改于2020-02-06得票数 0

1回答

AWS胶爬行器.输入文件中列的顺序

因此，在这些文件之上运行Glue爬虫，这些文件被注册为Glue目录中的一个表，我可以通过雅典娜查询该表。分区-1:在s3中加载csv文件，csv文件有5列分区2:在s3中加载csv文件，csv文件具有与上面相同的5列，但与(1) 的顺序不同。胶中列的顺序重要吗？

浏览 3修改于2020-03-30得票数 0

回答已采纳

1回答

爬虫和爬虫架构

当我遇到这个设计问题时，我一直在用php构建一个刮板和爬虫。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在爬虫爬行时抓取任务的系统之间的权衡。

浏览 4修改于2012-04-16得票数 2

回答已采纳

1回答

HTML流的SEO/爬行性影响

随着HTML流(例如反应18流)的兴起，我想知道爬虫是如何处理HTML的。谷歌爬虫是如何处理这个问题的？谷歌确实提到了流这里，但它没有说明谷歌爬虫如何处理HTML。其他爬虫(DuckDuckGo，Bing，Facebook，Twitter等)怎么样？我假设爬虫会等到HTML流结束时，这个假设安全吗？

浏览 0提问于2021-07-27得票数 7

1回答

ruby on rails如何杀死resque工作人员

我在resque队列中运行爬虫程序。它是一个爬虫程序，将信息提取到数据库中...我想阻止它..。然后，我使用以下命令在服务器中启动控制台：=> "09ec127d-bb90-4629-a6f2-bb2610885ab5:62:*" irb(main):003:0> Resque.remove_worker("09ec127d-bb90-4629-a6f2-bb2610885ab5:62:*"

浏览 0提问于2013-04-12得票数 0

4回答

如何停止云主机上的爬虫？

云服务器

我在云主机上运行了一个scrapy爬虫，这个爬虫可以一直运行，假如我没有停止爬虫就和主机断开了连接，是不是除了关机就没有办法停止爬虫了？

浏览 535提问于2018-01-27

1回答

Java -线程优先和套接字

我正在开发一个网络爬虫。程序的每个线程尝试读取3主机/秒(330 of连接和读取超时)。每个线程的优先级为10 (Ubuntu12.04)。当我设置10个线程时，爬虫将返回150个活动主机(主机没有超时)。当我设置400个线程时，爬虫只返回20个活着的主机。我不知道到底有多少个主机还活着或存在。我使用的是一个ubuntu12.04 x64 -桌面，4GB内存，CPU i5

浏览 4提问于2015-02-12得票数 0

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

木偶人爬行器大规模爬行

HTML5语义标记在intranet应用程序中的用途是什么？

每隔5分钟向作为POST请求参数传递的URL发送统计数据

在C#中添加延迟的最佳方法

如何阻止facebook爬虫导致CPU使用率过高

PyQt5制作雪球网股票数据爬虫工具，源码谁有？

用Mongodb检查小爬虫中URL的存在

PHP警告: exec()无法分叉

使用wget抓取网站并限制抓取的链接总数

aws crawler不创建awsdatacatalog

PuppeteerCrawler:面向多个用户的登录和抓取

向远程MySQL提供数据的模式

如何获取glue爬虫事件状态？

StormCrawler可以抓取文件系统而不是URL吗？

AWS胶爬行器.输入文件中列的顺序

爬虫和爬虫架构

HTML流的SEO/爬行性影响

ruby on rails如何杀死resque工作人员

如何停止云主机上的爬虫？

Java -线程优先和套接字

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐