搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

有没有办法在python中抓取网页，让爬虫只抓取新的链接。

我有一个爬虫代码，从一个网站获得所有的链接，需要2-3个小时来获得大约30000个链接，并在数据库中存储。如果下次运行爬虫程序时，我只想插入新的链接，该怎么办？我知道我可以在插入数据库之前做一个过滤器，但我希望爬虫只抓取新的链接，而不是再次抓取旧链接(基本上是整个网站)。有没有可能做这样的事情？

浏览 1提问于2018-04-18得票数 0

1回答

如何在Google上爬行

我的计划是我的网络爬虫 google.com/robots.txtDisallow: /search我的新计划我的网络爬虫会打开谷歌、

浏览 3提问于2017-09-15得票数 0

6回答

具有独立实例的.NET自定义线程池

我需要一个无限的队列大小(建立一个爬虫)，并需要运行我正在爬行的每个网站在并行单独的线程池。(不超过2-3个) 谢谢罗伊

浏览 0修改于2009-07-21得票数 12

2回答

做一个好公民，抓取网络

这些记录从起始页往下埋了2-3层。所以基本上我让爬虫从某个页面开始，爬行直到它找到特定类型的记录，然后解析html。我想知道的是，有什么方法可以防止我的爬行器使站点过载？其次，与之相关的是，有没有一种使用Scrapy的方法可以在不对网站施加过多压力的情况下测试爬虫？我知道你可以在程序运行的时候杀死它，但是有没有办法让脚本在遇到像第一页这样的页面时停止呢？

浏览 0提问于2011-12-17得票数 6

回答已采纳

1回答

这是拉拉贡/ Laravel 8中的一个BUG吗？-2个或更多项目试图在彼此的数据库中查找表。

爬虫是一个爬行过程，分析网页的网站，我也指出它。因为这是循环的，如果我访问集线器上的页面，下次当爬虫进程加载时，它会尝试连接到core.pages表。中心正在运行:LaravelFramework8.77.1我从来没有在终端上运行任何命令来切换数据库。只刷新浏览器。两者都在运行8.1.2 只是要详细说明-这不仅限于这些项目，我有相当多，并在测试与另一个2-3，同样的事情发生。任何帮助解决我的问题将不胜感激，因为我经常是在2-3个项目在同一时间工作。

浏览 1提问于2022-03-22得票数 1

回答已采纳

1回答

如何在非常大的数据集上训练Word2vec？

我正在考虑在web爬虫转储上训练10 TB+以上的大型数据的TB+。我需要使用分布式模型，还是需要在2-3天内使用哪种类型的硬件？我有8gb内存的iMac。我看到word2vec实现不支持GPU培训。

浏览 1修改于2015-06-02得票数 20

回答已采纳

1回答

为什么D2010调试器会使某些事情变得慢得多？

我尝试直接从Windows运行它，这次只用了2-3秒，这是我所期望的。那么，当Delphi调试器连接到它时，为什么完全相同的EXE处理数字的速度要慢25倍以上呢？这并不像计算条件断点那样明显。似乎仅仅是调试器的存在就让它慢得像爬虫一样。有人知道为什么吗？

浏览 0提问于2010-03-16得票数 2

回答已采纳

3回答

如何以最有效的方式编写和组织代码？

几周前，我需要一个爬虫来收集和整理数据，所以我开始学习python。同一天，我写了一个简单的爬虫，但代码看起来丑陋得要死。主要是因为我不知道如何做某些事情，也不知道如何正确地搜索它们。启动机器人大约需要2-3秒(如果这是正常的，我想我写得越多，启动它需要的时间就越长，这让我认为代码是垃圾)。它有时起作用，有时不起作用。我的问题是我怎么知道我写的是不是好东西？

浏览 47修改于2021-03-02得票数 0

回答已采纳

3回答

最好的网络图形爬虫的速度？

在2-3天内，我只能拉下100,000页。我已经开始关注Nutch和，希望能有更好的性能。我正在寻找一个爬虫，是快速的，并采用了许多并行请求。

浏览 0修改于2014-04-15得票数 5

回答已采纳

1回答

为什么php脚本会停止？

这是一个网站爬虫，它必须礼貌和睡眠5秒每页，以防止服务器超载。输出每2-3秒发送到浏览器，所以我不认为这是我忽略用户中止的错误。还有别的地方可以查到吗？

浏览 3提问于2012-08-30得票数 2

1回答

爬虫和爬虫架构

当我遇到这个设计问题时，我一直在用php构建一个刮板和爬虫。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在爬虫爬行时抓取任务的系统之间的权衡。

浏览 4修改于2012-04-16得票数 2

回答已采纳

1回答

HTML流的SEO/爬行性影响

随着HTML流(例如反应18流)的兴起，我想知道爬虫是如何处理HTML的。谷歌爬虫是如何处理这个问题的？谷歌确实提到了流这里，但它没有说明谷歌爬虫如何处理HTML。其他爬虫(DuckDuckGo，Bing，Facebook，Twitter等)怎么样？我假设爬虫会等到HTML流结束时，这个假设安全吗？

浏览 0提问于2021-07-27得票数 7

4回答

如何停止云主机上的爬虫？

云服务器

我在云主机上运行了一个scrapy爬虫，这个爬虫可以一直运行，假如我没有停止爬虫就和主机断开了连接，是不是除了关机就没有办法停止爬虫了？

浏览 537提问于2018-01-27

1回答

如何在docker中使用此文件？

我想使用爬虫实验室仪表板与我的爬虫代码。爬虫实验室是爬虫仪表板。链接为我要安装(？)docker(?)中的chromedriver。

浏览 44提问于2021-03-11得票数 0

2回答

如何将新的URL传递给Scrapy Crawler

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，而是希望爬虫无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时，都必须派生和拆卸一个新的进程，因为这

浏览 0修改于2017-05-23得票数 2

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1修改于2012-12-25得票数 0

回答已采纳

1回答

如何阻止Web爬虫下载文件

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说一下，我用的是nginx和drupal CMS。如果这能帮上忙的话就给我

浏览 0提问于2013-07-27得票数 1

1回答

是否可以使用Googlebot的用户代理令牌来检测它，而不是使用完整的用户代理字符串？

来自：User代理令牌在robots.txt中的用户代理:行中使用，以便在为站点编写爬行规则时匹配爬虫类型。有些爬虫有多个令牌，如表中所示；要应用规则，只需匹配一个爬虫令牌即可。此列表尚未完成，但涵盖了您可能在website.Full用户代理上看到的大多数爬虫字符串是对爬虫的完整描述，并显示在请求和web日志中。从上面的节选中我们可以看到，可以在robots.txt文件中使用用户代理令牌进行匹配，从而检测爬虫</

浏览 3修改于2019-11-01得票数 0

回答已采纳

2回答

对于蟒蛇爬虫，我应该使用无限循环还是cron作业？

我用python编写了一个爬虫，它可以访问60多个网站，解析HTML，并将数据保存到数据库。哪一个更有效率？无限循环还是cron作业？

浏览 7提问于2021-05-14得票数 0

1回答

在多台计算机上运行crawler4j

我正在尝试使用实现一个爬虫。一切都很好直到：是否可以：防止根数据文件夹锁定。(因此，我可以同时运行多个爬虫副本。)

浏览 3修改于2014-05-11得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

有没有办法在python中抓取网页，让爬虫只抓取新的链接。

如何在Google上爬行

具有独立实例的.NET自定义线程池

做一个好公民，抓取网络

这是拉拉贡/ Laravel 8中的一个BUG吗？-2个或更多项目试图在彼此的数据库中查找表。

如何在非常大的数据集上训练Word2vec？

为什么D2010调试器会使某些事情变得慢得多？

如何以最有效的方式编写和组织代码？

最好的网络图形爬虫的速度？

为什么php脚本会停止？

爬虫和爬虫架构

HTML流的SEO/爬行性影响

如何停止云主机上的爬虫？

如何在docker中使用此文件？

如何将新的URL传递给Scrapy Crawler

基于PHP的Web爬虫或基于JAVA的Web爬虫

如何阻止Web爬虫下载文件

是否可以使用Googlebot的用户代理令牌来检测它，而不是使用完整的用户代理字符串？

对于蟒蛇爬虫，我应该使用无限循环还是cron作业？

在多台计算机上运行crawler4j

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐