腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
有没有办法在python中抓取网页,让
爬虫
只抓取新的链接。
我有一个
爬虫
代码,从一个网站获得所有的链接,需要
2-3
个小时来获得大约30000个链接,并在数据库中存储。如果下次运行
爬虫
程序时,我只想插入新的链接,该怎么办?我知道我可以在插入数据库之前做一个过滤器,但我希望
爬虫
只抓取新的链接,而不是再次抓取旧链接(基本上是整个网站)。有没有可能做这样的事情?
浏览 1
提问于2018-04-18
得票数 0
1
回答
如何在Google上爬行
我的计划是我的网络
爬虫
google.com/robots.txtDisallow: /search我的新计划我的网络
爬虫
会 打开谷歌、
浏览 3
提问于2017-09-15
得票数 0
6
回答
具有独立实例的.NET自定义线程池
我需要一个无限的队列大小(建立一个
爬虫
),并需要运行我正在爬行的每个网站在并行单独的线程池。(不超过
2-3
个) 谢谢罗伊
浏览 0
修改于2009-07-21
得票数 12
2
回答
做一个好公民,抓取网络
这些记录从起始页往下埋了
2-3
层。所以基本上我让
爬虫
从某个页面开始,爬行直到它找到特定类型的记录,然后解析html。我想知道的是,有什么方法可以防止我的爬行器使站点过载?其次,与之相关的是,有没有一种使用Scrapy的方法可以在不对网站施加过多压力的情况下测试
爬虫
?我知道你可以在程序运行的时候杀死它,但是有没有办法让脚本在遇到像第一页这样的页面时停止呢?
浏览 0
提问于2011-12-17
得票数 6
回答已采纳
1
回答
这是拉拉贡/ Laravel 8中的一个BUG吗?-2个或更多项目试图在彼此的数据库中查找表。
爬虫
是一个爬行过程,分析网页的网站,我也指出它。因为这是循环的,如果我访问集线器上的页面,下次当
爬虫
进程加载时,它会尝试连接到core.pages表。中心正在运行:LaravelFramework8.77.1我从来没有在终端上运行任何命令来切换数据库。只刷新浏览器。两者都在运行8.1.2 只是要详细说明-这不仅限于这些项目,我有相当多,并在测试与另一个
2-3
,同样的事情发生。任何帮助解决我的问题将不胜感激,因为我经常是在
2-3
个项目在同一时间工作。
浏览 1
提问于2022-03-22
得票数 1
回答已采纳
1
回答
如何在非常大的数据集上训练Word2vec?
我正在考虑在web
爬虫
转储上训练10 TB+以上的大型数据的TB+。我需要使用分布式模型,还是需要在
2-3
天内使用哪种类型的硬件?我有8gb内存的iMac。 我看到word2vec实现不支持GPU培训。
浏览 1
修改于2015-06-02
得票数 20
回答已采纳
1
回答
为什么D2010调试器会使某些事情变得慢得多?
我尝试直接从Windows运行它,这次只用了
2-3
秒,这是我所期望的。 那么,当Delphi调试器连接到它时,为什么完全相同的EXE处理数字的速度要慢25倍以上呢?这并不像计算条件断点那样明显。似乎仅仅是调试器的存在就让它慢得像
爬虫
一样。有人知道为什么吗?
浏览 0
提问于2010-03-16
得票数 2
回答已采纳
3
回答
如何以最有效的方式编写和组织代码?
几周前,我需要一个
爬虫
来收集和整理数据,所以我开始学习python。同一天,我写了一个简单的
爬虫
,但代码看起来丑陋得要死。主要是因为我不知道如何做某些事情,也不知道如何正确地搜索它们。启动机器人大约需要
2-3
秒(如果这是正常的,我想我写得越多,启动它需要的时间就越长,这让我认为代码是垃圾)。它有时起作用,有时不起作用。 我的问题是 我怎么知道我写的是不是好东西?
浏览 47
修改于2021-03-02
得票数 0
回答已采纳
3
回答
最好的网络图形
爬虫
的速度?
在
2-3
天内,我只能拉下100,000页。我已经开始关注Nutch和,希望能有更好的性能。我正在寻找一个
爬虫
,是快速的,并采用了许多并行请求。
浏览 0
修改于2014-04-15
得票数 5
回答已采纳
1
回答
为什么php脚本会停止?
这是一个网站
爬虫
,它必须礼貌和睡眠5秒每页,以防止服务器超载。输出每
2-3
秒发送到浏览器,所以我不认为这是我忽略用户中止的错误。 还有别的地方可以查到吗?
浏览 3
提问于2012-08-30
得票数 2
1
回答
爬虫
和
爬虫
架构
当我遇到这个设计问题时,我一直在用php构建一个刮板和
爬虫
。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在
爬虫
爬行时抓取任务的系统之间的权衡。
浏览 4
修改于2012-04-16
得票数 2
回答已采纳
1
回答
HTML流的SEO/爬行性影响
随着HTML流(例如反应18流)的兴起,我想知道
爬虫
是如何处理HTML的。谷歌
爬虫
是如何处理这个问题的?谷歌确实提到了流这里,但它没有说明谷歌
爬虫
如何处理HTML。 其他
爬虫
(DuckDuckGo,Bing,Facebook,Twitter等)怎么样?我假设
爬虫
会等到HTML流结束时,这个假设安全吗?
浏览 0
提问于2021-07-27
得票数 7
4
回答
如何停止云主机上的
爬虫
?
云服务器
我在云主机上运行了一个scrapy
爬虫
,这个
爬虫
可以一直运行,假如我没有停止
爬虫
就和主机断开了连接,是不是除了关机就没有办法停止
爬虫
了?
浏览 537
提问于2018-01-27
1
回答
如何在docker中使用此文件?
我想使用
爬虫
实验室仪表板与我的
爬虫
代码。
爬虫
实验室是
爬虫
仪表板。链接为 我要安装(?)docker(?)中的chromedriver。
浏览 44
提问于2021-03-11
得票数 0
2
回答
如何将新的URL传递给Scrapy Crawler
我想让一个抓取
爬虫
在芹菜任务工人内部不断运行,可能使用。或者,正如所建议的,这个想法是使用
爬虫
程序来查询返回XML响应的外部API。一旦
爬虫
程序开始运行,我如何将我想要获取的这个新URL传递给
爬虫
程序。我不想在每次想要给
爬虫
一个新的URL时都重新启动
爬虫
,而是希望
爬虫
无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行
爬虫
程序。我不希望每次我想要抓取一个URL时,都必须派生和拆卸一个新的进程,因为这
浏览 0
修改于2017-05-23
得票数 2
2
回答
基于PHP的Web
爬虫
或基于JAVA的Web
爬虫
我对基于PHP的网络
爬虫
有些怀疑,它能像基于java线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于PHP的
爬虫
还是基于Java的
爬虫
浏览 1
修改于2012-12-25
得票数 0
回答已采纳
1
回答
如何阻止Web
爬虫
下载文件
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个PHP脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是nginx和drupal CMS。如果这能帮上忙的话就给我
浏览 0
提问于2013-07-27
得票数 1
1
回答
是否可以使用Googlebot的用户代理令牌来检测它,而不是使用完整的用户代理字符串?
来自:User代理令牌在robots.txt中的用户代理:行中使用,以便在为站点编写爬行规则时匹配
爬虫
类型。有些
爬虫
有多个令牌,如表中所示;要应用规则,只需匹配一个
爬虫
令牌即可。此列表尚未完成,但涵盖了您可能在website.Full用户代理上看到的大多数
爬虫
字符串是对
爬虫
的完整描述,并显示在请求和web日志中。从上面的节选中我们可以看到,可以在robots.txt文件中使用用户代理令牌进行匹配,从而检测
爬虫</
浏览 3
修改于2019-11-01
得票数 0
回答已采纳
2
回答
对于蟒蛇
爬虫
,我应该使用无限循环还是cron作业?
我用python编写了一个
爬虫
,它可以访问60多个网站,解析HTML,并将数据保存到数据库。哪一个更有效率?无限循环还是cron作业?
浏览 7
提问于2021-05-14
得票数 0
1
回答
在多台计算机上运行crawler4j
我正在尝试使用实现一个
爬虫
。一切都很好直到: 是否可以: 防止根数据文件夹锁定。(因此,我可以同时运行多个
爬虫
副本。)
浏览 3
修改于2014-05-11
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券