腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(8824)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
爬虫
和
爬虫
架构
当我遇到这个设计问题时,我一直在用php构建一个刮板和
爬虫
。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在
爬虫
爬行时抓取任务的系统之间的权衡。
浏览 4
修改于2012-04-16
得票数 2
回答已采纳
1
回答
HTML流的SEO/爬行性影响
随着HTML流(例如反应18流)的兴起,我想知道
爬虫
是如何处理HTML的。谷歌
爬虫
是如何处理这个问题的?谷歌确实提到了流这里,但它没有说明谷歌
爬虫
如何处理HTML。 其他
爬虫
(DuckDuckGo,Bing,Facebook,Twitter等)怎么样?我假设
爬虫
会等到HTML流结束时,这个假设安全吗?
浏览 0
提问于2021-07-27
得票数 7
4
回答
如何停止云主机上的
爬虫
?
云服务器
我在云主机上运行了一个scrapy
爬虫
,这个
爬虫
可以一直运行,假如我没有停止
爬虫
就和主机断开了连接,是不是除了关机就没有办法停止
爬虫
了?
浏览 494
提问于2018-01-27
1
回答
如何在docker中使用此文件?
我想使用
爬虫
实验室仪表板与我的
爬虫
代码。
爬虫
实验室是
爬虫
仪表板。链接为 我要安装(?)docker(?)中的chromedriver。
浏览 44
提问于2021-03-11
得票数 0
2
回答
如何将新的URL传递给Scrapy Crawler
我想让一个抓取
爬虫
在芹菜任务工人内部不断运行,可能使用。或者,正如所建议的,这个想法是使用
爬虫
程序来查询返回XML响应的外部API。一旦
爬虫
程序开始运行,我如何将我想要获取的这个新URL传递给
爬虫
程序。我不想在每次想要给
爬虫
一个新的URL时都重新启动
爬虫
,而是希望
爬虫
无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行
爬虫
程序。我不希望每次我想要抓取一个URL时,都必须派生和拆卸一个新的进程,因为这
浏览 0
修改于2017-05-23
得票数 2
2
回答
基于PHP的Web
爬虫
或基于JAVA的Web
爬虫
我对基于PHP的网络
爬虫
有些怀疑,它能像基于java线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于PHP的
爬虫
还是基于Java的
爬虫
浏览 1
修改于2012-12-25
得票数 0
回答已采纳
1
回答
如何阻止Web
爬虫
下载文件
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个PHP脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是nginx和drupal CMS。如果这能帮上忙的话就给我
浏览 0
提问于2013-07-27
得票数 1
1
回答
是否可以使用Googlebot的用户代理令牌来检测它,而不是使用完整的用户代理字符串?
来自:User代理令牌在robots.txt中的用户代理:行中使用,以便在为站点编写爬行规则时匹配
爬虫
类型。有些
爬虫
有多个令牌,如表中所示;要应用规则,只需匹配一个
爬虫
令牌即可。此列表尚未完成,但涵盖了您可能在website.Full用户代理上看到的大多数
爬虫
字符串是对
爬虫
的完整描述,并显示在请求和web日志中。从上面的节选中我们可以看到,可以在robots.txt文件中使用用户代理令牌进行匹配,从而检测
爬虫</
浏览 3
修改于2019-11-01
得票数 0
回答已采纳
1
回答
在多台计算机上运行crawler4j
我正在尝试使用实现一个
爬虫
。一切都很好直到: 是否可以: 防止根数据文件夹锁定。(因此,我可以同时运行多个
爬虫
副本。)
浏览 3
修改于2014-05-11
得票数 0
2
回答
对于蟒蛇
爬虫
,我应该使用无限循环还是cron作业?
我用python编写了一个
爬虫
,它可以访问60多个网站,解析HTML,并将数据保存到数据库。哪一个更有效率?无限循环还是cron作业?
浏览 7
提问于2021-05-14
得票数 0
1
回答
有没有免费的php
爬虫
?
过去我用过自己的
爬虫
,但现在我需要更健壮的
爬虫
,我想知道有没有什么好的免费的php
爬虫
?
浏览 0
提问于2010-11-21
得票数 3
2
回答
爬行时管理URL的常见方法是什么?
我正在尝试编写一个网络
爬虫
程序,但现在我想知道:存储所有urls的最佳方法是什么,这样
爬虫
就可以一起工作,但不会干扰。 将所有已找到的URL保存在由所有Queue实例共享的PriorityQueue如果数据库最终是一致的,我如何防止多个
爬虫
获得相同的URL两次
浏览 5
提问于2011-12-28
得票数 0
回答已采纳
1
回答
爬行url \如何在node.js中获取动态链接
我正在使用js
爬虫
来抓取网站,现在我遇到了CNN,的那一部分(基于某种原因动态生成的urls)。事情是
爬虫
,不要真正接触脚本-我应该如何解决它?除了我的node.js
爬虫
之外,我还应该编写自己的代码吗?是否有先进的
爬虫
知道如何处理这种动态行为?
浏览 1
提问于2016-07-23
得票数 2
回答已采纳
1
回答
如果我为我的python脚本做了一个简单的gui,它会影响它的效率吗?
嗨,我想做一个网页
爬虫
,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络
爬虫
效率降低吗? 我需要
爬虫
尽可能高效,能够尽可能快地处理数据。为这个Python脚本制作一个gui,会不会妨碍web
爬虫
的性能?
浏览 3
修改于2015-01-27
得票数 0
回答已采纳
1
回答
我怎么能在robots.txt中只允许一个代理?
我目前在我的robots.txt中使用以下代码来禁止任何
爬虫
访问我的网站。但我只想有一个例外,那就是Google AdSense的
爬虫
。下面是我的代码:谷歌的AdSense
爬虫
名为“Mediapartners Google”。 我如何才能将其添加为异常,并继续阻止所有其他
爬虫
?
浏览 18
修改于2021-05-27
得票数 1
1
回答
编写可与任何服务器保持登录状态的crawler
我正在写一个
爬虫
。一旦
爬虫
登录到一个网站,我想使
爬虫
“停留-始终登录”。我该怎么做呢?客户端(如浏览器、
爬虫
等)使服务器遵守此规则吗?当服务器在一天内允许有限的登录时,可能会出现这种情况。
浏览 0
提问于2009-11-26
得票数 0
回答已采纳
1
回答
基于Crawler输出的触发Lambda
我有一个设置,在我的胶水
爬虫
运行和数据准备红移时,我需要触发lambda函数。有办法制造这样的触发器吗?编辑: 我为
爬虫
状态更改添加了一个事件桥规则,它可以工作并触发lambda函数,但是当我的任何
爬虫
程序运行时它都会触发。我想隔离它,只有在运行了特定的
爬虫
之后才触发。我用下面的代码进行了测试,但它似乎没有选择我的
爬虫
名称。是否有其他方法在规则中指定
爬虫
名称,或者我是否犯了语法错误?
浏览 6
修改于2022-10-04
得票数 0
回答已采纳
1
回答
支持windows增量爬行的Web
爬虫
我需要一个开源的web
爬虫
在java开发的增量爬行支持。 是否有任何其他<em
浏览 4
提问于2014-09-22
得票数 1
回答已采纳
1
回答
如何从同一网站的多个网页中发现公共信息块?
这是网络
爬虫
中的一个模式识别任务。传统的
爬虫
获取整个页面的数据。如果有任何方法可以让
爬虫
变得有点智能,就像只是识别和捕获信息部分。
浏览 0
提问于2015-05-29
得票数 0
1
回答
服务端渲染如何帮助
爬虫
?服务器端渲染和客户端渲染哪个更好?
我正在阅读angular的服务器端渲染文档,因为它们提到服务器端渲染是帮助
爬虫
。我知道在服务器端渲染
爬虫
可以获得整个dom,但
爬虫
也可以与组件交互,那么它如何帮助
爬虫
呢?
浏览 18
修改于2019-09-15
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券