腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
未知302重定向到根。爬行器不能继续前进
当我注意到Facebook、Debugger和其他
爬虫
工具无法解析我的页面时,整个事情就开始了。Facebook抛出一个关键错误,称它无法遵循重定向。我相信搜索引擎机器人也达到了同样的目的。
案例
1:试图访问根目录,这是我在网络嗅探器模拟器中得到的
案例
1意见:
案例
2意见: 正如您可能已经知道的,完全相同的情况1。再
浏览 1
提问于2013-02-19
得票数 0
回答已采纳
1
回答
一个典型的http请求在EC2上生成多少数据传输?
我正试图评估在EC2上运行
爬虫
所需的费用。这个说数据传输是免费的,而数据传输不是免费的。因此,如果我向某个站点发出HTTP GET请求,使用GET头长度,比如200个字节,响应20000字节是否有
案例
研究,或解释他们如何衡量它?
浏览 3
提问于2014-11-14
得票数 0
回答已采纳
2
回答
对于快速持久缓存,有什么好的解决方案吗?
我需要真正快速和持久的缓存为我的网络
爬虫
。它不需要像Java语言中的ConcurrentSkipListSet那样快,但肯定不能像我尝试过的那样使用基于散列索引的表的MySQL。有没有人知道或听说过对这个
案例
有用的东西? 谢谢你的任何提示。
浏览 3
修改于2014-05-15
得票数 6
回答已采纳
1
回答
对于SEO,图像名称应该包含页面标题(这会给图像提供更多的描述)
如果图像被命名为多伦多-市中心-Place1Name或Place1Name在这里,我们假设
爬虫
将根据页面描述确定上下文
浏览 0
修改于2016-12-23
得票数 2
1
回答
用于Angular.js创建的自定义元素的SEO
我有一个用户
案例
,我们在服务器上呈现角2应用程序,以便Google能够看到DOM。<body></body> 这对
爬虫
有效吗?这会影响我的整体评级吗?
浏览 0
修改于2016-11-29
得票数 2
回答已采纳
1
回答
NUXT构建vs生成和站点地图
我的
案例
:我想拥有动态路径(例如:页面/1)。我想有可访问的网页,也没有JS,因为搜索引擎优化和
爬虫
。所以我用asyncData加载数据。没事的。 我有nodejs主机。
浏览 1
提问于2021-01-15
得票数 0
回答已采纳
1
回答
IMAP UID的可靠性如何?
我正在编写一个IMAP
爬虫
,它是开源应用程序的一部分,对于增量爬行,我想使用消息UID来确定我是否已经看到了特定的消息。 现在我找到了2007年的,上面说IMAP并不总是可靠的。所以我的问题是,我是必须认真对待UIDNOTSTICKY=true的
案例
,还是具有非粘性UID的IMAP服务器是遗留的东西,不再(广泛)使用?
浏览 0
提问于2010-12-21
得票数 4
回答已采纳
1
回答
使用python twisted编写web
爬虫
我正在使用Twisted编写一个由Selenium驱动的网络
爬虫
。我的想法是,我为一个扭曲的客户机和一个扭曲的服务器产生扭曲的线程,后者将代理HTTP请求到服务器。问题是twisted是允许这种类型的应用程序,还是被认为只将Client和Server作为不同的进程运行(因为这是我在任何地方都看到的典型
案例
)。
浏览 1
提问于2015-04-14
得票数 2
1
回答
管道中的IO操作?
这可能是一个相当晦涩难懂的
案例
,但请耐心听我说。 我正在编写一个网络
爬虫
,需要下载网页并将其保存到本地磁盘。同时,作为一个
爬虫
,它需要找到每个页面上的超链接,并下载这些链接的页面。
浏览 0
提问于2013-04-16
得票数 2
回答已采纳
1
回答
Schemacrawler根据表的数量对大型模式进行分区
我有一个使用
案例
,我使用schemacrawler从不同的数据库抓取元数据。然后在我的下游系统中使用这些元数据。 我有很多可变大小的数据库需要抓取。表的数量从20到2000个不等。现在,我正在使用Schemacrawler API来运行
爬虫
。如果源数据库中的表数更多,我的应用程序就会崩溃,因为它试图一次抓取所有的表。 在schemacrawler中有没有办法批量抓取数据库。
浏览 38
提问于2020-11-02
得票数 0
1
回答
如何在满足管道条件后立即停止所有蜘蛛和引擎?
有几个蜘蛛,还有一个几个级联管道,用于所有
爬虫
传递的所有项目。管道组件之一查询google服务器的地理编码地址。我曾核对过其他类似的问题,但这些问题的答案并没有奏效:
浏览 5
修改于2017-05-23
得票数 14
回答已采纳
3
回答
用PHP解释JavaScript
的基本原理:--我正在用进行屏幕抓取,并且遇到了许多情况,其中的数据是由JavaScript在前端生成的,我想避免编写专门的过滤函数,以便在每个
案例
的基础上对JavaScript进行操作,因为这需要很多时间否决:--我不知道这个问题有什么争议,现代的网络
爬虫
都知道,唯一的区别是它们往往不是用PHP编写的。1
浏览 6
修改于2010-12-19
得票数 15
回答已采纳
1
回答
爬虫
和
爬虫
架构
当我遇到这个设计问题时,我一直在用php构建一个刮板和
爬虫
。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在
爬虫
爬行时抓取任务的系统之间的权衡。
浏览 4
修改于2012-04-16
得票数 2
回答已采纳
1
回答
HTML流的SEO/爬行性影响
随着HTML流(例如反应18流)的兴起,我想知道
爬虫
是如何处理HTML的。谷歌
爬虫
是如何处理这个问题的?谷歌确实提到了流这里,但它没有说明谷歌
爬虫
如何处理HTML。 其他
爬虫
(DuckDuckGo,Bing,Facebook,Twitter等)怎么样?我假设
爬虫
会等到HTML流结束时,这个假设安全吗?
浏览 0
提问于2021-07-27
得票数 7
4
回答
如何停止云主机上的
爬虫
?
云服务器
我在云主机上运行了一个scrapy
爬虫
,这个
爬虫
可以一直运行,假如我没有停止
爬虫
就和主机断开了连接,是不是除了关机就没有办法停止
爬虫
了?
浏览 494
提问于2018-01-27
1
回答
如何在docker中使用此文件?
我想使用
爬虫
实验室仪表板与我的
爬虫
代码。
爬虫
实验室是
爬虫
仪表板。链接为 我要安装(?)docker(?)中的chromedriver。
浏览 44
提问于2021-03-11
得票数 0
1
回答
Laravel应用程序Dusk对PHPUnit
现在我读到Dusk为DOM测试提供了一个
爬虫
。我是否可以同时使用这两种方法(可能吗?)还是我应该迁移到杜斯克?从现在开始,由于50:50的测试
案例
,我有点卡住了,因为我也需要测试DOM是否提供了正确的信息。提前谢谢你!
浏览 6
提问于2020-05-14
得票数 1
回答已采纳
3
回答
可扩展/可定制的Web爬行引擎/框架/库?
我有一个相对简单的
案例
。我基本上想存储各种网站之间的链接数据,不想限制域名。我知道我可以使用一些http客户端库编写自己的
爬虫
程序,但我觉得我会做一些不必要的工作--确保页面不会被多次检查,弄清楚如何读取和使用robots.txt文件,甚至可能尝试使其并发和分布式,我确信还有很多其他我还没有想到的事情大多数
爬虫
似乎认为你是在为搜索索引网页,这不好,我需要一些可定制的东西。 我希望将链接信息存储在数据库中,因此我需要能够指定链接在框架中的存储方式。
浏览 0
提问于2009-08-20
得票数 2
回答已采纳
2
回答
如何将新的URL传递给Scrapy Crawler
我想让一个抓取
爬虫
在芹菜任务工人内部不断运行,可能使用。或者,正如所建议的,这个想法是使用
爬虫
程序来查询返回XML响应的外部API。一旦
爬虫
程序开始运行,我如何将我想要获取的这个新URL传递给
爬虫
程序。我不想在每次想要给
爬虫
一个新的URL时都重新启动
爬虫
,而是希望
爬虫
无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行
爬虫
程序。我不希望每次我想要抓取一个URL时,都必须派生和拆卸一个新的进程,因为这
浏览 0
修改于2017-05-23
得票数 2
2
回答
基于PHP的Web
爬虫
或基于JAVA的Web
爬虫
我对基于PHP的网络
爬虫
有些怀疑,它能像基于java线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于PHP的
爬虫
还是基于Java的
爬虫
浏览 1
修改于2012-12-25
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券