腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
Python多域
爬虫
InvalidSchema
异常
这是我的代码。我的目标是抓取多个域。我在url数组中设置了域,但是我不能爬行。这是结果:我的代码运行(‘总链接数:',387) (’新闻链接:',146)import requestsimport codecs "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_5)", "ac
浏览 7
修改于2015-05-07
得票数 1
2
回答
抓取
爬虫
捕获
异常
读取实例数据
我对python很陌生,我想用scrapy来构建一个网络
爬虫
。我阅读了的教程。
浏览 2
修改于2015-07-05
得票数 10
回答已采纳
1
回答
Symfony 2
爬虫
中的
异常
处理
我有这个密码 for($i=1;$i<=$totalpages;$i++) $client->request('GET&
浏览 2
提问于2014-12-27
得票数 1
回答已采纳
1
回答
Clojure大猩猩
爬虫
和JVM 10
异常
启动一个测试的新项目在project.clj中添加了大猩猩:运行时获取
异常
java.xml.bind”]lein选项没有帮助,我尝试在shell中使用export启动java选项,但这造成了JVM的致命
异常
如果有另一种方法来配置JVM (当然有),我不知道该怎么做.我通过搜索找到了许多对
异常
的引用,但没有一个假设
浏览 2
修改于2018-07-23
得票数 2
回答已采纳
1
回答
我怎么能在robots.txt中只允许一个代理?
我目前在我的robots.txt中使用以下代码来禁止任何
爬虫
访问我的网站。但我只想有一个例外,那就是Google AdSense的
爬虫
。下面是我的代码:谷歌的AdSense
爬虫
名为“Mediapartners Google”。 我如何才能将其添加为
异常
,并继续阻止所有其他
爬虫
?
浏览 18
修改于2021-05-27
得票数 1
3
回答
如何在出现
异常
时强制刮伤退出
我用Scrapy写了一个
爬虫
。我发现当我的字符串有中文的时候,logging.error()会抛出一个
异常
。但
爬虫
一直在跑!我的问题是:在出现
异常
时,是否存在强制Scrapy停止的设置?
浏览 3
修改于2017-06-08
得票数 7
回答已采纳
2
回答
Rails 3和Strange Accept标头
我的Rails3站点被带有奇怪的accept头的
爬虫
程序击中,触发
异常
,如下所示以下是一些导致问题的我真的不关心我返回给这些
爬虫
的是什么,只是想避免
异常
。
浏览 0
提问于2011-02-05
得票数 8
2
回答
一个数组能容纳多少个字符串?
我正试着写一个网络
爬虫
。当我浏览一个大页面时,我的arraylist变量无法保存所有数据。它被抛到了
异常
之下。线程java.lang.StackOverflowError".中的
异常
" thread -0“ 保存这些urls的最佳方法是什么,因为我需要访问那些urls和子urls等等。我想保存到数据库或写入文件,但这些机制可能会减慢
爬虫
性能。
浏览 0
修改于2015-11-19
得票数 0
1
回答
Web Crawler -找不到对象
我正在用asp.net开发一个网络
爬虫
。 我的网络
爬虫
有一个主页,它从HREF标签打开其他HTML页面,下载HTML页面并获取数据。现在的问题是,有时我会得到一个对象引用找不到的
异常
,有时代码运行得很好。
浏览 1
修改于2014-01-06
得票数 0
1
回答
捕获父进程中的子进程
异常
我正在创建多个进程,它们分别运行
爬虫
程序。我想确保如果
爬虫
进程中有一些
异常
,我能够在父进程中捕获它。
浏览 17
提问于2020-03-10
得票数 1
回答已采纳
4
回答
是否存在任何开放的、简单的可扩展的网络
爬虫
?
我寻找一个网络
爬虫
解决方案,可以是足够成熟的,可以简单地扩展。我对以下特性感兴趣..。
爬虫
应该能够为我探索Web的一部分,并且它应该能够决定哪些站点符合给定的标准 上面的这些事情可以一个一个地完成,而无需付出很大的努力,但我对提供可定制的、可扩展的
爬虫
的任何解决方案都感兴趣。
浏览 1
修改于2021-02-13
得票数 7
回答已采纳
1
回答
调试Glue Crawler EOFException
我创建了一个新的
爬虫
并手动运行它。
爬虫
作业运行时没有出错,但是当我检查日志时,我会收到下面的EOF
异常
通知。我尝试将一个简单的测试json文件上传到同一个S3桶中,并对它运行
爬虫
,它完美地解析了模式。因此,我不认为这是一个权限或
爬虫
配置的问题。 对于如何进一步调试有任何建议吗?
浏览 9
提问于2022-09-16
得票数 0
回答已采纳
1
回答
处理远程:真正的链接和搜索机器人
在大多数情况下,响应可以是js或html,因此搜索机器人不会造成问题我如何设置链接,使搜索机器人(谷歌,冰,其他
爬虫
)不会尝试它?或者-是否有一种类型的响应我应该返回,以便
爬虫
知道不要返回到那个url?
浏览 2
提问于2014-12-03
得票数 2
1
回答
一段时间后抛出超时
异常
基本上,它使用命令shell_exec来运行javascript
爬虫
。当它工作时,它会返回一个字符串。但是,有时js
爬虫
会变得没有响应,shell_exec就会挂起。and response is: ', $e->getMessage(), "\n";我不确定在PHP中有什么命令可以说“让我们尝试运行这个命令60秒,如果它超过了这个时间,那么让我们抛出一个
异常
并处理该
异常
浏览 0
提问于2015-06-12
得票数 0
1
回答
如何为Crawler4J编写自己的
异常
处理?
我希望我的
爬虫
等待5分钟,如果它得到一个SocketConnectException(即,如果互联网连接关闭),并再次恢复,也可能发送邮件给管理员。我看过源代码,抛出这个
异常
的方法是私有的,所以我不能重载它们。除了更改源代码之外,还有其他选项可以处理此
异常
吗?谢谢。
浏览 2
修改于2015-06-02
得票数 1
回答已采纳
6
回答
Java访问字符串数组中的特定元素
我正在运行一个网络
爬虫
供我自己使用。我下载了一个,想给它提供种子。我想给它提供大约50个种子。所以我创建了一个字符串数组。我想为
爬虫
提供一个种子,每次它通过我的for循环。字符串temp =新字符串{",";对于(int i= 0;i <=temp.length;i++) { urlsi = tempi;}
爬虫
需要分配给不过,我的代码得到了一个外部
异常
。我想要做的是每次爬行器通过for循环时提供1种种子。在这方面的任何帮助都将不胜感
浏览 7
提问于2011-02-21
得票数 3
回答已采纳
1
回答
如何检测收到的网络超时是由请求端点引起的,还是由中间节点(如http代理)引起的?
作为编写
爬虫
程序(用Node.js编写,但实际上不是重点)的一部分,我有时会收到超时和其他网络
异常
。某些
异常
(如http errorcode)可以正确地归因于目标请求端点。例如,当使用http代理抓取时,如何检查
异常
(如前面提到的超时)是由于代理还是由于请求端点?
浏览 5
提问于2013-06-29
得票数 0
回答已采纳
1
回答
VS代码调试器:导入错误,没有名为scrapy的模块
我能够在vs代码上运行所有的
爬虫
,没有任何错误。但是,当我尝试运行调试器时,它会引发
异常
我在MacOS上。我也可以从终端正确地运行scrapy命令。
浏览 9
修改于2021-10-12
得票数 0
1
回答
Rails应用程序中的ActionController::UnknownHttpMethod: CONNECT
在Rails应用程序中,我得到了很多这样的
异常
:据我所见,这似乎是一些
爬虫
或类似的尝试使用连接作为一个http动词。写得不好的
爬虫
?试图滥用我的应用程序或web服务器的东西?我能做些什么?完全阻止他们,如果是的话,怎么做?这是一个Rails应用程序,在Apache上运行。
浏览 2
提问于2010-10-11
得票数 1
回答已采纳
1
回答
其中来自“错误:爬行器错误处理<GET...”在scrapy?
我很想知道这个
异常
是从哪里来的,以及我如何处理它: 2019-04-12 22:00:55 [scrapy.core.scraper] ERROR: Spider error processing <GET如果我想知道它来自哪里,是因为我想尝试插入一些行,这些行命令将urls添加到一个文件中,该文件专门用于某种类型的
异常
,使
爬虫
错误处理产生分析它,纠正它,并在此文件中的这些特定urls上再次启动
爬虫
,因为这比从一个粗糙的日志文件中启动
爬虫
更舒服
浏览 13
修改于2019-04-14
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券