腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
如何处理
爬虫
和过时的资产?
error][yii\web\HttpException:404]"assets/
7
adcf
7
ba文件夹
7
adcf
7
ba已经不存在了,所以我认为
爬虫
以某种方式使用了缓存数据。我可以使用r
浏览 0
提问于2017-12-04
得票数 0
1
回答
识别搜索爬行器
我有一个网站,统计有多少人访问了这个特定的网页,但我不想计数什么时候搜索
爬虫
访问他们。java是否有任何方法来识别它是
爬虫
还是真正的用户?使用Java
7
和tomcat 谢谢
浏览 2
提问于2015-10-21
得票数 1
回答已采纳
1
回答
Symfony DomCrawler如何单击执行js代码的链接
如何使用
爬虫
来点击执行js代码的链接,这个链接没有HREF属性。
爬虫
可以通过客户端在页面上执行js代码吗?我试着这样做,但不起作用 $link = $crawler->filter('#list-65544856 div[class = "DJt
7
DJuf"]')->link();
浏览 82
修改于2021-02-07
得票数 0
1
回答
添加列时,应该如何更改Glue Crawler设置?
有
7
种数据,所以我将它们保存到S3的
7
个子文件夹中。我设置了下面的
爬虫
:-Create为每个S3路径创建一个单一模式进展得很好。但是有一天,新数据的列将被添加,您能告诉我如何更改
爬虫
的设置以获得包含所有列的新模式吗?
浏览 5
提问于2022-11-24
得票数 0
回答已采纳
1
回答
托管
爬虫
的最佳解决方案?
我有一个
爬虫
,爬行几个不同的领域为新的帖子/内容。总内容数为十万页,每天都有很多新的内容添加。因此,为了能够通过所有这些内容,我需要我的
爬虫
爬行24/
7
。目前,我将
爬虫
脚本托管在与
爬虫
添加内容的站点相同的服务器上,而且我只能在夜间运行cron作业来运行脚本,因为当我这样做时,网站基本上停止工作,因为脚本的加载。换句话说,一个非常糟糕的解决方案。是否有可能继续从同一主机运行
爬虫
,但在某种程度上平衡负载,以便脚本不会扼杀网站? 我会找什么样的主机/服务器来托
浏览 3
修改于2014-03-06
得票数 10
回答已采纳
5
回答
URL中的^符号是什么意思?
我需要从网页中抓取一些链接数据,我使用了一个简单的手写PHP
爬虫
。
爬虫
通常工作得很好;然后我找到了一个URL,如下所示:此URL在浏览器中键入时工作正常,但我的
爬虫
程序无法检索此页面
浏览 1
提问于2010-02-25
得票数 5
回答已采纳
1
回答
Vue.js /Crawler无法跟踪v生成的链接
看起来谷歌
爬虫
无法跟踪v-for生成的链接。Google说:Not found: vergleichen/%
7
B%
7
B%20anbieter.slug%20%
7
D%
7
D和我认识的所有页面
爬虫
都无法抓取链接。 我做错什么了?有解决办法吗?
浏览 3
修改于2016-04-25
得票数 1
1
回答
刮除不同数量的url返回
我已经建立了一个
爬虫
在一个固定的领域内的螃蟹和提取url匹配的修复正则表达式。如果看到某个特定的url,则
爬虫
将跟踪该链接。
爬虫
可以很好地提取url,但是每次我运行
爬虫
时,它都会返回不同数量的链接,也就是说,每次运行它时,链接的数量都会不同。我在用Scrapy爬行。这是刮痕的问题吗?start_urls = ["http://www.xyz.nl/Vacancies"] rules = (Rule(SgmlLinkExtractor(allow=[r'\&
浏览 3
修改于2014-04-07
得票数 2
回答已采纳
1
回答
调试Glue Crawler EOFException
我创建了一个新的
爬虫
并手动运行它。
爬虫
作业运行时没有出错,但是当我检查日志时,我会收到下面的EOF异常通知。ERROR : Error java.io.EOFException retrieving file at s3://insurance-transparency-data/2022-09-05_796b
7
d27我尝试将一个简单的测试json文件上传到同一个S3桶中,并对它运行
爬虫
,它完美地解析了模式。因此,我不认为这是一个权限或
爬虫
配置的问题。 对于如何进一步调试有任
浏览 9
提问于2022-09-16
得票数 0
回答已采纳
1
回答
如何在Heroku上连续运行和托管Node.js脚本?
我目前想部署一个网站排名API,为此,我需要一个网络
爬虫
。事情是,我想让网络
爬虫
运行24/
7
,以便它可以不断更新网站。但是,对于Heroku这样的服务,一个小时后服务器就停止了。
浏览 0
修改于2021-01-21
得票数 1
回答已采纳
3
回答
Scrapy -如何启动同一
爬虫
进程的多个实例?
我在启动同一
爬虫
的多个实例时被卡住了。我想让它像一个
爬虫
实例的1url一样运行。我必须处理50k个urls,为此,我需要为每个urls启动单独的实例。在我的主要
爬虫
脚本中,我设置了
7
分钟的closedpider超时,以确保我不会爬行很长时间。但之后当传递第二个url时,它会显示以下错误:ReactorNotRestartable 请建议我应该做些什么才能让它为同一个
爬虫
的多个实例运行
浏览 1
修改于2015-11-13
得票数 6
2
回答
AWS Glue Crawler -单唱片CSV
例如:当我运行
爬虫
时,它会为每个分开的表创建文件。问题: 谢谢
浏览 0
修改于2018-07-31
得票数 4
1
回答
SharePoint 2019年爬行错误:第一次尝试爬行此对象失败。(未能从URI中退休.)
它工作正常,但当我启动
爬虫
时,它总是显示以下错误消息:
爬虫
服务帐户获得了完整的读取权限。
浏览 4
修改于2020-05-19
得票数 0
1
回答
Drupal、Crawler和从基于查询字符串的站点迁移到清洁URL站点
来自各地的
爬虫
在站点上横冲直撞,导致CPU利用率很高(在任何时候都是50%)。我启用了缓存以及JavaScript和CSS聚合。/?p=1%
7
C26%
7
C31%
7
C33%
7
C2%
7
C
7
&page=publications.php 在目前的方案中,在我看来,应该只返回404,因为这根本不代表什么。事实上,
爬虫
现在查看的每一个“页面”90%的时间都是返回主页,因为它要么是在查看/index.
浏览 0
修改于2012-03-23
得票数 0
回答已采纳
1
回答
爬虫
和
爬虫
架构
当我遇到这个设计问题时,我一直在用php构建一个刮板和
爬虫
。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在
爬虫
爬行时抓取任务的系统之间的权衡。
浏览 4
修改于2012-04-16
得票数 2
回答已采纳
1
回答
仅带prerender.io客户端的Prerender
7
SPA
我有一个Angular
7
应用程序,我正在尝试预先渲染页面以支持网络
爬虫
/ SEO。我决定使用prerender.io来帮助这些
爬虫
预先渲染、缓存和提供静态超文本标记语言,但是我很难在我的Angular
7
应用程序中安装它们的中间件。根据their docs的说法,我可以安装一个中间件,当网络
爬虫
发出页面请求时,它会检测到,并将请求重定向到预渲染服务器。然而,我发现的所有示例都涉及到修改一些后端节点服务器。
浏览 19
修改于2019-02-26
得票数 1
回答已采纳
1
回答
HTML流的SEO/爬行性影响
随着HTML流(例如反应18流)的兴起,我想知道
爬虫
是如何处理HTML的。谷歌
爬虫
是如何处理这个问题的?谷歌确实提到了流这里,但它没有说明谷歌
爬虫
如何处理HTML。 其他
爬虫
(DuckDuckGo,Bing,Facebook,Twitter等)怎么样?我假设
爬虫
会等到HTML流结束时,这个假设安全吗?
浏览 0
提问于2021-07-27
得票数 7
4
回答
如何停止云主机上的
爬虫
?
云服务器
我在云主机上运行了一个scrapy
爬虫
,这个
爬虫
可以一直运行,假如我没有停止
爬虫
就和主机断开了连接,是不是除了关机就没有办法停止
爬虫
了?
浏览 510
提问于2018-01-27
1
回答
Scrapy response.xpath无效语法
我正在尝试从一个网站上拉价格信息(学习如何建立一个实践网络
爬虫
)。我正在使用scrapy来构建我的
爬虫
,并且在我的价格蜘蛛中,我尝试使用以下代码行来拉取价格的html字段的xpath:当我运行这个程序时,我得到了“语法错
浏览 23
提问于2017-07-19
得票数 1
回答已采纳
1
回答
如何在docker中使用此文件?
我想使用
爬虫
实验室仪表板与我的
爬虫
代码。
爬虫
实验室是
爬虫
仪表板。链接为 我要安装(?)docker(?)中的chromedriver。
浏览 44
提问于2021-03-11
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券