腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
用Java
11
实现风暴
爬虫
尝试将Java版本从Java 8更新到Java
11
,以编译和运行StromCrawler。 我的问题-在Java
11
上支持Storm吗?
浏览 0
提问于2020-11-19
得票数 2
1
回答
如何在node.js中发出https请求
我要做个
爬虫
。对于http请求,我曾经这样做过。', function () { }); http.request(options, callback).end(); ^at errnoException (dns.js:37
浏览 2
修改于2015-01-18
得票数 1
回答已采纳
1
回答
使用http 405代码的页的风暴
爬虫
解决方案
我好像出了个405错误这页似乎有
爬虫
保护是否还可以使用风暴
爬虫
和selenium一起爬行呢?
浏览 1
修改于2018-04-09
得票数 1
回答已采纳
1
回答
禁用垃圾收集?
我有一个WP网站,为大约2%的Apache请求(主要是机器人和
爬虫
)创建500's错误。我无法用500's对大多数请求进行堆栈跟踪,也无法对PHP或MySQL错误以及Apache日志进行堆栈跟踪。用于
爬虫
的Apache访问日志示例: 41.79.186.247 - - [06/Oct/2015:
11
:23:49 -0400] "GET /international-chamber-of-commerce-icc-ud" "Mozilla/5.0 (Wi
浏览 0
修改于2015-10-06
得票数 0
回答已采纳
1
回答
如何安全地将我在AWStats中找到的这些in列入黑名单?
看这个截图:我还检查了AWStats中的
爬虫
器,但是我没有看到IP地址,所以我无法知道它是从哪里来的。一个未知的机器人消耗了
11
GB,而Googlebot只使用了1GB。 我怎么才能挑出坏
爬虫
?
浏览 3
提问于2017-10-29
得票数 0
回答已采纳
1
回答
使用lwjgl从Clojure REPL创建OpenGL窗口
在我用莱茵
爬虫
发动
爬虫
之后,我到目前为止所做的就是:(Display/setDisplayMode(DisplayMode. 800 600))(GL
11
/glClearColor1.0 0.0 0.0 1.0) (GL
11
/glCl
浏览 4
修改于2016-03-23
得票数 1
回答已采纳
1
回答
如何避免
爬虫
中的重复
我用python中的scrapy框架编写了一个
爬虫
来选择一些链接和元tags.It,然后爬行起始urls,并将数据以JSON编码的格式写入到file.The上。问题是,当
爬虫
使用相同的起始urls运行两三次时,文件中的数据会被复制.To避免这一点我使用了scrapy中的一个下载中间件,即:但这不起作用,
爬虫
仍然会产生相同的结果,并在运行两次时将其附加到文件中i
浏览 1
修改于2012-07-11
得票数 2
1
回答
Python Scrapy代理在几轮之后就死了?
我想建立一个与scrapy亚马逊
爬虫
。我不明白为什么..。用户代理工作,代理也旋转,他在每个下一个“死”代理上显示不同的IP和一些东西2019-
11
-06 21:52:40 [rotating_proxies.expire] DEBUG: Proxy<http://XXX:XXX@XXXX:8080> is DEAD 2019-
11
-06 21:52:40 [rot
浏览 18
提问于2019-11-07
得票数 1
1
回答
我是否可以使用网络
爬虫
将新的youtube视频添加到播放列表?
我想编程一个网络
爬虫
去到IGN的你管页面在晚上
11
:00每晚,并添加过去24小时内上传的每个视频到一个新的播放列表,然后命名该播放列表与日期。例如:"IGN新闻3.18.16“ 这是可以用Javascript的网络
爬虫
来完成的事情吗?如果是这样的话,我该怎么做呢?
浏览 5
提问于2016-03-19
得票数 0
1
回答
爬虫
和
爬虫
架构
当我遇到这个设计问题时,我一直在用php构建一个刮板和
爬虫
。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在
爬虫
爬行时抓取任务的系统之间的权衡。
浏览 4
修改于2012-04-16
得票数 2
回答已采纳
2
回答
如何从维基百科中提取统计数据?
维基百科上的所有死人都填写了以下字段:| birth_date = {{birth date|mf=yes|1847|02|
11
}}| death_date ={{death date and age|mf=yes|1931|10|18|1847|02|
11
}} 我就得做个
爬虫
了?
浏览 0
提问于2011-07-24
得票数 1
回答已采纳
1
回答
HTML流的SEO/爬行性影响
随着HTML流(例如反应18流)的兴起,我想知道
爬虫
是如何处理HTML的。谷歌
爬虫
是如何处理这个问题的?谷歌确实提到了流这里,但它没有说明谷歌
爬虫
如何处理HTML。 其他
爬虫
(DuckDuckGo,Bing,Facebook,Twitter等)怎么样?我假设
爬虫
会等到HTML流结束时,这个假设安全吗?
浏览 0
提问于2021-07-27
得票数 7
4
回答
如何停止云主机上的
爬虫
?
云服务器
我在云主机上运行了一个scrapy
爬虫
,这个
爬虫
可以一直运行,假如我没有停止
爬虫
就和主机断开了连接,是不是除了关机就没有办法停止
爬虫
了?
浏览 510
提问于2018-01-27
2
回答
避免重定向
我正在尝试解析一个网站(用ASP编写),
爬虫
被重定向到主网站。但我想要做的是解析给定的url,而不是重定向的url。有办法做到这一点吗?以下是
爬虫
程序的一些输出:2011-09-24 20:01:
11
-0300 [coto] DEBUG: Redirecting (
浏览 3
提问于2011-09-25
得票数 2
回答已采纳
1
回答
如何在docker中使用此文件?
我想使用
爬虫
实验室仪表板与我的
爬虫
代码。
爬虫
实验室是
爬虫
仪表板。链接为 我要安装(?)docker(?)中的chromedriver。
浏览 44
提问于2021-03-11
得票数 0
2
回答
如何将新的URL传递给Scrapy Crawler
我想让一个抓取
爬虫
在芹菜任务工人内部不断运行,可能使用。或者,正如所建议的,这个想法是使用
爬虫
程序来查询返回XML响应的外部API。一旦
爬虫
程序开始运行,我如何将我想要获取的这个新URL传递给
爬虫
程序。我不想在每次想要给
爬虫
一个新的URL时都重新启动
爬虫
,而是希望
爬虫
无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行
爬虫
程序。我不希望每次我想要抓取一个URL时,都必须派生和拆卸一个新的进程,因为这
浏览 0
修改于2017-05-23
得票数 2
2
回答
基于PHP的Web
爬虫
或基于JAVA的Web
爬虫
我对基于PHP的网络
爬虫
有些怀疑,它能像基于java线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于PHP的
爬虫
还是基于Java的
爬虫
浏览 1
修改于2012-12-25
得票数 0
回答已采纳
1
回答
如何阻止Web
爬虫
下载文件
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个PHP脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是nginx和drupal CMS。如果这能帮上忙的话就给我
浏览 0
提问于2013-07-27
得票数 1
1
回答
是否可以使用Googlebot的用户代理令牌来检测它,而不是使用完整的用户代理字符串?
来自:User代理令牌在robots.txt中的用户代理:行中使用,以便在为站点编写爬行规则时匹配
爬虫
类型。有些
爬虫
有多个令牌,如表中所示;要应用规则,只需匹配一个
爬虫
令牌即可。此列表尚未完成,但涵盖了您可能在website.Full用户代理上看到的大多数
爬虫
字符串是对
爬虫
的完整描述,并显示在请求和web日志中。从上面的节选中我们可以看到,可以在robots.txt文件中使用用户代理令牌进行匹配,从而检测
爬虫</
浏览 3
修改于2019-11-01
得票数 0
回答已采纳
1
回答
在什么情况下,Scrapy抛出“连接完全关闭”错误?
在站点上运行
爬虫
时,我会多次收到以下错误消息:在不同的站点上运行
爬虫
时,我不会发现这个错误,而且它试图访问的页面我可以通过浏览器或curl访问。要澄清的是,完全错误的意思是: 2016-
11
-17 20:59:38 [scrapy] ERROR: Error downloading <GET http:/
浏览 2
修改于2016-11-17
得票数 9
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券