腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
0
回答
Scrapy:一个项目中的多个
爬虫
我已经写了一个网络
爬虫
与代理使用scrapy。因为我总是需要一个随机的代理
池
来避免被禁止,我决定编写另一个
爬虫
来抓取一个提供免费
IP
的网站。每次开始
爬虫
过程时,我都需要首先抓取
IP
,将它们导出到一个文件中,然后转到另一个
爬虫
的根目录并将
IP
读取到setting.py中。我想知道是否有可能将两个
爬虫
合并到一个项目中,这样我只需要运行一个命令就可以开始整个爬行过程。 非常感谢!
浏览 7
提问于2016-07-07
得票数 0
2
回答
如何将代理
池
实现为多个抓取程序?
我必须在具有多个使用scrapy的
爬虫
的服务器中实现一个代理
池
。 假设我已经有一个数据库,其中有多个代理一直在更新,我该如何实现代理
池
。我不想直接在代码中添加代理,主要是因为很多代理死得很快,有些
爬虫
需要很长时间才能完成。 有没有一种方法可以使用中间件或其他东西来实现这一点,而不需要更改我获得的每个
爬虫
? 谢谢。
浏览 9
提问于2019-03-19
得票数 0
5
回答
Python中的多线程
爬虫
真的可以提高速度吗?
我想用python写一个小的网络
爬虫
。我开始研究将其编写为多线程脚本,一个线程下载
池
和一个
池
处理结果。由于有了GIL,它真的可以同时下载吗?GIL对网络
爬虫
有什么影响?基本上我想问的是,用python做一个多线程
爬虫
真的比单线程能给我带来更多的性能吗? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
2
回答
防止自定义Web
爬虫
被阻塞
我正在创建一个新的网络
爬虫
使用C#来抓取一些特定的网站。一切都很顺利。但问题是,,一些网站是阻塞我的
爬虫
IP
地址,后,一些请求。我试着在爬行请求之间使用时间戳。但没有起作用。有没有办法阻止网站阻塞我的
爬虫
?有些类似的解决方案会有所帮助(但我需要知道如何应用它们): 任何解决办法都会有帮助。
浏览 7
提问于2011-10-04
得票数 3
回答已采纳
1
回答
在Java中每秒执行许多http请求的有效方法
我在做网络
爬虫
。可以执行许多请求(例如每秒500-1000个请求),而不需要每个请求创建线程(我不是指线程
池
、重用等等)?
浏览 4
提问于2012-12-05
得票数 2
6
回答
具有独立实例的.NET自定义线程
池
什么是最推荐的.NET自定义线程
池
,可以有单独的实例,即每个应用程序多个线程
池
?我需要一个无限的队列大小(建立一个
爬虫
),并需要运行我正在爬行的每个网站在并行单独的线程
池
。编辑:我需要尽可能快地挖掘这些站点的信息,使用每个站点的单独线程
池
将使我能够控制在任何给定时间在每个站点上工作的线程数量。(不超过2-3个) 谢谢罗伊
浏览 0
修改于2009-07-21
得票数 12
1
回答
关于SOCKS5安全性的问题
我计划启动一个分布式
爬虫
,以避免服务器/CDN施加的常见限制,如速率限制、区域筛选和其他限制。源文件能够检测到服务器
IP
吗? 我无法控制代理(SOCKS5服务器),这种连接有多安全?
浏览 0
修改于2020-01-01
得票数 1
回答已采纳
1
回答
使用实体框架C#限制到数据库的连接
我的问题是,我有几个
爬虫
填充这个数据库,以供我们的网站使用实体框架。还有其他方法来实现这一点吗?
浏览 2
修改于2016-08-03
得票数 5
回答已采纳
1
回答
如何在一个mesos从节点上运行多个码头容器?
我有两种不同的
爬虫
器,每一种都被构建成一个码头容器。现在我通过马拉松发射。下面的代码是马拉松启动json。"cpus": "0.5", "uris": [], "constraints": [
浏览 3
提问于2015-04-09
得票数 1
回答已采纳
3
回答
如何使用Java创建PostgreSQL连接
池
?
我正在尝试使用连接
池
,但我不能正确理解它。谁实现了它?是软件、驱动程序还是数据库?我需要一个代码示例。我正在做一个网络
爬虫
,它有很多到数据库的连接。
浏览 0
修改于2011-06-23
得票数 16
回答已采纳
1
回答
如何安全地将我在AWStats中找到的这些in列入黑名单?
我检查了我的AWStats,发现一些
IP
地址占用了大量的带宽。我怎么知道列入黑名单是否安全?有几个人每月消耗2GB或更多,一直如此。看这个截图:我还检查了AWStats中的
爬虫
器,但是我没有看到
IP
地址,所以我无法知道它是从哪里来的。我怎么才能挑出坏
爬虫
?
浏览 3
提问于2017-10-29
得票数 0
回答已采纳
3
回答
如何使用代理
池
我正在使用Scrapy,并试图通过创建一个定制的DownloaderMiddleware来使用代理
池
。我查看了Scrapy网站的文档,但没有代码示例)import random proxy_pool = ['
ip
1', '
ip
2...', '
ip
3...']scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware
浏览 11
修改于2016-02-17
得票数 2
回答已采纳
1
回答
DNN 9.3.0 -更新后搜索栏不显示文件
我已经尝试重新索引和运行的文件
爬虫
,网站
爬虫
和网址
爬虫
多次。我还尝试为每个门户同步我的资产。还要注意的是,我一直在回收应用程序
池
,并在每次尝试失败后删除AppData/Search文件夹中的文件。
浏览 16
提问于2019-09-19
得票数 0
回答已采纳
5
回答
爬虫
/
爬虫
IP
地址的良好来源
我在哪里可以找到
爬虫
或蜘蛛
IP
地址的全面列表。我需要从谷歌,雅虎,微软和其他搜索引擎,定期爬行我的网站的
IP
。 我不想禁用它们,因此将robots.txt文件排除在答案之外。
浏览 0
修改于2014-04-15
得票数 5
回答已采纳
1
回答
网络优化时,web爬行-使用udp和使用连接
池
?
他们建议进行以下网络优化: 切换到UDP也可以提高性能。我不明白这两种建议:连接
池
与网络爬行有什么关系?每个
爬虫
服务是否都在打开自己与主机的连接?连接
池
在这里有什么用?关于UDP,难道不是爬行向网络主机发出HTTP通过TCP请求吗?
浏览 5
修改于2020-06-20
得票数 2
2
回答
AWS:动态分配和关联新的
IP
地址到EC2实例?
爬虫
从eCommerce网站抓取数据,但最近
爬虫
从网站中获得“超时错误”。根据我的
IP
地址,该网站可能限制了我的访问频率。分配一个新的弹性
IP
地址可以解决这个问题,但不会持续很长时间。我的问题是:我是否可以使用任何服务来自动和动态地分配和关联新的
IP
到我的实例?谢谢!
浏览 4
修改于2014-04-08
得票数 9
回答已采纳
3
回答
如何使
爬虫
能够访问封闭(私有)的wiki?
我需要向
爬虫
提供访问私有维基的权限。对于如何启用对单个客户端(而不是用户,因为
爬虫
无法登录到wiki)的访问,有什么建议吗?
浏览 2
提问于2011-01-27
得票数 0
回答已采纳
2
回答
如何理解和减少Rails应用程序中的
IP
欺骗攻击错误?
我从我的错误报告服务收到了很多关于
IP
欺骗攻击的电子邮件,而且频率越来越高。如果我正确理解,当请求设置一个HTTP报头,指定请求来自的
IP
地址不是原始
IP
地址时,就会发生这种情况。错误消息如下所示:我不确定我是否正确的阅读,但似乎这可能是由雅虎
爬虫
造成的。错误报告在许多不同的URL上,这使它看起来像一个<em
浏览 1
提问于2014-01-22
得票数 8
6
回答
如何识别网络
爬虫
?
我怎样才能过滤掉网络
爬虫
等非人类的点击。 我使用maxmind.com向
IP
请求城市。这并不是很便宜,如果我必须支付所有的点击,包括网络
爬虫
,机器人等。
浏览 3
修改于2011-12-07
得票数 33
回答已采纳
1
回答
基于PHP crawler的
IP
切换
我正在寻找一个解决方案,以切换
IP
时自动运行PHP
爬虫
。我有一个自定义的
爬虫
,它运行100个线程,但由于油门限制,我经常被阻塞。我想为每个线程分配一个不同的
IP
地址,并欢迎任何建议来克服这个问题。
浏览 1
修改于2014-04-15
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券