腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
0
回答
Scrapy:一个项目中的多个
爬虫
我已经写了一个网络
爬虫
与代理使用scrapy。因为我总是需要一个随机的代理
池
来避免被禁止,我决定编写另一个
爬虫
来抓取一个提供免费
IP
的网站。每次开始
爬虫
过程时,我都需要首先抓取
IP
,将它们导出到一个文件中,然后转到另一个
爬虫
的根目录并将
IP
读取到setting.py中。我想知道是否有可能将两个
爬虫
合并到一个项目中,这样我只需要运行一个命令就可以开始整个爬行过程。 非常感谢!
浏览 7
提问于2016-07-07
得票数 0
2
回答
如何将代理
池
实现为多个抓取程序?
我必须在具有多个使用scrapy的
爬虫
的服务器中实现一个代理
池
。 假设我已经有一个数据库,其中有多个代理一直在更新,我该如何实现代理
池
。我不想直接在代码中添加代理,主要是因为很多代理死得很快,有些
爬虫
需要很长时间才能完成。 有没有一种方法可以使用中间件或其他东西来实现这一点,而不需要更改我获得的每个
爬虫
? 谢谢。
浏览 9
提问于2019-03-19
得票数 0
5
回答
Python中的多线程
爬虫
真的可以提高速度吗?
我想用python写一个小的网络
爬虫
。我开始研究将其编写为多线程脚本,一个线程下载
池
和一个
池
处理结果。由于有了GIL,它真的可以同时下载吗?GIL对网络
爬虫
有什么影响?基本上我想问的是,用python做一个多线程
爬虫
真的比单线程能给我带来更多的性能吗? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
6
回答
具有独立实例的.NET自定义线程
池
什么是最推荐的.NET自定义线程
池
,可以有单独的实例,即每个应用程序多个线程
池
?我需要一个无限的队列大小(建立一个
爬虫
),并需要运行我正在爬行的每个网站在并行单独的线程
池
。编辑:我需要尽可能快地挖掘这些站点的信息,使用每个站点的单独线程
池
将使我能够控制在任何给定时间在每个站点上工作的线程数量。(不超过
2
-3个) 谢谢罗伊
浏览 0
修改于2009-07-21
得票数 12
1
回答
如何安全地将我在AWStats中找到的这些in列入黑名单?
我检查了我的AWStats,发现一些
IP
地址占用了大量的带宽。我怎么知道列入黑名单是否安全?有几个人每月消耗
2
GB或更多,一直如此。看这个截图:我还检查了AWStats中的
爬虫
器,但是我没有看到
IP
地址,所以我无法知道它是从哪里来的。我怎么才能挑出坏
爬虫
?
浏览 3
提问于2017-10-29
得票数 0
回答已采纳
2
回答
防止自定义Web
爬虫
被阻塞
我正在创建一个新的网络
爬虫
使用C#来抓取一些特定的网站。一切都很顺利。但问题是,,一些网站是阻塞我的
爬虫
IP
地址,后,一些请求。我试着在爬行请求之间使用时间戳。但没有起作用。有没有办法阻止网站阻塞我的
爬虫
?有些类似的解决方案会有所帮助(但我需要知道如何应用它们): 任何解决办法都会有帮助。
浏览 7
提问于2011-10-04
得票数 3
回答已采纳
3
回答
如何使用代理
池
我正在使用Scrapy,并试图通过创建一个定制的DownloaderMiddleware来使用代理
池
。我查看了Scrapy网站的文档,但没有代码示例)import random proxy_pool = ['
ip
1', '
ip
2
...', '
ip
3...']scrapy.downloadermiddlewares.httpproxy.HttpProxyM
浏览 11
修改于2016-02-17
得票数 2
回答已采纳
1
回答
在Java中每秒执行许多http请求的有效方法
我在做网络
爬虫
。可以执行许多请求(例如每秒500-1000个请求),而不需要每个请求创建线程(我不是指线程
池
、重用等等)?
浏览 4
提问于2012-12-05
得票数 2
1
回答
如何检测断电EC
2
实例在打开电源时是否具有AWS公共
池
IP
我正在编写一个Powershell脚本,用一个公共
IP
来定位所有EC
2
实例。我知道如何在NetworkInterfaces中获得弹性
IP
和公共
池
IP
关联。但是,当为公共
池
IP
(而不是EIP)配置的EC
2
实例被关闭时,公共
IP
将被释放回池中,并且关联将从NetworkInterface中删除。我似乎在任何地方都找不到任何标志或其他配置来表明,当EC
2
恢复供电时,它将请求一个新的公共
池
IP</
浏览 1
提问于2020-06-03
得票数 0
回答已采纳
1
回答
关于SOCKS5安全性的问题
我计划启动一个分布式
爬虫
,以避免服务器/CDN施加的常见限制,如速率限制、区域筛选和其他限制。源文件能够检测到服务器
IP
吗? 我无法控制代理(SOCKS5服务器),这种连接有多安全?
浏览 0
修改于2020-01-01
得票数 1
回答已采纳
1
回答
如何在Google上爬行
我的计划是我的网络
爬虫
google.com/robots.txtDisallow: /search我知道,如果我试图在搜索引擎上搜索关键字,我的
ip
可能会被封锁。我的新计划我的网络
爬虫
会 在谷歌
浏览 3
提问于2017-09-15
得票数 0
1
回答
使用实体框架C#限制到数据库的连接
我的问题是,我有几个
爬虫
填充这个数据库,以供我们的网站使用实体框架。还有其他方法来实现这一点吗?
浏览 2
修改于2016-08-03
得票数 5
回答已采纳
1
回答
如何在一个mesos从节点上运行多个码头容器?
我有两种不同的
爬虫
器,每一种都被构建成一个码头容器。现在我通过马拉松发射。下面的代码是马拉松启动json。"cpus": "0.5", "uris": [], "constraints": [
浏览 3
提问于2015-04-09
得票数 1
回答已采纳
3
回答
如何使用Java创建PostgreSQL连接
池
?
我正在尝试使用连接
池
,但我不能正确理解它。谁实现了它?是软件、驱动程序还是数据库?我需要一个代码示例。我正在做一个网络
爬虫
,它有很多到数据库的连接。
浏览 0
修改于2011-06-23
得票数 16
回答已采纳
1
回答
DNN 9.3.0 -更新后搜索栏不显示文件
我已经尝试重新索引和运行的文件
爬虫
,网站
爬虫
和网址
爬虫
多次。我还尝试为每个门户同步我的资产。还要注意的是,我一直在回收应用程序
池
,并在每次尝试失败后删除AppData/Search文件夹中的文件。
浏览 16
提问于2019-09-19
得票数 0
回答已采纳
1
回答
PHP pthread:向池中添加一个“线程”中的新对象
我的目标是创建一个小的网络
爬虫
。该过程应该继续,直到找不到新的URL。我的当前绘图如下:
爬虫
提取urls并将其放入池中。因此,每个Worker都有一个对
池
的引用,因此
爬虫
可以通过worker访问
池
对象。s
浏览 1
提问于2017-02-04
得票数 1
5
回答
爬虫
/
爬虫
IP
地址的良好来源
我在哪里可以找到
爬虫
或蜘蛛
IP
地址的全面列表。我需要从谷歌,雅虎,微软和其他搜索引擎,定期爬行我的网站的
IP
。 我不想禁用它们,因此将robots.txt文件排除在答案之外。
浏览 0
修改于2014-04-15
得票数 5
回答已采纳
1
回答
网络优化时,web爬行-使用udp和使用连接
池
?
他们建议进行以下网络优化: 切换到UDP也可以提高性能。我不明白这两种建议:连接
池
与网络爬行有什么关系?每个
爬虫
服务是否都在打开自己与主机的连接?连接
池
在这里有什么用?关于UDP,难道不是爬行向网络主机发出HTTP通过TCP请求吗?
浏览 5
修改于2020-06-20
得票数 2
1
回答
IP
空间耗尽
我在共享VPC(别名
ip
)下使用GKE,我有4台由
2
个节点
池
组成的机器。当我尝试添加更多的节点
池
(因为我想拥有更多类型的机器)时,它一直挂起,我切换到GCE/Instance选项卡,它表示
IP
空间耗尽了。但是我总共只有4台机器,
ip
范围应该足够1024(10.129.16.0/22 + 10.130.16.0/22)。 每个节点
池
会保留一些
ip
吗?可能每个泳池有512块?所以当我尝试创建更多的
池
时,它失败
浏览 0
修改于2018-11-10
得票数 4
1
回答
点对点配置地址
池
链接用于P
2
S配置的地址
池
类似于172.16.0.0/24、172.16.25.0/24和172.20.0/24。从172开始。现在我感到困惑如下。例如,现场
IP
为103.134.x.x,Azure VNet为12.0.0.0/24,Azure VM专用
IP
为52.173.x.x,虚拟网络网关的地址
池
浏览 0
修改于2019-08-13
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券