腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
0
回答
Scrapy:一个项目中的多个
爬虫
我已经写了一个网络
爬虫
与代理使用scrapy。因为我总是需要一个随机的代理
池
来避免被禁止,我决定编写另一个
爬虫
来抓取一个提供免费
IP
的网站。每次开始
爬虫
过程时,我都需要首先抓取
IP
,将它们导出到一个文件中,然后转到另一个
爬虫
的根目录并将
IP
读取到setting.py中。我想知道是否有可能将两个
爬虫
合并到一个项目中,这样我只需要运行一个命令就可以开始整个爬行过程。 非常感谢!
浏览 7
提问于2016-07-07
得票数 0
2
回答
如何将代理
池
实现为多个抓取程序?
我必须在具有多个使用scrapy的
爬虫
的服务器中实现一个代理
池
。 假设我已经有一个数据库,其中有多个代理一直在更新,我该如何实现代理
池
。我不想直接在代码中添加代理,主要是因为很多代理死得很快,有些
爬虫
需要很长时间才能完成。 有没有一种方法可以使用中间件或其他东西来实现这一点,而不需要更改我获得的每个
爬虫
? 谢谢。
浏览 9
提问于2019-03-19
得票数 0
5
回答
Python中的多线程
爬虫
真的可以提高速度吗?
我想用python写一个小的网络
爬虫
。我开始研究将其编写为多线程脚本,一个线程下载
池
和一个
池
处理结果。由于有了GIL,它真的可以同时下载吗?GIL对网络
爬虫
有什么影响?基本上我想问的是,用python做一个多线程
爬虫
真的比单线程能给我带来更多的性能吗? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
1
回答
在绑定DNS缓存上阻止错误配置的DNS条目
我正在运行一个具有自己的绑定DNS缓存的网络
爬虫
。我们的代码使用DNS缓存进行解析,并使用Python的请求库发出GET请求。问题是许多FQDN配置错误,它们指向RFC1918
IP
地址或环回
IP
(如127.0.0.1或10.0.0.0/
8
)。因此,我们的
爬虫
试图连接这些it,并以来自数据中心的扫描报告结束。我们对
爬虫
进行了更改,现在它首先为FQDN解析
ip
,如果
IP
处于私有/回环/保留范围,则跳过它。 在对tcpdum
浏览 0
修改于2015-12-30
得票数 2
回答已采纳
2
回答
防止自定义Web
爬虫
被阻塞
我正在创建一个新的网络
爬虫
使用C#来抓取一些特定的网站。一切都很顺利。但问题是,,一些网站是阻塞我的
爬虫
IP
地址,后,一些请求。我试着在爬行请求之间使用时间戳。但没有起作用。有没有办法阻止网站阻塞我的
爬虫
?有些类似的解决方案会有所帮助(但我需要知道如何应用它们): 任何解决办法都会有帮助。
浏览 7
提问于2011-10-04
得票数 3
回答已采纳
1
回答
在Java中每秒执行许多http请求的有效方法
我在做网络
爬虫
。可以执行许多请求(例如每秒500-1000个请求),而不需要每个请求创建线程(我不是指线程
池
、重用等等)?
浏览 4
提问于2012-12-05
得票数 2
6
回答
具有独立实例的.NET自定义线程
池
什么是最推荐的.NET自定义线程
池
,可以有单独的实例,即每个应用程序多个线程
池
?我需要一个无限的队列大小(建立一个
爬虫
),并需要运行我正在爬行的每个网站在并行单独的线程
池
。编辑:我需要尽可能快地挖掘这些站点的信息,使用每个站点的单独线程
池
将使我能够控制在任何给定时间在每个站点上工作的线程数量。(不超过2-3个) 谢谢罗伊
浏览 0
修改于2009-07-21
得票数 12
1
回答
使用多个EC2实例爬行
我已经编写了这个
爬虫
,这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理
爬虫
的结果,
爬虫
可以自由地继续爬行。我在这个爬行实例中想到的是,克隆
爬虫
的几个实例很容易,每个实例都要向中心报告以便处理。 (这是一个假设)如果每个
爬虫
都有自己独立的<
浏览 2
修改于2015-01-08
得票数 0
回答已采纳
1
回答
关于SOCKS5安全性的问题
我计划启动一个分布式
爬虫
,以避免服务器/CDN施加的常见限制,如速率限制、区域筛选和其他限制。源文件能够检测到服务器
IP
吗? 我无法控制代理(SOCKS5服务器),这种连接有多安全?
浏览 0
修改于2020-01-01
得票数 1
回答已采纳
1
回答
谷歌代理是个假
爬虫
吗?例如:google 66-249-81-131.google.com
我怀疑这些google
爬虫
是合法的,因为这些
爬虫
并不总是在代理后面(就像主机名所描述的那样),并将自己标识为浏览器。主机名的格式类似/类似于google,但是添加了字符串'proxy‘。我的PHP阻塞类会阻止这些
爬虫
,但是阻止这些
爬虫
是正确的吗?他们是什么,这些是来自谷歌还是它是假的?: 0 Continentcode : na Currencysymbol : $ Currencysymbol_utf
8</
浏览 6
修改于2013-04-11
得票数 7
1
回答
使用实体框架C#限制到数据库的连接
我的问题是,我有几个
爬虫
填充这个数据库,以供我们的网站使用实体框架。还有其他方法来实现这一点吗?
浏览 2
修改于2016-08-03
得票数 5
回答已采纳
1
回答
如何在一个mesos从节点上运行多个码头容器?
我有两种不同的
爬虫
器,每一种都被构建成一个码头容器。现在我通过马拉松发射。下面的代码是马拉松启动json。"cpus": "0.5", "uris": [], "constraints": [
浏览 3
提问于2015-04-09
得票数 1
回答已采纳
1
回答
ServicePointManager.DefaultConnectionLimit是
IP
吗?
我正在构建一个web
爬虫
,目标站点不允许来自同一个
IP
的两个以上并发连接。我的计划是:我将购买一个带有4个额外弹性
IP
的EC2,以便更快地获取数据(将是10个并发连接,
8
个来自附加
IP
,2个来自“主”
IP
)。我将使用BindIPEndPointDelegate (从获取)设置源
IP
,然后开始下载页面。因此,我的问题来了: DefaultConnectionLimit将应用于(每个源
IP
),还是仅限于2个并发连接的整个应用程序?
浏览 6
提问于2017-11-12
得票数 0
3
回答
如何使用Java创建PostgreSQL连接
池
?
我正在尝试使用连接
池
,但我不能正确理解它。谁实现了它?是软件、驱动程序还是数据库?我需要一个代码示例。我正在做一个网络
爬虫
,它有很多到数据库的连接。
浏览 0
修改于2011-06-23
得票数 16
回答已采纳
1
回答
如何安全地将我在AWStats中找到的这些in列入黑名单?
我检查了我的AWStats,发现一些
IP
地址占用了大量的带宽。我怎么知道列入黑名单是否安全?有几个人每月消耗2GB或更多,一直如此。看这个截图:我还检查了AWStats中的
爬虫
器,但是我没有看到
IP
地址,所以我无法知道它是从哪里来的。我怎么才能挑出坏
爬虫
?
浏览 3
提问于2017-10-29
得票数 0
回答已采纳
1
回答
无法从spark streaming中的套接字读取JSON对象
我正在尝试通过套接字发送一个JSON对象,如下所示
爬虫
程序conn, adds = s.accept()conn.send(json.dumps(item).encode('utf-
8
'))sc = SparkContext(conf=conf)dataStream = ssc.socketText
浏览 0
修改于2018-04-04
得票数 0
3
回答
如何使用代理
池
我正在使用Scrapy,并试图通过创建一个定制的DownloaderMiddleware来使用代理
池
。我查看了Scrapy网站的文档,但没有代码示例)import random proxy_pool = ['
ip
1', '
ip
2...', '
ip
3...']scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware
浏览 11
修改于2016-02-17
得票数 2
回答已采纳
1
回答
DNN 9.3.0 -更新后搜索栏不显示文件
我已经尝试重新索引和运行的文件
爬虫
,网站
爬虫
和网址
爬虫
多次。我还尝试为每个门户同步我的资产。还要注意的是,我一直在回收应用程序
池
,并在每次尝试失败后删除AppData/Search文件夹中的文件。
浏览 16
提问于2019-09-19
得票数 0
回答已采纳
2
回答
Java:在中使用
IP
打开URL
我在做一个网络
爬虫
。我知道DNS解析很慢,所以我们应该分开DNS解析器。假设您有String urlString ,您可以通过执行以下操作将其转换为
ip
InetAddress
ip
= InetAddress.getByName有了这个url,我们就可以像这样: String htmlDocumentString = new Scanner(new url.openStream(), "UTF-
8
").useDelimiter("\\
浏览 1
提问于2013-04-12
得票数 1
5
回答
爬虫
/
爬虫
IP
地址的良好来源
我在哪里可以找到
爬虫
或蜘蛛
IP
地址的全面列表。我需要从谷歌,雅虎,微软和其他搜索引擎,定期爬行我的网站的
IP
。 我不想禁用它们,因此将robots.txt文件排除在答案之外。
浏览 0
修改于2014-04-15
得票数 5
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券