搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

0回答

Scrapy:一个项目中的多个爬虫

我已经写了一个网络爬虫与代理使用scrapy。因为我总是需要一个随机的代理池来避免被禁止，我决定编写另一个爬虫来抓取一个提供免费IP的网站。每次开始爬虫过程时，我都需要首先抓取IP，将它们导出到一个文件中，然后转到另一个爬虫的根目录并将IP读取到setting.py中。我想知道是否有可能将两个爬虫合并到一个项目中，这样我只需要运行一个命令就可以开始整个爬行过程。非常感谢!

浏览 7提问于2016-07-07得票数 0

2回答

如何将代理池实现为多个抓取程序？

我必须在具有多个使用scrapy的爬虫的服务器中实现一个代理池。假设我已经有一个数据库，其中有多个代理一直在更新，我该如何实现代理池。我不想直接在代码中添加代理，主要是因为很多代理死得很快，有些爬虫需要很长时间才能完成。有没有一种方法可以使用中间件或其他东西来实现这一点，而不需要更改我获得的每个爬虫？谢谢。

浏览 9提问于2019-03-19得票数 0

5回答

Python中的多线程爬虫真的可以提高速度吗？

我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本，一个线程下载池和一个池处理结果。由于有了GIL，它真的可以同时下载吗？GIL对网络爬虫有什么影响？基本上我想问的是，用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗？谢谢!

浏览 4提问于2010-05-14得票数 10

回答已采纳

1回答

我正在运行一个具有自己的绑定DNS缓存的网络爬虫。我们的代码使用DNS缓存进行解析，并使用Python的请求库发出GET请求。问题是许多FQDN配置错误，它们指向RFC1918 IP地址或环回IP(如127.0.0.1或10.0.0.0/8 )。因此，我们的爬虫试图连接这些it，并以来自数据中心的扫描报告结束。我们对爬虫进行了更改，现在它首先为FQDN解析ip，如果IP处于私有/回环/保留范围，则跳过它。在对tcpdum

浏览 0修改于2015-12-30得票数 2

回答已采纳

2回答

防止自定义Web爬虫被阻塞

我正在创建一个新的网络爬虫使用C#来抓取一些特定的网站。一切都很顺利。但问题是，，一些网站是阻塞我的爬虫IP地址，后，一些请求。我试着在爬行请求之间使用时间戳。但没有起作用。有没有办法阻止网站阻塞我的爬虫？有些类似的解决方案会有所帮助(但我需要知道如何应用它们)：任何解决办法都会有帮助。

浏览 7提问于2011-10-04得票数 3

回答已采纳

1回答

在Java中每秒执行许多http请求的有效方法

我在做网络爬虫。可以执行许多请求(例如每秒500-1000个请求)，而不需要每个请求创建线程(我不是指线程池、重用等等)？

浏览 4提问于2012-12-05得票数 2

6回答

具有独立实例的.NET自定义线程池

什么是最推荐的.NET自定义线程池，可以有单独的实例，即每个应用程序多个线程池？我需要一个无限的队列大小(建立一个爬虫)，并需要运行我正在爬行的每个网站在并行单独的线程池。编辑:我需要尽可能快地挖掘这些站点的信息，使用每个站点的单独线程池将使我能够控制在任何给定时间在每个站点上工作的线程数量。(不超过2-3个) 谢谢罗伊

浏览 0修改于2009-07-21得票数 12

1回答

使用多个EC2实例爬行

我已经编写了这个爬虫，这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理爬虫的结果，爬虫可以自由地继续爬行。我在这个爬行实例中想到的是，克隆爬虫的几个实例很容易，每个实例都要向中心报告以便处理。 (这是一个假设)如果每个爬虫都有自己独立的<

浏览 2修改于2015-01-08得票数 0

回答已采纳

1回答

关于SOCKS5安全性的问题

我计划启动一个分布式爬虫，以避免服务器/CDN施加的常见限制，如速率限制、区域筛选和其他限制。源文件能够检测到服务器IP吗？我无法控制代理(SOCKS5服务器)，这种连接有多安全？

浏览 0修改于2020-01-01得票数 1

回答已采纳

1回答

谷歌代理是个假爬虫吗？例如:google 66-249-81-131.google.com

我怀疑这些google爬虫是合法的，因为这些爬虫并不总是在代理后面(就像主机名所描述的那样)，并将自己标识为浏览器。主机名的格式类似/类似于google，但是添加了字符串'proxy‘。我的PHP阻塞类会阻止这些爬虫，但是阻止这些爬虫是正确的吗？他们是什么，这些是来自谷歌还是它是假的？: 0 Continentcode : na Currencysymbol : $ Currencysymbol_utf8</

浏览 6修改于2013-04-11得票数 7

1回答

使用实体框架C#限制到数据库的连接

我的问题是，我有几个爬虫填充这个数据库，以供我们的网站使用实体框架。还有其他方法来实现这一点吗？

浏览 2修改于2016-08-03得票数 5

回答已采纳

1回答

如何在一个mesos从节点上运行多个码头容器？

我有两种不同的爬虫器，每一种都被构建成一个码头容器。现在我通过马拉松发射。下面的代码是马拉松启动json。"cpus": "0.5", "uris": [], "constraints": [

浏览 3提问于2015-04-09得票数 1

回答已采纳

1回答

ServicePointManager.DefaultConnectionLimit是IP吗？

我正在构建一个web爬虫，目标站点不允许来自同一个IP的两个以上并发连接。我的计划是:我将购买一个带有4个额外弹性IP的EC2，以便更快地获取数据(将是10个并发连接，8个来自附加IP，2个来自“主”IP)。我将使用BindIPEndPointDelegate (从获取)设置源IP，然后开始下载页面。因此，我的问题来了: DefaultConnectionLimit将应用于(每个源IP )，还是仅限于2个并发连接的整个应用程序？

浏览 6提问于2017-11-12得票数 0

3回答

如何使用Java创建PostgreSQL连接池？

我正在尝试使用连接池，但我不能正确理解它。谁实现了它？是软件、驱动程序还是数据库？我需要一个代码示例。我正在做一个网络爬虫，它有很多到数据库的连接。

浏览 0修改于2011-06-23得票数 16

回答已采纳

1回答

如何安全地将我在AWStats中找到的这些in列入黑名单？

我检查了我的AWStats，发现一些IP地址占用了大量的带宽。我怎么知道列入黑名单是否安全？有几个人每月消耗2GB或更多，一直如此。看这个截图：我还检查了AWStats中的爬虫器，但是我没有看到IP地址，所以我无法知道它是从哪里来的。我怎么才能挑出坏爬虫？

浏览 3提问于2017-10-29得票数 0

回答已采纳

1回答

无法从spark streaming中的套接字读取JSON对象

我正在尝试通过套接字发送一个JSON对象，如下所示爬虫程序conn, adds = s.accept()conn.send(json.dumps(item).encode('utf-8'))sc = SparkContext(conf=conf)dataStream = ssc.socketText

浏览 0修改于2018-04-04得票数 0

3回答

如何使用代理池

我正在使用Scrapy，并试图通过创建一个定制的DownloaderMiddleware来使用代理池。我查看了Scrapy网站的文档，但没有代码示例)import random proxy_pool = ['ip1', 'ip2...', 'ip3...']scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware

浏览 11修改于2016-02-17得票数 2

回答已采纳

1回答

DNN 9.3.0 -更新后搜索栏不显示文件

我已经尝试重新索引和运行的文件爬虫，网站爬虫和网址爬虫多次。我还尝试为每个门户同步我的资产。还要注意的是，我一直在回收应用程序池，并在每次尝试失败后删除AppData/Search文件夹中的文件。

浏览 16提问于2019-09-19得票数 0

回答已采纳

2回答

Java:在中使用IP打开URL

我在做一个网络爬虫。我知道DNS解析很慢，所以我们应该分开DNS解析器。假设您有String urlString ，您可以通过执行以下操作将其转换为ipInetAddress ip = InetAddress.getByName有了这个url，我们就可以像这样： String htmlDocumentString = new Scanner(new url.openStream(), "UTF-8").useDelimiter("\\

浏览 1提问于2013-04-12得票数 1

5回答

爬虫/爬虫IP地址的良好来源

我在哪里可以找到爬虫或蜘蛛IP地址的全面列表。我需要从谷歌，雅虎，微软和其他搜索引擎，定期爬行我的网站的IP。我不想禁用它们，因此将robots.txt文件排除在答案之外。

浏览 0修改于2014-04-15得票数 5

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Scrapy:一个项目中的多个爬虫

如何将代理池实现为多个抓取程序？

Python中的多线程爬虫真的可以提高速度吗？

在绑定DNS缓存上阻止错误配置的DNS条目

防止自定义Web爬虫被阻塞

在Java中每秒执行许多http请求的有效方法

具有独立实例的.NET自定义线程池

使用多个EC2实例爬行

关于SOCKS5安全性的问题

谷歌代理是个假爬虫吗？例如:google 66-249-81-131.google.com

使用实体框架C#限制到数据库的连接

如何在一个mesos从节点上运行多个码头容器？

ServicePointManager.DefaultConnectionLimit是IP吗？

如何使用Java创建PostgreSQL连接池？

如何安全地将我在AWStats中找到的这些in列入黑名单？

无法从spark streaming中的套接字读取JSON对象

如何使用代理池

DNN 9.3.0 -更新后搜索栏不显示文件

Java:在中使用IP打开URL

爬虫/爬虫IP地址的良好来源

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐