搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

5回答

爬虫/爬虫IP地址的良好来源

我在哪里可以找到爬虫或蜘蛛IP地址的全面列表。我需要从谷歌，雅虎，微软和其他搜索引擎，定期爬行我的网站的IP。我不想禁用它们，因此将robots.txt文件排除在答案之外。

浏览 0修改于2014-04-15得票数 5

回答已采纳

1回答

获取最新的facebook爬虫ip列表

我需要知道ip请求是否来自facebook。我有一个小的ip范围，以cidr格式，我能够知道它，目前的请求ip在这个范围内。但是我的范围已经过时了，我希望能够经常更新它。

浏览 1修改于2017-05-23得票数 0

回答已采纳

1回答

如何查看scrapy中启动的每个爬虫的IP？

关于以前的question，我想知道什么时候启动爬虫： scrapy crawl spider -a username=Bidule -a password=TMTC #cmd1 scrapy crawlspider -a username=Truc -a password=TMTC #cmd2 如何获取每个IP的当前IP？

浏览 44提问于2019-02-12得票数 0

1回答

将网站移动到新服务器-更新的DNS - web爬虫仍然通过IP访问旧站点。

大约十天前，我把一个站点--主要是一个Joomla讨论板--搬到了另一个IP地址的新服务器上。在短暂的预定停机期间，我照常复制了内容，并完成了DNS切换(通过Cloudflare)，并且大多数流量都遵循它--所有实际用户都能够访问该站点的一个新位置，并且似乎是大多数web爬虫请求。然而，我仍然有网络爬虫试图访问我的网站在旧的IP。我的意思是，特别是IP地址--尽管他们试图抓取现在存在于新服务器上的有效路径。爬虫是否有按服务器IP进行索引的约定？有没有办法让他们看看这个

浏览 0提问于2015-11-18得票数 0

1回答

打开图表: Facebook爬虫名称和ip添加到白名单

我的sitemap.xml运行到for，并受到速率限制和流行爬虫的ip白名单的保护。谁能给我机器人的名字和ips将爬行facebook吗？

浏览 2提问于2011-10-01得票数 3

回答已采纳

1回答

是否有任何重要的搜索引擎优化机器人(如搜索引擎爬虫)依赖IP地址来识别网站？

目前，我有一个地方，任何人试图访问我的服务器IP地址作为一个网站(例如：http://nnn.nnn.nnn.nnn)将被重定向到一个域名与最初的请求URI附加。://nnn.nnn.nnn.nnn/test将被重定向到http://example.com/testhttp://techglimpse.com/fix

浏览 0提问于2016-03-19得票数 1

1回答

使用Python爬虫选择IP代理，是自己自建还是用第三方好呢？

python、爬虫、ip、代理、网络爬虫

浏览 192提问于2025-09-18

1回答

只允许cloudflare访问我的网站，并阻止所有访问、机器人或爬虫访问我的IP地址

我的VPS 30.xxx.xx端口4490我正在考虑购买一个新的VPS和增加一个保护，只允许cloudflare和拒绝所有的I。/#allowlist-cloudflare-ip-addresseshttps://developers.cloudflare.com/fundamentals/get-started/setup/allow-cloudflare-ip-addresses/

浏览 0提问于2022-09-23得票数 0

2回答

防止自定义Web爬虫被阻塞

我正在创建一个新的网络爬虫使用C#来抓取一些特定的网站。一切都很顺利。但问题是，，一些网站是阻塞我的爬虫IP地址，后，一些请求。我试着在爬行请求之间使用时间戳。但没有起作用。有没有办法阻止网站阻塞我的爬虫？有些类似的解决方案会有所帮助(但我需要知道如何应用它们)：任何解决办法都会有帮助。

浏览 7提问于2011-10-04得票数 3

回答已采纳

0回答

Scrapy:一个项目中的多个爬虫

我已经写了一个网络爬虫与代理使用scrapy。因为我总是需要一个随机的代理池来避免被禁止，我决定编写另一个爬虫来抓取一个提供免费IP的网站。每次开始爬虫过程时，我都需要首先抓取IP，将它们导出到一个文件中，然后转到另一个爬虫的根目录并将IP读取到setting.py中。我想知道是否有可能将两个爬虫合并到一个项目中，这样我只需要运行一个命令就可以开始整个爬行过程。非常感谢!

浏览 7提问于2016-07-07得票数 0

1回答

如何在一个mesos从节点上运行多个码头容器？

我有两种不同的爬虫器，每一种都被构建成一个码头容器。现在我通过马拉松发射。下面的代码是马拉松启动json。"cpus": "0.5", "uris": [], "constraints": [

浏览 3提问于2015-04-09得票数 1

回答已采纳

1回答

如何安全地将我在AWStats中找到的这些in列入黑名单？

我检查了我的AWStats，发现一些IP地址占用了大量的带宽。我怎么知道列入黑名单是否安全？有几个人每月消耗2GB或更多，一直如此。看这个截图：我还检查了AWStats中的爬虫器，但是我没有看到IP地址，所以我无法知道它是从哪里来的。我怎么才能挑出坏爬虫？

浏览 3提问于2017-10-29得票数 0

回答已采纳

2回答

AWS:动态分配和关联新的IP地址到EC2实例？

爬虫从eCommerce网站抓取数据，但最近爬虫从网站中获得“超时错误”。根据我的IP地址，该网站可能限制了我的访问频率。分配一个新的弹性IP地址可以解决这个问题，但不会持续很长时间。我的问题是:我是否可以使用任何服务来自动和动态地分配和关联新的IP到我的实例？谢谢!

浏览 4修改于2014-04-08得票数 9

回答已采纳

3回答

如何使爬虫能够访问封闭(私有)的wiki？

我需要向爬虫提供访问私有维基的权限。对于如何启用对单个客户端(而不是用户，因为爬虫无法登录到wiki)的访问，有什么建议吗？

浏览 2提问于2011-01-27得票数 0

回答已采纳

2回答

如何理解和减少Rails应用程序中的IP欺骗攻击错误？

我从我的错误报告服务收到了很多关于IP欺骗攻击的电子邮件，而且频率越来越高。如果我正确理解，当请求设置一个HTTP报头，指定请求来自的IP地址不是原始IP地址时，就会发生这种情况。错误消息如下所示：我不确定我是否正确的阅读，但似乎这可能是由雅虎爬虫造成的。错误报告在许多不同的URL上，这使它看起来像一个<em

浏览 1提问于2014-01-22得票数 8

1回答

基于PHP crawler的IP切换

我正在寻找一个解决方案，以切换IP时自动运行PHP爬虫。我有一个自定义的爬虫，它运行100个线程，但由于油门限制，我经常被阻塞。我想为每个线程分配一个不同的IP地址，并欢迎任何建议来克服这个问题。

浏览 1修改于2014-04-15得票数 0

1回答

在绑定DNS缓存上阻止错误配置的DNS条目

我正在运行一个具有自己的绑定DNS缓存的网络爬虫。我们的代码使用DNS缓存进行解析，并使用Python的请求库发出GET请求。问题是许多FQDN配置错误，它们指向RFC1918 IP地址或环回IP(如127.0.0.1或10.0.0.0/8 )。因此，我们的爬虫试图连接这些it，并以来自数据中心的扫描报告结束。我们对爬虫进行了更改，现在它首先为FQDN解析ip，如果IP处于私有/回环/保留范围，则跳过它。在对tcpdump进行嗅探之后，我

浏览 0修改于2015-12-30得票数 2

回答已采纳

6回答

如何识别网络爬虫？

我怎样才能过滤掉网络爬虫等非人类的点击。我使用maxmind.com向IP请求城市。这并不是很便宜，如果我必须支付所有的点击，包括网络爬虫，机器人等。

浏览 3修改于2011-12-07得票数 33

回答已采纳

1回答

关于代理轮换的几个问题

我已经通过使用PuppeteerCrawler开发了一个爬虫动作，目前使用的是min。还有麦克斯。并发性1和我有几个问题：最佳毕业生，Wulfg ng

浏览 1修改于2019-10-29得票数 0

1回答

将不同的ip地址绑定到抓取蜘蛛

如何将不同的公网ip地址绑定到抓取爬虫？此外，是否可以为每个源ip (如CONCURRENT_REQUESTS_PER_SOURCE_IP)设置速率限制。从简陋的文档来看，CONCURRENT_REQUESTS_PER_DOMAIN和CONCURRENT_REQUESTS_PER_IP似乎都适用于目标域和目标ip。

浏览 0提问于2011-11-08得票数 1

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

爬虫/爬虫IP地址的良好来源

获取最新的facebook爬虫ip列表

如何查看scrapy中启动的每个爬虫的IP？

将网站移动到新服务器-更新的DNS - web爬虫仍然通过IP访问旧站点。

打开图表: Facebook爬虫名称和ip添加到白名单

是否有任何重要的搜索引擎优化机器人(如搜索引擎爬虫)依赖IP地址来识别网站？

使用Python爬虫选择IP代理，是自己自建还是用第三方好呢？

只允许cloudflare访问我的网站，并阻止所有访问、机器人或爬虫访问我的IP地址

防止自定义Web爬虫被阻塞

Scrapy:一个项目中的多个爬虫

如何在一个mesos从节点上运行多个码头容器？

如何安全地将我在AWStats中找到的这些in列入黑名单？

AWS:动态分配和关联新的IP地址到EC2实例？

如何使爬虫能够访问封闭(私有)的wiki？

如何理解和减少Rails应用程序中的IP欺骗攻击错误？

基于PHP crawler的IP切换

在绑定DNS缓存上阻止错误配置的DNS条目

如何识别网络爬虫？

关于代理轮换的几个问题

将不同的ip地址绑定到抓取蜘蛛

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐