腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
5
回答
爬虫
/
爬虫
IP
地址的良好来源
我在哪里可以找到
爬虫
或蜘蛛
IP
地址的全面列表。我需要从谷歌,雅虎,微软和其他搜索引擎,定期爬行我的网站的
IP
。 我不想禁用它们,因此将robots.txt文件排除在答案之外。
浏览 0
修改于2014-04-15
得票数 5
回答已采纳
1
回答
获取最新的facebook
爬虫
ip
列表
我需要知道
ip
请求是否来自facebook。我有一个小的
ip
范围,以cidr格式,我能够知道它,目前的请求
ip
在这个范围内。但是我的范围已经过时了,我希望能够经常更新它。
浏览 1
修改于2017-05-23
得票数 0
回答已采纳
1
回答
如何查看scrapy中启动的每个
爬虫
的
IP
?
关于以前的question,我想知道什么时候启动
爬虫
: scrapy crawl spider -a username=Bidule -a password=TMTC #cmd1 scrapy crawlspider -a username=Truc -a password=TMTC #cmd2 如何获取每个
IP
的当前
IP
?
浏览 44
提问于2019-02-12
得票数 0
1
回答
将网站移动到新服务器-更新的DNS - web
爬虫
仍然通过
IP
访问旧站点。
大约十天前,我把一个站点--主要是一个Joomla讨论板--搬到了另一个
IP
地址的新服务器上。在短暂的预定停机期间,我照常复制了内容,并完成了DNS切换(通过Cloudflare),并且大多数流量都遵循它--所有实际用户都能够访问该站点的一个新位置,并且似乎是大多数web
爬虫
请求。然而,我仍然有网络
爬虫
试图访问我的网站在旧的
IP
。我的意思是,特别是
IP
地址--尽管他们试图抓取现在存在于新服务器上的有效路径。
爬虫
是否有按服务器
IP
进行索引的约定? 有没有办法让他们看看这个
浏览 0
提问于2015-11-18
得票数 0
1
回答
打开图表: Facebook
爬虫
名称和
ip
添加到白名单
我的sitemap.xml运行到for,并受到速率限制和流行
爬虫
的
ip
白名单的保护。 谁能给我机器人的名字和ips将爬行facebook吗?
浏览 2
提问于2011-10-01
得票数 3
回答已采纳
1
回答
是否有任何重要的搜索引擎优化机器人(如搜索引擎
爬虫
)依赖
IP
地址来识别网站?
目前,我有一个地方,任何人试图访问我的服务器
IP
地址作为一个网站(例如:http://nnn.nnn.nnn.nnn)将被重定向到一个域名与最初的请求URI附加。://nnn.nnn.nnn.nnn/test将被重定向到http://example.com/testhttp://techglimpse.com/fix
浏览 0
提问于2016-03-19
得票数 1
1
回答
使用Python
爬虫
选择
IP
代理,是自己自建还是用第三方好呢?
python
、
爬虫
、
ip
、
代理
、
网络爬虫
浏览 132
提问于2025-09-18
1
回答
只允许cloudflare访问我的网站,并阻止所有访问、机器人或
爬虫
访问我的
IP
地址
我的VPS 30.xxx.xx端口4490我正在考虑购买一个新的VPS和增加一个保护,只允许cloudflare和拒绝所有的I。/#allowlist-cloudflare-
ip
-addresseshttps://developers.cloudflare.com/fundamentals/get-started/setup/allow-cloudflare-
ip
-addresses/
浏览 0
提问于2022-09-23
得票数 0
2
回答
防止自定义Web
爬虫
被阻塞
我正在创建一个新的网络
爬虫
使用C#来抓取一些特定的网站。一切都很顺利。但问题是,,一些网站是阻塞我的
爬虫
IP
地址,后,一些请求。我试着在爬行请求之间使用时间戳。但没有起作用。有没有办法阻止网站阻塞我的
爬虫
?有些类似的解决方案会有所帮助(但我需要知道如何应用它们): 任何解决办法都会有帮助。
浏览 7
提问于2011-10-04
得票数 3
回答已采纳
0
回答
Scrapy:一个项目中的多个
爬虫
我已经写了一个网络
爬虫
与代理使用scrapy。因为我总是需要一个随机的代理池来避免被禁止,我决定编写另一个
爬虫
来抓取一个提供免费
IP
的网站。每次开始
爬虫
过程时,我都需要首先抓取
IP
,将它们导出到一个文件中,然后转到另一个
爬虫
的根目录并将
IP
读取到setting.py中。我想知道是否有可能将两个
爬虫
合并到一个项目中,这样我只需要运行一个命令就可以开始整个爬行过程。 非常感谢!
浏览 7
提问于2016-07-07
得票数 0
1
回答
如何在一个mesos从节点上运行多个码头容器?
我有两种不同的
爬虫
器,每一种都被构建成一个码头容器。现在我通过马拉松发射。下面的代码是马拉松启动json。"cpus": "0.5", "uris": [], "constraints": [
浏览 3
提问于2015-04-09
得票数 1
回答已采纳
1
回答
如何安全地将我在AWStats中找到的这些in列入黑名单?
我检查了我的AWStats,发现一些
IP
地址占用了大量的带宽。我怎么知道列入黑名单是否安全?有几个人每月消耗2GB或更多,一直如此。看这个截图:我还检查了AWStats中的
爬虫
器,但是我没有看到
IP
地址,所以我无法知道它是从哪里来的。我怎么才能挑出坏
爬虫
?
浏览 3
提问于2017-10-29
得票数 0
回答已采纳
2
回答
AWS:动态分配和关联新的
IP
地址到EC2实例?
爬虫
从eCommerce网站抓取数据,但最近
爬虫
从网站中获得“超时错误”。根据我的
IP
地址,该网站可能限制了我的访问频率。分配一个新的弹性
IP
地址可以解决这个问题,但不会持续很长时间。我的问题是:我是否可以使用任何服务来自动和动态地分配和关联新的
IP
到我的实例?谢谢!
浏览 4
修改于2014-04-08
得票数 9
回答已采纳
3
回答
如何使
爬虫
能够访问封闭(私有)的wiki?
我需要向
爬虫
提供访问私有维基的权限。对于如何启用对单个客户端(而不是用户,因为
爬虫
无法登录到wiki)的访问,有什么建议吗?
浏览 2
提问于2011-01-27
得票数 0
回答已采纳
2
回答
如何理解和减少Rails应用程序中的
IP
欺骗攻击错误?
我从我的错误报告服务收到了很多关于
IP
欺骗攻击的电子邮件,而且频率越来越高。如果我正确理解,当请求设置一个HTTP报头,指定请求来自的
IP
地址不是原始
IP
地址时,就会发生这种情况。错误消息如下所示:我不确定我是否正确的阅读,但似乎这可能是由雅虎
爬虫
造成的。错误报告在许多不同的URL上,这使它看起来像一个<em
浏览 1
提问于2014-01-22
得票数 8
1
回答
基于PHP crawler的
IP
切换
我正在寻找一个解决方案,以切换
IP
时自动运行PHP
爬虫
。我有一个自定义的
爬虫
,它运行100个线程,但由于油门限制,我经常被阻塞。我想为每个线程分配一个不同的
IP
地址,并欢迎任何建议来克服这个问题。
浏览 1
修改于2014-04-15
得票数 0
1
回答
在绑定DNS缓存上阻止错误配置的DNS条目
我正在运行一个具有自己的绑定DNS缓存的网络
爬虫
。我们的代码使用DNS缓存进行解析,并使用Python的请求库发出GET请求。问题是许多FQDN配置错误,它们指向RFC1918
IP
地址或环回
IP
(如127.0.0.1或10.0.0.0/8 )。因此,我们的
爬虫
试图连接这些it,并以来自数据中心的扫描报告结束。我们对
爬虫
进行了更改,现在它首先为FQDN解析
ip
,如果
IP
处于私有/回环/保留范围,则跳过它。 在对tcpdump进行嗅探之后,我
浏览 0
修改于2015-12-30
得票数 2
回答已采纳
6
回答
如何识别网络
爬虫
?
我怎样才能过滤掉网络
爬虫
等非人类的点击。 我使用maxmind.com向
IP
请求城市。这并不是很便宜,如果我必须支付所有的点击,包括网络
爬虫
,机器人等。
浏览 3
修改于2011-12-07
得票数 33
回答已采纳
1
回答
关于代理轮换的几个问题
我已经通过使用PuppeteerCrawler开发了一个
爬虫
动作,目前使用的是min。还有麦克斯。并发性1和我有几个问题:最佳毕业生,Wulfg ng
浏览 1
修改于2019-10-29
得票数 0
1
回答
requests.get(proxies=proxies)不起作用,为什么?
我想用requests.get设置代理
IP
,但是控制台输出是我自己的
IP
,我想问
爬虫
工程师,怎么解决?
浏览 3
修改于2022-08-29
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券