首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >爬虫/爬虫IP地址的良好来源

爬虫/爬虫IP地址的良好来源
EN

Stack Overflow用户
提问于 2011-01-23 06:26:26
回答 5查看 7.9K关注 0票数 5

我在哪里可以找到爬虫或蜘蛛IP地址的全面列表。我需要从谷歌,雅虎,微软和其他搜索引擎,定期爬行我的网站的IP。

我不想禁用它们,因此将robots.txt文件排除在答案之外。该列表用于对每个页面上的活动进行统计报告的过滤器。

请张贴链接到好的资源,可以使用。付费或免费。

EN

回答 5

Stack Overflow用户

回答已采纳

发布于 2011-01-23 06:29:25

您的web服务器日志。我相信他们是免费的。

票数 2
EN

Stack Overflow用户

发布于 2011-01-23 06:32:05

您可能不希望通过IP地址执行此操作。大多数爬虫在爬行您的站点时会发送一个唯一的用户代理字符串,您很可能希望使用该字符串来识别它们。我不知道你在哪里能找到一份好的清单

编辑:实际上,我在谷歌上找到的this页面似乎既回答了你的问题,又提供了用户代理(这仍然是一种更好的方法)

票数 4
EN

Stack Overflow用户

发布于 2013-11-05 00:08:42

知道网络搜索引擎的合法IP不是一件小事。用户代理很容易被欺骗。您所能做的最好的事情就是手动查看日志并观察它们的行为。IPs也可能会随着时间的推移而发生变化,甚至会因为某些恶意意图而被欺骗。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4771037

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档