我在哪里可以找到爬虫或蜘蛛IP地址的全面列表。我需要从谷歌,雅虎,微软和其他搜索引擎,定期爬行我的网站的IP。
我不想禁用它们,因此将robots.txt文件排除在答案之外。该列表用于对每个页面上的活动进行统计报告的过滤器。
请张贴链接到好的资源,可以使用。付费或免费。
发布于 2011-01-23 06:29:25
您的web服务器日志。我相信他们是免费的。
发布于 2011-01-23 06:32:05
您可能不希望通过IP地址执行此操作。大多数爬虫在爬行您的站点时会发送一个唯一的用户代理字符串,您很可能希望使用该字符串来识别它们。我不知道你在哪里能找到一份好的清单
编辑:实际上,我在谷歌上找到的this页面似乎既回答了你的问题,又提供了用户代理(这仍然是一种更好的方法)
发布于 2013-11-05 00:08:42
知道网络搜索引擎的合法IP不是一件小事。用户代理很容易被欺骗。您所能做的最好的事情就是手动查看日志并观察它们的行为。IPs也可能会随着时间的推移而发生变化,甚至会因为某些恶意意图而被欺骗。
https://stackoverflow.com/questions/4771037
复制相似问题