文章/答案/技术大牛

发布

社区首页 >问答首页 >如何防止搜索引擎爬虫在AWS上索引域？

问如何防止搜索引擎爬虫在AWS上索引域？
EN

Stack Overflow用户

提问于 2021-10-09 18:17:36

回答 2查看 1.1K关注 0票数 2

除了在另一个域中运行生产环境之外，我们还有一个在.dev域上运行的暂存环境。

有什么方法可以防止我们的.dev 域被索引吗？

我不希望我们的分期网站在谷歌搜索产品时被发现。

域被托管在AWS上，使用53号路由和Cloudfront作为CDN。

应用程序托管在ECS上，前面有负载均衡器。

amazon-web-services

amazon-cloudfront

amazon-ecs

amazon-route53

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-10-09 18:27:57

如果您有向域添加文件的权限，例如S3桶、EC2实例、ECS容器实例等，则将 robots.txt 文件放置在根文件夹中。

将内容设置为：

User-agent: *
Disallow: /

确保允许公共读取访问的文件(对象)，以便搜索引擎爬虫属于谷歌，必应等可以找到和处理它。

这将防止机器人为您的文件建立索引，从而阻止您的域。

请注意，如果您的生产域指向分期网站，谷歌的爬虫仍然可以索引您的分期网站，因为搜索引擎爬虫将从您的产品爬行。网站到你的第一阶段。

在这种情况下，robots.txt并不总是阻止对网站进行索引&您将需要为您的CloudFront发行版返回的文件返回X-Robots-Tag: noindex HTTP响应头。

在这种情况下，您需要一个更复杂的解决方案，例如如果您没有web服务器为您的请求提供服务，就需要使用AWS Lambda@Edge来添加标头。

这肯定会阻止谷歌的索引，无论页面是否链接。

票数 3

Stack Overflow用户

发布于 2022-06-23 03:55:29

如果使用ELB，可以添加侦听器规则以返回robots.txt的固定响应。

这意味着您不必在站点中使用代码来区分暂存和生产，并将允许您保持生产版本的干净。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69509447

复制

相似问题

问如何防止搜索引擎爬虫在AWS上索引域？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何防止搜索引擎爬虫在AWS上索引域？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何防止搜索引擎爬虫在AWS上索引域？
EN