除了在另一个域中运行生产环境之外,我们还有一个在.dev域上运行的暂存环境。
有什么方法可以防止我们的.dev 域被索引吗?
我不希望我们的分期网站在谷歌搜索产品时被发现。
域被托管在AWS上,使用53号路由和Cloudfront作为CDN。
应用程序托管在ECS上,前面有负载均衡器。
发布于 2021-10-09 18:27:57
如果您有向域添加文件的权限,例如S3桶、EC2实例、ECS容器实例等,则将 robots.txt 文件放置在根文件夹中。
将内容设置为:
User-agent: *
Disallow: /确保允许公共读取访问的文件(对象),以便搜索引擎爬虫属于谷歌,必应等可以找到和处理它。
这将防止机器人为您的文件建立索引,从而阻止您的域。
请注意,如果您的生产域指向分期网站,谷歌的爬虫仍然可以索引您的分期网站,因为搜索引擎爬虫将从您的产品爬行。网站到你的第一阶段。
在这种情况下,robots.txt并不总是阻止对网站进行索引&您将需要为您的CloudFront发行版返回的文件返回X-Robots-Tag: noindex HTTP响应头。
在这种情况下,您需要一个更复杂的解决方案,例如如果您没有web服务器为您的请求提供服务,就需要使用AWS Lambda@Edge来添加标头。
这肯定会阻止谷歌的索引,无论页面是否链接。
发布于 2022-06-23 03:55:29
如果使用ELB,可以添加侦听器规则以返回robots.txt的固定响应。

这意味着您不必在站点中使用代码来区分暂存和生产,并将允许您保持生产版本的干净。
https://stackoverflow.com/questions/69509447
复制相似问题