首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何防止搜索引擎爬虫在AWS上索引域?

如何防止搜索引擎爬虫在AWS上索引域?
EN

Stack Overflow用户
提问于 2021-10-09 18:17:36
回答 2查看 1.1K关注 0票数 2

除了在另一个域中运行生产环境之外,我们还有一个在.dev域上运行的暂存环境。

有什么方法可以防止我们的.dev 域被索引吗?

我不希望我们的分期网站在谷歌搜索产品时被发现。

域被托管在AWS上,使用53号路由和Cloudfront作为CDN。

应用程序托管在ECS上,前面有负载均衡器。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-10-09 18:27:57

如果您有向域添加文件的权限,例如S3桶、EC2实例、ECS容器实例等,则将 robots.txt 文件放置在根文件夹中。

将内容设置为:

代码语言:javascript
复制
User-agent: *
Disallow: /

确保允许公共读取访问的文件(对象),以便搜索引擎爬虫属于谷歌,必应等可以找到和处理它。

这将防止机器人为您的文件建立索引,从而阻止您的域。

请注意,如果您的生产域指向分期网站,谷歌的爬虫仍然可以索引您的分期网站,因为搜索引擎爬虫将从您的产品爬行。网站到你的第一阶段。

在这种情况下,robots.txt并不总是阻止对网站进行索引&您将需要为您的CloudFront发行版返回的文件返回X-Robots-Tag: noindex HTTP响应头。

在这种情况下,您需要一个更复杂的解决方案,例如如果您没有web服务器为您的请求提供服务,就需要使用AWS Lambda@Edge来添加标头。

这肯定会阻止谷歌的索引,无论页面是否链接。

票数 3
EN

Stack Overflow用户

发布于 2022-06-23 03:55:29

如果使用ELB,可以添加侦听器规则以返回robots.txt的固定响应。

这意味着您不必在站点中使用代码来区分暂存和生产,并将允许您保持生产版本的干净。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69509447

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档