文章/答案/技术大牛

发布

社区首页 >问答首页 >Web爬行器和HTTP身份验证

问Web爬行器和HTTP身份验证
EN

Stack Overflow用户

提问于 2011-04-21 17:36:07

回答 1查看 940关注 0票数 0

我有一个管理应用程序，需要通过SSL的HTTP身份验证。我已经在站点的robot.txt文件中包含了管理应用程序的路径。

我不希望管理应用程序的路径在任何地方都可见。单凭HTTP身份验证就能阻止网络蜘蛛索引页面吗？

seo

search-engine

web-crawler

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-04-22 15:30:35

如果您使用合适的4xx (而不是HTTP 410或HTTP 404) HTTP状态代码进行响应，那么是的，HTTP身份验证将阻止google对此页面进行索引。

请参阅：http://www.google.com/support/webmasters/bin/answer.py?answer=40132

此外，您还可以将

X-Robots-Tag: noindex

HTTP标头，以确保额外的安全。

请参阅：http://code.google.com/web/controlcrawlindex/docs/robots_meta_tag.html

哦，是的，在robots.txt中包含网址使得谷歌更有可能索引该页面……robots.txt是一个爬行指令，它基本上是说:不要获取该url的内容。所以google不知道它是一个HTTP认证，但是爬行对于索引来说是可选的(是的，真的)，url可能(这是一个非常大的可能)在google搜索结果中购买。我在这里更详细地解释了谷歌(Bot)的漏斗pages not indexed by Google

正确的HTTP status头和x-robot-tag更适合于确保url不会出现在谷歌中(但如果robots.txt指令仍然存在，这两个都是无用的)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5742216

复制

相似问题

问Web爬行器和HTTP身份验证
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Web爬行器和HTTP身份验证EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Web爬行器和HTTP身份验证
EN