首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Web爬行器和HTTP身份验证

Web爬行器和HTTP身份验证
EN

Stack Overflow用户
提问于 2011-04-21 17:36:07
回答 1查看 940关注 0票数 0

我有一个管理应用程序,需要通过SSL的HTTP身份验证。我已经在站点的robot.txt文件中包含了管理应用程序的路径。

我不希望管理应用程序的路径在任何地方都可见。单凭HTTP身份验证就能阻止网络蜘蛛索引页面吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-04-22 15:30:35

如果您使用合适的4xx (而不是HTTP 410或HTTP 404) HTTP状态代码进行响应,那么是的,HTTP身份验证将阻止google对此页面进行索引。

请参阅:http://www.google.com/support/webmasters/bin/answer.py?answer=40132

此外,您还可以将

代码语言:javascript
复制
X-Robots-Tag: noindex

HTTP标头,以确保额外的安全。

请参阅:http://code.google.com/web/controlcrawlindex/docs/robots_meta_tag.html

哦,是的,在robots.txt中包含网址使得谷歌更有可能索引该页面……robots.txt是一个爬行指令,它基本上是说:不要获取该url的内容。所以google不知道它是一个HTTP认证,但是爬行对于索引来说是可选的(是的,真的),url可能(这是一个非常大的可能)在google搜索结果中购买。我在这里更详细地解释了谷歌(Bot)的漏斗pages not indexed by Google

正确的HTTP status头和x-robot-tag更适合于确保url不会出现在谷歌中(但如果robots.txt指令仍然存在,这两个都是无用的)

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5742216

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档