首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >对于一个页面应用程序,我的robots.txt应该是什么样子?

对于一个页面应用程序,我的robots.txt应该是什么样子?
EN

Webmasters Stack Exchange用户
提问于 2014-05-01 07:09:26
回答 1查看 4.9K关注 0票数 2

我可以理解如何在正常应用程序中禁止机器人爬行一些页面/文件夹。例如,对于谷歌-bot这里描述得很好

但是,如果我有一个页面应用程序(这个应用程序只使用ajax上传新内容,并且在客户端上有路由和页面生成),我该怎么办?如何使它可爬行是描述这里这里,但如果我没有一个机器人跟随一些链接(在我的起始页面)?我这样说的意思是:

当SPA首次加载时,它会加载一些基本的HTML。这个html可以有特定的链接,如:

  • 家(#!家/)
  • 关于(#!)
  • 新闻(#!新闻)

但我现在确实想要一个机器人爬#!关于链接。

EN

回答 1

Webmasters Stack Exchange用户

回答已采纳

发布于 2014-05-01 08:54:57

我找到了一种方法来做我想做的事。这是很好的谷歌记录

当您的站点采用AJAX爬行方案时,Google爬虫会抓取它遇到的每个散列片段URL。如果您有不应该爬行的散列片段URL,我们建议您向您的robots.txt文件中添加一个正则表达式指令。例如,您可以在不应该爬行的散列片段中使用约定,然后将robots.txt文件中匹配它的所有URL排除在外。假设所有不可索引的状态都是“#DONOTCRAWLmy片段”形式的。然后,您可以通过在robots.txt中添加以下内容来防止Googlebot爬行这些页面:

票数 3
EN
页面原文内容由Webmasters Stack Exchange提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://webmasters.stackexchange.com/questions/61253

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档