问对于一个页面应用程序，我的robots.txt应该是什么样子？
EN

Webmasters Stack Exchange用户

提问于 2014-05-01 07:09:26

回答 1查看 4.9K关注 0票数 2

我可以理解如何在正常应用程序中禁止机器人爬行一些页面/文件夹。例如，对于谷歌-bot这里描述得很好。

但是，如果我有一个页面应用程序(这个应用程序只使用ajax上传新内容，并且在客户端上有路由和页面生成)，我该怎么办？如何使它可爬行是描述这里和这里，但如果我没有一个机器人跟随一些链接(在我的起始页面)？我这样说的意思是：

当SPA首次加载时，它会加载一些基本的HTML。这个html可以有特定的链接，如：

家(#！家/)
关于(#！)
新闻(#！新闻)

但我现在确实想要一个机器人爬#！关于链接。

ajax

robots.txt

回答 1

Webmasters Stack Exchange用户

回答已采纳

发布于 2014-05-01 08:54:57

我找到了一种方法来做我想做的事。这是很好的谷歌记录：

当您的站点采用AJAX爬行方案时，Google爬虫会抓取它遇到的每个散列片段URL。如果您有不应该爬行的散列片段URL，我们建议您向您的robots.txt文件中添加一个正则表达式指令。例如，您可以在不应该爬行的散列片段中使用约定，然后将robots.txt文件中匹配它的所有URL排除在外。假设所有不可索引的状态都是“#DONOTCRAWLmy片段”形式的。然后，您可以通过在robots.txt中添加以下内容来防止Googlebot爬行这些页面：

票数 3

页面原文内容由Webmasters Stack Exchange提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://webmasters.stackexchange.com/questions/61253

复制

相似问题

问对于一个页面应用程序，我的robots.txt应该是什么样子？
EN

回答 1

Webmasters Stack Exchange用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对于一个页面应用程序，我的robots.txt应该是什么样子？EN

回答 1

Webmasters Stack Exchange用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对于一个页面应用程序，我的robots.txt应该是什么样子？
EN