我可以理解如何在正常应用程序中禁止机器人爬行一些页面/文件夹。例如,对于谷歌-bot这里描述得很好。
但是,如果我有一个页面应用程序(这个应用程序只使用ajax上传新内容,并且在客户端上有路由和页面生成),我该怎么办?如何使它可爬行是描述这里和这里,但如果我没有一个机器人跟随一些链接(在我的起始页面)?我这样说的意思是:
当SPA首次加载时,它会加载一些基本的HTML。这个html可以有特定的链接,如:
但我现在确实想要一个机器人爬#!关于链接。
发布于 2014-05-01 08:54:57
我找到了一种方法来做我想做的事。这是很好的谷歌记录:
当您的站点采用AJAX爬行方案时,Google爬虫会抓取它遇到的每个散列片段URL。如果您有不应该爬行的散列片段URL,我们建议您向您的robots.txt文件中添加一个正则表达式指令。例如,您可以在不应该爬行的散列片段中使用约定,然后将robots.txt文件中匹配它的所有URL排除在外。假设所有不可索引的状态都是“#DONOTCRAWLmy片段”形式的。然后,您可以通过在robots.txt中添加以下内容来防止Googlebot爬行这些页面:
https://webmasters.stackexchange.com/questions/61253
复制相似问题