在Google网站管理员工具中,在“爬行错误”/“其他”下,我们看到了一个400个URL错误,如下所示:
/family-tree/<%=tree.user_url_slug%>/<%=tree.url_slug%>

这不是真正的URL,也不是我们想要爬行的URL。它是一个下划线/主干模板:
<script type="text/template" class="template" id="template-trees-list">
<% _.each(trees, function(tree) { %>
<a href="/family-tree/<%=tree.user_url_slug%>/<%=tree.url_slug%>" rel="nofollow">
<%= tree.title %>
</a>
<% }); %>
</script>script块中爬行?rel="nofollow"属性?更新:如果我能够找到正确的模式来保留好的页面并阻止坏的页面,我就可以使用robots.txt。例如,我想在阻塞/surnames/Jones/queries的同时保留/surnames/Jones/queries/<%=url_slug%>。我有成千上万这样的人。看起来像Googlebot may support basic patterns,虽然不是完全的正则表达式。
更新2:嗯,这并不是根本原因,作为一个长期的解决方案,它似乎有点脆弱,但是我在GWT中测试了以下robots.txt模式将起作用:
User-agent: Googlebot
Disallow: /*url_slug%%3E$
Disallow: /*url_slug%%3E/$发布于 2014-04-23 17:52:52
只要通过robots.txt阻止这些,你就会没事的
https://stackoverflow.com/questions/23249948
复制相似问题