首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何防止Googlebot爬行我的下划线客户端模板?

如何防止Googlebot爬行我的下划线客户端模板?
EN

Stack Overflow用户
提问于 2014-04-23 16:14:36
回答 1查看 528关注 0票数 3

在Google网站管理员工具中,在“爬行错误”/“其他”下,我们看到了一个400个URL错误,如下所示:

代码语言:javascript
复制
/family-tree/<%=tree.user_url_slug%>/<%=tree.url_slug%>

这不是真正的URL,也不是我们想要爬行的URL。它是一个下划线/主干模板:

代码语言:javascript
复制
<script type="text/template" class="template" id="template-trees-list">
  <% _.each(trees, function(tree) { %>
    <a href="/family-tree/<%=tree.user_url_slug%>/<%=tree.url_slug%>" rel="nofollow">
      <%= tree.title %>
    </a>
  <% }); %>
</script>
  1. 为什么谷歌要在script块中爬行?
  2. 为什么谷歌忽略了rel="nofollow"属性?
  3. 我们还能做些什么让Googlebot远离下划线模板吗?

更新:如果我能够找到正确的模式来保留好的页面并阻止坏的页面,我就可以使用robots.txt。例如,我想在阻塞/surnames/Jones/queries的同时保留/surnames/Jones/queries/<%=url_slug%>。我有成千上万这样的人。看起来像Googlebot may support basic patterns,虽然不是完全的正则表达式。

更新2:嗯,这并不是根本原因,作为一个长期的解决方案,它似乎有点脆弱,但是我在GWT中测试了以下robots.txt模式将起作用:

代码语言:javascript
复制
User-agent: Googlebot
Disallow: /*url_slug%%3E$
Disallow: /*url_slug%%3E/$
EN

回答 1

Stack Overflow用户

发布于 2014-04-23 17:52:52

只要通过robots.txt阻止这些,你就会没事的

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23249948

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档