首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于数据驱动结果的Robots.txt模式匹配

基于数据驱动结果的Robots.txt模式匹配
EN

Stack Overflow用户
提问于 2021-12-22 11:57:03
回答 1查看 27关注 0票数 1

是否有一种方法可以在robots.txt文件中创建基于模式的规则,供搜索引擎索引?

  • 纽约100
  • 纽约101
  • 纽约102
  • ..。
  • 亚特兰大100
  • 亚特兰大101
  • 亚特兰大102
  • ..。

我们的网站有数以百万计的记录,我们希望搜索引擎索引。

索引应该基于数据驱动的结果,遵循一个简单的模式:城市+批号。

所加载的网页显示城市地段和相关信息。

不幸的是,有太多的记录不能简单地放在robots.txt文件中(超过21 to ),谷歌有500 to的机器人文件限制。

EN

回答 1

Stack Overflow用户

发布于 2021-12-22 13:39:35

robots.txt的默认权限是允许机器人爬行(和索引)所有内容,除非排除它。你根本不需要任何规则。您可以没有robots.txt文件,也可以像这个允许所有爬行的文件一样简单(不允许任何爬行):

代码语言:javascript
复制
User-agent: *
Disallow:

Robots.txt规则都是“以”开始的规则。所以,如果你真的想不允许一个特定的城市,你可以这样做:

代码语言:javascript
复制
User-agent: *
Disallow: /atlanta

它将不允许所有下列URL:

  • /atlanta-100
  • /atlanta-101
  • /atlanta-102

但允许包括纽约在内的所有其他城市爬行。

顺便说一句,这是对搜索引擎从一个网站上索引数百万页的一个巨大要求。只有当内容是高质量的(大量的文本,独特的,写得很好,)你的网站有足够的声誉(很多其他网站的链接,和你的网站有良好的信息架构(几个可用的导航链接到和从每一页),搜索引擎才会这么做。你的下一个问题可能是为什么搜索引擎没有索引我的内容?

您可能希望使用所有的URL创建XML站点地图。与robots.txt不同,您可以在站点地图中列出每个URL,以告诉搜索引擎有关它们的信息。然而,站点地图的权力是有限的。仅仅在站点地图中列出一个URL几乎永远都不足以使其排名良好,甚至根本无法将其编入索引。充其量,站点地图可以让搜索引擎机器人抓取你的整个网站,在网站管理员工具中给你额外的信息,并且是告诉搜索引擎你喜欢的网址的一种方式。有关详细信息,请参阅站点地图悖论

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70448692

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档