文章/答案/技术大牛

发布

社区首页 >问答首页 >基于数据驱动结果的Robots.txt模式匹配

问基于数据驱动结果的Robots.txt模式匹配
EN

Stack Overflow用户

提问于 2021-12-22 11:57:03

回答 1查看 27关注 0票数 1

是否有一种方法可以在robots.txt文件中创建基于模式的规则，供搜索引擎索引？

纽约100
纽约101
纽约102
..。
亚特兰大100
亚特兰大101
亚特兰大102
..。

我们的网站有数以百万计的记录，我们希望搜索引擎索引。

索引应该基于数据驱动的结果，遵循一个简单的模式:城市+批号。

所加载的网页显示城市地段和相关信息。

不幸的是，有太多的记录不能简单地放在robots.txt文件中(超过21 to )，谷歌有500 to的机器人文件限制。

indexing

seo

robots.txt

sitemap.xml

回答 1

Stack Overflow用户

发布于 2021-12-22 13:39:35

robots.txt的默认权限是允许机器人爬行(和索引)所有内容，除非排除它。你根本不需要任何规则。您可以没有robots.txt文件，也可以像这个允许所有爬行的文件一样简单(不允许任何爬行)：

User-agent: *
Disallow:

Robots.txt规则都是“以”开始的规则。所以，如果你真的想不允许一个特定的城市，你可以这样做：

User-agent: *
Disallow: /atlanta

它将不允许所有下列URL：

/atlanta-100
/atlanta-101
/atlanta-102

但允许包括纽约在内的所有其他城市爬行。

顺便说一句，这是对搜索引擎从一个网站上索引数百万页的一个巨大要求。只有当内容是高质量的(大量的文本，独特的，写得很好，)你的网站有足够的声誉(很多其他网站的链接，和你的网站有良好的信息架构(几个可用的导航链接到和从每一页)，搜索引擎才会这么做。你的下一个问题可能是为什么搜索引擎没有索引我的内容？

您可能希望使用所有的URL创建XML站点地图。与robots.txt不同，您可以在站点地图中列出每个URL，以告诉搜索引擎有关它们的信息。然而，站点地图的权力是有限的。仅仅在站点地图中列出一个URL几乎永远都不足以使其排名良好，甚至根本无法将其编入索引。充其量，站点地图可以让搜索引擎机器人抓取你的整个网站，在网站管理员工具中给你额外的信息，并且是告诉搜索引擎你喜欢的网址的一种方式。有关详细信息，请参阅站点地图悖论。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70448692

复制

相似问题

问基于数据驱动结果的Robots.txt模式匹配
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于数据驱动结果的Robots.txt模式匹配EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于数据驱动结果的Robots.txt模式匹配
EN