是否有一种方法可以在robots.txt文件中创建基于模式的规则,供搜索引擎索引?
我们的网站有数以百万计的记录,我们希望搜索引擎索引。
索引应该基于数据驱动的结果,遵循一个简单的模式:城市+批号。
所加载的网页显示城市地段和相关信息。
不幸的是,有太多的记录不能简单地放在robots.txt文件中(超过21 to ),谷歌有500 to的机器人文件限制。
发布于 2021-12-22 13:39:35
robots.txt的默认权限是允许机器人爬行(和索引)所有内容,除非排除它。你根本不需要任何规则。您可以没有robots.txt文件,也可以像这个允许所有爬行的文件一样简单(不允许任何爬行):
User-agent: *
Disallow:Robots.txt规则都是“以”开始的规则。所以,如果你真的想不允许一个特定的城市,你可以这样做:
User-agent: *
Disallow: /atlanta它将不允许所有下列URL:
/atlanta-100/atlanta-101/atlanta-102但允许包括纽约在内的所有其他城市爬行。
顺便说一句,这是对搜索引擎从一个网站上索引数百万页的一个巨大要求。只有当内容是高质量的(大量的文本,独特的,写得很好,)你的网站有足够的声誉(很多其他网站的链接,和你的网站有良好的信息架构(几个可用的导航链接到和从每一页),搜索引擎才会这么做。你的下一个问题可能是为什么搜索引擎没有索引我的内容?
您可能希望使用所有的URL创建XML站点地图。与robots.txt不同,您可以在站点地图中列出每个URL,以告诉搜索引擎有关它们的信息。然而,站点地图的权力是有限的。仅仅在站点地图中列出一个URL几乎永远都不足以使其排名良好,甚至根本无法将其编入索引。充其量,站点地图可以让搜索引擎机器人抓取你的整个网站,在网站管理员工具中给你额外的信息,并且是告诉搜索引擎你喜欢的网址的一种方式。有关详细信息,请参阅站点地图悖论。
https://stackoverflow.com/questions/70448692
复制相似问题