搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏九陌斋
SEO基础知识：了解robots.txt
例如：Googlebot、Bingbot 等。 Disallow: 禁止搜索引擎访问指定的目录或文件。 Allow: 允许搜索引擎访问指定的目录或文件。这段代码表示：允许 Googlebot 访问网站的 images 目录。禁止 Googlebot 访问 admin 目录。网站的站点地图文件位于 https://www.example.com/sitemap.xml。允许部分搜索引擎访问： User-agent: Googlebot Allow: / User-agent: Bingbot Disallow: / 只允许 Googlebot 访问，禁止 Bingbot 以下是一些主流和知名的搜索引擎爬虫代号： Google Googlebot Googlebot-Mobile（针对移动版网站） Googlebot-Image（图片搜索） Googlebot-News
1.5K10编辑于 2024-11-13
来自专栏CSDNToQQCode
错误代码大全【100(临时响应)】【200(成功)】【300(已重定向)】【400(请求错误)】【500(服务器错误)】(HTTP协议版本)
您可以使用网站管理员工具来查看 Googlebot 在抓取您已重定向的网页时是否会遇到问题。诊断下的抓取错误页中列出了 Googlebot 由于重定向错误而无法抓取的网址。但由于 Googlebot 会继续抓取原有位置并将其编入索引，因此您不应使用此代码来通知 Googlebot 某个页面或网站已被移动。但由于 Googlebot 会继续抓取原有位置并将其编入索引，因此您不应使用此代码来通知 Googlebot 某个页面或网站已被移动。如果在 Googlebot 尝试抓取您网站上的有效网页时显示此状态代码(您可在 Google 网站管理员工具中诊断下的网络抓取页面上看到此状态代码)，那么，这可能是您的服务器或主机拒绝 Googlebot 如果您在 Googlebot 尝试抓取的网址上发现此状态(位于”诊断”标签的 HTTP 错误页上)，那么，这表示 Googlebot 所追踪的可能是另一网页中的无效链接(旧链接或输入有误的链接)。
6.8K10编辑于 2022-11-28
来自专栏西里网CSDN博客
拦截搜索引擎爬虫
拦截搜索引擎爬虫操作示例通过robots.txt文件 User-agent: * Disallow: /private/ Disallow: /temp/ Disallow: /admin/ User-agent: Googlebot 禁止所有爬虫 SetEnvIfNoCase User-Agent .* bad_bot Deny from env=bad_bot # 禁止特定爬虫 SetEnvIfNoCase User-Agent "Googlebot User-Agent "Bingbot" bad_bot Deny from env=bad_bot 通过Nginx配置 location / { if ($http_user_agent ~* (Googlebot php user_agent = _SERVER['HTTP_USER_AGENT']; $bots = array('Googlebot', 'Bingbot', 'YandexBot', 'Slurp
25310编辑于 2025-07-10
来自专栏技术博文
HTTP状态码查询
但由于 Googlebot 会继续抓取原有位置并将其编入索引，因此您不应使用此代码来通知 Googlebot 某个页面或网站已被移动。由于服务器可以告诉 Googlebot 自从上次抓取后网页没有更改过，因此可节省带宽和开销 305（使用代理）请求者只能使用代理访问请求的网页。但由于 Googlebot 会继续抓取原有位置并将其编入索引，因此您不应使用此代码来通知 Googlebot 某个页面或网站已被移动。如果在 Googlebot 尝试抓取您网站上的有效网页时显示此状态代码（您可在 Google 网站管理员工具中诊断下的网络抓取页面上看到此状态代码），那么，这可能是您的服务器或主机拒绝 Googlebot 如果您在 Googlebot 尝试抓取的网址上发现此状态（位于"诊断"标签的 HTTP 错误页上），那么，这表示 Googlebot 所追踪的可能是另一网页中的无效链接（旧链接或输入有误的链接）。
2.5K100发布于 2018-04-16
来自专栏全栈技术
浅谈Google蜘蛛抓取的工作原理(待更新)
至于谷歌，有超过15种不同类型的爬行器，谷歌的主要爬行器被称为Googlebot。Googlebot同时执行爬行和索引，下面我们将仔细看看它是如何工作的。爬行器如何工作？移动和桌面渲染 Googlebot可以"看到"你的页面与两个子类型的爬行者：桌面Googlebot和智能手机Googlebot。需要此部门为桌面和移动 SERP 索引页面。注意：在任何情况下，您的网站将被移动Googlebot和桌面Googlebot访问。因此，重要的是要照顾你的网站的两个版本，并考虑使用响应式布局，如果你还没有这样做。您可以尝试客人发帖、发起广告活动或尝试任何其他方式，让 Googlebot 查看新页面的 URL。注意：链接应该遵循，让Googlebot 跟随他们。 Googlebot也不例外。Googlebot可能会感到困惑，当试图了解长和参数丰富的网址。因此，更多的爬行资源被花费。为了防止这种情况，使您的网址用户友好。
4.7K10发布于 2021-08-23
来自专栏林雍岷
网站页面优化：其它元标签
问：GOOGLE是否使用GOOGLEBOT元标签对网页进行排名？是的，GOOGLEBOT元标签控制搜索引擎如何抓取和索引页面。 GOOGLEBOT元标签是HTML标签，在HEAD部分找到它，看起来像这样： <meta name="<em>googlebot</em>" content="[DIRECTIVE]"> GOOGLEBOT元标签默认值是我们可以识别以下值（指定多个值时，请使用英文逗号进行分隔）： noindex - 告诉Googlebot不要索引该网页； nofollow - 告诉Googlebot不要跟踪该网页上的链接； nosnippet - 告诉Googlebot不要把文本摘要或视频预览显示在搜索结果中。对于视频，将改为显示一张静态图片（如果可以的话）； noarchive - 告诉Googlebot不要显示网页的缓存链接； unavailable_after:[date] - 告诉Googlebot要停止抓取此网页及指定将其编入索引的确切日期和时间
1.6K30发布于 2019-07-03
来自专栏全栈程序员必看
robots.txt文件详解「建议收藏」
全禁止 Allow: /path Allow: # 空字符串，起通配符效果，全允许搜索引擎的User-Agent对应名称搜索引擎 User-Agent值 Google googlebot 上抓包观察到的一些搜索引擎访问记录： # tcpdump -n -nn -A -l -s1024 'tcp port 80'|grep User-Agent User-Agent: Mozilla/5.0 (compatible; Googlebot /2.1; +http://www.google.com/bot.html) User-Agent: Googlebot-Image/1.0 User-Agent: Feedfetcher-Google nofollow 防止googlebot从此页面中跟踪链接。 noarchive 防止Google显示网页的快照链接。 Allow: / User-agent: Googlebot User-agent: MSNBot User-agent: Baiduspider-image User-agent: YoudaoBot
2.7K20编辑于 2022-08-23
来自专栏后场技术
http状态代码含义
您可以使用网站管理员工具查看一下 Googlebot 在抓取重定向网页时是否遇到问题。诊断下的网络抓取页中列出了由于重定向错误而导致 Googlebot 无法抓取的网址。此代码与响应 GET 或 HEAD 请求的 301 代码类似，会自动将请求者转到不同的位置，但您不应使用此代码来告诉 Googlebot 某个网页或网站已经移动，因为 Googlebot 会继续抓取原有位置并编制索引此代码与响应 GET 和 HEAD 请求的 301 代码类似，会自动将请求者转到不同的位置，但您不应使用此代码来告诉 Googlebot 某个页面或网站已经移动，因为 Googlebot 会继续抓取原有位置并编制索引如果您在 Googlebot 尝试抓取您网站上的有效网页时看到此状态代码（可以在 Google 网站管理员工具诊断下的网络抓取页面上看到此信息），可能是您的服务器或主机拒绝 Googlebot 访问。如果对于 Googlebot 尝试抓取的网址看到此状态（在”诊断”标签的 HTTP 错误页上），则表示 Googlebot 追踪的可能是另一个页面的无效链接（是旧链接或输入有误的链接）。
1.7K20发布于 2020-09-03
来自专栏全栈程序员必看
robots.txt详解[通俗易懂]
Googlebot 和其他正规的网页抓取工具都会遵循 robots.txt 文件中的命令，但其他抓取工具未必如此。不同的抓取工具会以不同的方式解析语法。对着着示例说明： # Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot User-agent: Googlebot-news Allow: / User-agent: * Disallow: / # Unnecessarybot 不能抓取相应网站，所有其他漫游器都可以 User-agent: Googlebot-Image Disallow: / # 禁止谷歌抓取所有 .gif 文件。 User-agent: Googlebot Disallow: /*.xls$ 如何更新robots文件？
3.5K20编辑于 2022-08-14
来自专栏葫芦
teg http 返回码含义
您可以使用网站管理员工具查看一下 Googlebot 在抓取重定向网页时是否遇到问题。诊断下的网络抓取页列出了由于重定向错误导致 Googlebot 无法抓取的网址。此代码与响应 GET 和 HEAD 请求的 301 代码类似，会自动将请求者转到不同的位置，但您不应使用此代码来告诉 Googlebot 某个网页或网站已经移动，因为 Googlebot 会继续抓取原有位置并编制索引 answer=>301 代码类似，会自动将请求者转到不同的位置，但您不应使用此代码来告诉 Googlebot 某个页面或网站已经移动，因为 Googlebot 会继续抓取原有位置并编制索引。如果您在 Googlebot 尝试抓取您网站上的有效网页时看到此状态码（您可以在 Google 网站管理员工具诊断下的网络抓取页面上看到此信息），可能是您的服务器或主机拒绝了 Googlebot 访问。如果对于 Googlebot 抓取的网址看到此状态码（在”诊断”标签的 HTTP 错误页面上），则表示 Googlebot 跟随的可能是另一个页面的无效链接（是旧链接或输入有误的链接）。
1.6K20发布于 2019-04-17
来自专栏云知识学习
常用HTTP状态码简介
您可以使用网站管理员工具来查看 Googlebot 在抓取您已重定向的网页时是否会遇到问题。诊断下的抓取错误页中列出了 Googlebot 由于重定向错误而无法抓取的网址。但由于 Googlebot 会继续抓取原有位置并将其编入索引，因此您不应使用此代码来通知 Googlebot 某个页面或网站已被移动。但由于 Googlebot 会继续抓取原有位置并将其编入索引，因此您不应使用此代码来通知 Googlebot 某个页面或网站已被移动。如果在 Googlebot 尝试抓取您网站上的有效网页时显示此状态代码（您可在 Google 网站管理员工具中诊断下的网络抓取页面上看到此状态代码），那么，这可能是您的服务器或主机拒绝 Googlebot 如果您在 Googlebot 尝试抓取的网址上发现此状态（位于"诊断"标签的 HTTP 错误页上），那么，这表示 Googlebot 所追踪的可能是另一网页中的无效链接（旧链接或输入有误的链接）。
2.5K60发布于 2018-05-02
来自专栏Linux运维学习之路
http协议的各类状态码
您可以使用网站管理员工具查看一下 Googlebot 在抓取重定向网页时是否遇到问题。诊断下的网络抓取页列出了由于重定向错误导致 Googlebot 无法抓取的网址。此代码与响应 GET 和 HEAD 请求的 301 代码类似，会自动将请求者转到不同的位置，但您不应使用此代码来告诉 Googlebot 某个网页或网站已经移动，因为 Googlebot 会继续抓取原有位置并编制索引 answer=>301 代码类似，会自动将请求者转到不同的位置，但您不应使用此代码来告诉 Googlebot 某个页面或网站已经移动，因为 Googlebot 会继续抓取原有位置并编制索引。如果您在 Googlebot 尝试抓取您网站上的有效网页时看到此状态码（您可以在 Google 网站管理员工具诊断下的网络抓取页面上看到此信息），可能是您的服务器或主机拒绝了 Googlebot 访问。如果对于 Googlebot 抓取的网址看到此状态码（在”诊断”标签的 HTTP 错误页面上），则表示 Googlebot 跟随的可能是另一个页面的无效链接（是旧链接或输入有误的链接）。
1.6K80发布于 2018-03-29
来自专栏FreeBuf
JoomScan：一款开源的OWASP Joomla漏洞扫描器
www.example.com --cookie "test=demo;" 设置user-agent： perl joomscan.pl --url www.example.com --user-agent "Googlebot /2.1(+http://www.googlebot.com/bot.html)"perl joomscan.pl -u www.example.com -a "Googlebot/2.1(+http: //www.googlebot.com/bot.html)" 设置随机user-agent perl joomscan.pl -u www.example.com --random-agentperl
2.5K30发布于 2018-09-21
来自专栏全栈程序员必看
如何使用robots.txt及其详解
例如，要让 Googlebot 只为所有的 http 网页而不为 https 网页编制索引，应使用下面的 robots.txt 文件。使用 robots.txt 文件拦截或删除网页您可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。 Googlebot Disallow: /private 要阻止 Googlebot 抓取特定文件类型（例如，.gif）的所有文件，可使用以下 robots.txt 条目： User-agent: Googlebot Disallow: /*.gif$ 要阻止 Googlebot 抓取所有包含 ? 它可以按照 Googlebot 读取 robots.txt 文件的相同方式读取该文件，并且可为 Google user-agents（如 Googlebot）提供结果。我们强烈建议您使用它。
1.9K10编辑于 2022-06-30
来自专栏米扑专栏
HTTP 返回状态值详解
您可以使用网站管理员工具查看一下 Googlebot 在抓取重定向网页时是否遇到问题。诊断下的网络抓取页列出了由于重定向错误导致 Googlebot 无法抓取的网址。　　此代码与响应 GET 和 HEAD 请求的 301 代码类似，会自动将请求者转到不同的位置，但您不应使用此代码来告诉 Googlebot 某个网页或网站已经移动，因为 Googlebot 会继续抓取原有位置并编制索引此代码与响应 GET 和 HEAD 请求的 301 代码类似，会自动将请求者转到不同的位置，但您不应使用此代码来告诉 Googlebot 某个页面或网站已经移动，因为 Googlebot 会继续抓取原有位置并编制索引如果您在 Googlebot 尝试抓取您网站上的有效网页时看到此状态码(您可以在 Google 网站管理员工具诊断下的网络抓取页面上看到此信息)，可能是您的服务器或主机拒绝了 Googlebot 访问。如果对于 Googlebot 抓取的网址看到此状态码(在"诊断"标签的 HTTP 错误页面上)，则表示 Googlebot 跟随的可能是另一个页面的无效链接(是旧链接或输入有误的链接)。　　
5.2K30发布于 2019-02-19
来自专栏柒八九技术收纳盒
优化SPA：使得网站对SEO更友好
可以把它想象成一个拥有不断扩展的库存的图书馆 ❞ 在讲方案前，我们先简单介绍一下，Googlebot对网站应用的处理流程抓取渲染(呈现) 编入索引当 Googlebot 尝试通过发出 HTTP Googlebot 会读取 robots.txt 文件。如果此文件将该网址标记为「disallowed」，Googlebot 就会跳过向该网址发出 HTTP 请求的操作，然后会跳过该网址。接下来，Googlebot 会解析 HTML 链接的 href 属性中其他网址的响应，并将这些网址添加到抓取队列中。若不想让 Googlebot 发现链接，使用 nofollow 机制抓取网址并解析 HTML 响应非常适用于「经典网站或服务器端呈现的网页」（在这些网站或网页中，HTTP 响应中的 HTML 包含「所有内容 ❞ 现在 Googlebot不需要用户提供预渲染页面，就能够处理自带额外信息(#!)的URL。
3.2K20编辑于 2022-08-25
来自专栏全栈程序员必看
Robots.txt – 禁止爬虫
全禁止 Allow: /path Allow: # 空字符串，起通配符效果，全允许搜索引擎的User-Agent对应名称搜索引擎 User-Agent值 Google googlebot 上抓包观察到的一些搜索引擎访问记录： # tcpdump -n -nn -A -l -s1024 'tcp port 80'|grep User-Agent User-Agent: Mozilla/5.0 (compatible; Googlebot /2.1; +http://www.google.com/bot.html) User-Agent: Googlebot-Image/1.0 User-Agent: Feedfetcher-Google nofollow 防止googlebot从此页面中跟踪链接。 noarchive 防止Google显示网页的快照链接。 Allow: / User-agent: Googlebot User-agent: MSNBot User-agent: Baiduspider-image User-agent: YoudaoBot
2.6K30编辑于 2022-07-07
来自专栏全栈程序员必看
HTTP 304状态码的详细讲解
您可以使用网站管理员工具查看一下 Googlebot 在抓取重定向网页时是否遇到问题。诊断下的网络抓取页列出了由于重定向错误导致 Googlebot 无法抓取的网址。此代码与响应 GET 和 HEAD 请求的 301 代码类似，会自动将请求者转到不同的位置，但您不应使用此代码来告诉 Googlebot 某个网页或网站已经移动，因为 Googlebot 会继续抓取原有位置并编制索引 answer=>301 代码类似，会自动将请求者转到不同的位置，但您不应使用此代码来告诉 Googlebot 某个页面或网站已经移动，因为 Googlebot 会继续抓取原有位置并编制索引。如果您在 Googlebot 尝试抓取您网站上的有效网页时看到此状态码（您可以在 Google 网站管理员工具诊断下的网络抓取页面上看到此信息），可能是您的服务器或主机拒绝了 Googlebot 访问。如果对于 Googlebot 抓取的网址看到此状态码（在”诊断”标签的 HTTP 错误页面上），则表示 Googlebot 跟随的可能是另一个页面的无效链接（是旧链接或输入有误的链接）。
16.7K21编辑于 2022-07-21
来自专栏云外科技
[技术向] 用Docker自建 Vaultwarden (Bitwarden_rs)
server_name bitwarden.example.com; ##防止搜索引擎收录 if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot |Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! server_name bitwarden.example.com; if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot |Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo!
13.8K31编辑于 2021-12-14
来自专栏短信接收服务
如果通过 IP 判断是否是爬虫
MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.97 Mobile Safari/537.36 (compatible; Googlebot MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.97 Mobile Safari/537.36 (compatible; Googlebot 我们可以通过 IP 反查，可以看出来 Hostname 是：crawl-66-249-71-19.googlebot.com 通过 ping 获取此 Hostname 的 IP 地址是：66.249.71.19
2.6K20发布于 2021-11-09

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

SEO基础知识：了解robots.txt

错误代码大全【100(临时响应)】【200(成功)】【300(已重定向)】【400(请求错误)】【500(服务器错误)】(HTTP协议版本)

拦截搜索引擎爬虫

HTTP状态码查询

浅谈Google蜘蛛抓取的工作原理(待更新)

网站页面优化：其它元标签

robots.txt文件详解「建议收藏」

http状态代码含义

robots.txt详解[通俗易懂]

teg http 返回码含义

常用HTTP状态码简介

http协议的各类状态码

JoomScan：一款开源的OWASP Joomla漏洞扫描器

如何使用robots.txt及其详解

HTTP 返回状态值详解

优化SPA：使得网站对SEO更友好

Robots.txt – 禁止爬虫

HTTP 304状态码的详细讲解

[技术向] 用Docker自建 Vaultwarden (Bitwarden_rs)

如果通过 IP 判断是否是爬虫

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐