首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >搜索引擎优化,谷歌网站管理员工具-如何才能让我生成一个404爬行错误报告,为网站地图中的坏网址?

搜索引擎优化,谷歌网站管理员工具-如何才能让我生成一个404爬行错误报告,为网站地图中的坏网址?
EN

Stack Overflow用户
提问于 2013-02-13 22:00:25
回答 3查看 622关注 0票数 1

我有一个自动生成的大型网站的网站地图,其中包含了一些网址,这是导致404错误,我需要删除。我需要生成一个报告,只基于网站地图中的网址,而不是由网站上的不良链接造成的爬行错误。我看不到任何过滤爬网错误报告的方法来只包含这些URL。有谁知道我可以做到这一点的方法吗?

谢谢

EN

回答 3

Stack Overflow用户

发布于 2013-02-14 00:56:39

我不确定你能不能通过站长工具轻松地做到这一点,但是你自己去检查它们是微不足道的。下面是一个perl程序,它将接受一个sitemap文件并检查每一行,打印每个url及其状态。

代码语言:javascript
复制
#!/usr/bin/perl
use strict;
require LWP::UserAgent;
my $ua = LWP::UserAgent->new;
while (my $line = <>){
    if ($line =~ /\<loc\>(.*?)\<\/loc\>/){
        my $url = $1;
        my $response = $ua->get($url);
        my $status = $response->status_line;
        $status =~ s/ .*//g;
        print "$status $url\n";
    }
}

我将它另存为checksitemapstatus.pl,并像这样使用它:

代码语言:javascript
复制
$ /tmp/checksitemap.pl /tmp/sitemap.xml 
200 http://example.com/
404 http://example.com/notfound.html
票数 2
EN

Stack Overflow用户

发布于 2013-02-14 00:58:04

在WMT中没有任何本机内容。你会想要做一些Excel。

  1. 下载已破坏的链接列表
  2. 获取站点地图链接列表。
  3. 将它们并排放置。
  4. 使用VLOOKUP来匹配列,并使用一些条件格式来更容易地查看它们是否匹配。然后,按颜色排序。
票数 2
EN

Stack Overflow用户

发布于 2013-02-14 21:01:31

您还可以将sitemap.xml导入A1网站分析器,并让它扫描它们。请参阅:http://www.microsystools.com/products/website-analyzer/help/crawl-website-pages-list/

在此之后,您可以过滤扫描结果,例如,404响应码,并导出到CSV,如果需要的话。(包括他们链接的地方的if-so-wanted )。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14855272

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档