在修改代码之前,我正在镜像一台正在运行的服务器。为此,我使用了以下命令
wget -m <address>看来一切都在那里。但这是什么?robots.txt文件?我仔细检查了一下,服务器上不存在robots.txt。然后我查看了robots.txt文件的内容,它包含来自服务器的404页。
如服务器上所示:
/var/www$ ls robots.txt
ls: cannot access robots.txt: No such file or directory但是在wget镜像文件夹中,创建了一个robots.txt文件。
好的,所以我认为wget -m是一种镜像的方法。为什么要插入不存在的东西?
发布于 2015-03-09 18:03:07
问题不在于wget插入不属于它的robots.txt文件,而在于您正在镜像内容的服务器。服务器显然失败了--配置为处理类型200的请求,因此,当wget查找wget页面时,它会重新创建404'd请求。
不久前我在看wget源代码。我认为最终的结果是wget总是寻找一个robots.txt文件。但是,在大多数情况下,如果留空,wget将删除它。在您的例子中,当wget试图访问它时,它是由它获得的404页归档的。
不幸的是,我不知道如何修复类型200的HTTP请求错误,为此,我们需要更多关于服务器的信息。
发布于 2015-02-07 01:40:34
您可以使用选项-e robots=off忽略robots.txt文件。但是,如果the服务器不是您的,忽略robots.txt文件是不礼貌的。
https://askubuntu.com/questions/582595
复制相似问题