文章/答案/技术大牛

发布

问wget -m插入robots.txt？
EN

Ask Ubuntu用户

提问于 2015-02-07 01:26:49

回答 2查看 2.4K关注 0票数 4

在修改代码之前，我正在镜像一台正在运行的服务器。为此，我使用了以下命令

wget -m <address>

看来一切都在那里。但这是什么？robots.txt文件？我仔细检查了一下，服务器上不存在robots.txt。然后我查看了robots.txt文件的内容，它包含来自服务器的404页。

如服务器上所示：

/var/www$ ls robots.txt
ls: cannot access robots.txt: No such file or directory

但是在wget镜像文件夹中，创建了一个robots.txt文件。

好的，所以我认为wget -m是一种镜像的方法。为什么要插入不存在的东西？

server

wget

command-line

回答 2

Ask Ubuntu用户

回答已采纳

发布于 2015-03-09 18:03:07

问题不在于wget插入不属于它的robots.txt文件，而在于您正在镜像内容的服务器。服务器显然失败了--配置为处理类型200的请求，因此，当wget查找wget页面时，它会重新创建404'd请求。

不久前我在看wget源代码。我认为最终的结果是wget总是寻找一个robots.txt文件。但是，在大多数情况下，如果留空，wget将删除它。在您的例子中，当wget试图访问它时，它是由它获得的404页归档的。

不幸的是，我不知道如何修复类型200的HTTP请求错误，为此，我们需要更多关于服务器的信息。

票数 2

Ask Ubuntu用户

发布于 2015-02-07 01:40:34

您可以使用选项-e robots=off忽略robots.txt文件。但是，如果the服务器不是您的，忽略robots.txt文件是不礼貌的。

票数 3

页面原文内容由Ask Ubuntu提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://askubuntu.com/questions/582595

复制

相似问题

问wget -m插入robots.txt？
EN

回答 2

Ask Ubuntu用户

Ask Ubuntu用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问wget -m插入robots.txt？EN

回答 2

Ask Ubuntu用户

Ask Ubuntu用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问wget -m插入robots.txt？
EN