首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >wget -m插入robots.txt?

wget -m插入robots.txt?
EN

Ask Ubuntu用户
提问于 2015-02-07 01:26:49
回答 2查看 2.4K关注 0票数 4

在修改代码之前,我正在镜像一台正在运行的服务器。为此,我使用了以下命令

代码语言:javascript
复制
wget -m <address>

看来一切都在那里。但这是什么?robots.txt文件?我仔细检查了一下,服务器上不存在robots.txt。然后我查看了robots.txt文件的内容,它包含来自服务器的404页。

如服务器上所示:

代码语言:javascript
复制
/var/www$ ls robots.txt
ls: cannot access robots.txt: No such file or directory

但是在wget镜像文件夹中,创建了一个robots.txt文件。

好的,所以我认为wget -m是一种镜像的方法。为什么要插入不存在的东西?

EN

回答 2

Ask Ubuntu用户

回答已采纳

发布于 2015-03-09 18:03:07

问题不在于wget插入不属于它的robots.txt文件,而在于您正在镜像内容的服务器。服务器显然失败了--配置为处理类型200的请求,因此,当wget查找wget页面时,它会重新创建404'd请求。

不久前我在看wget源代码。我认为最终的结果是wget总是寻找一个robots.txt文件。但是,在大多数情况下,如果留空,wget将删除它。在您的例子中,当wget试图访问它时,它是由它获得的404页归档的。

不幸的是,我不知道如何修复类型200的HTTP请求错误,为此,我们需要更多关于服务器的信息。

票数 2
EN

Ask Ubuntu用户

发布于 2015-02-07 01:40:34

您可以使用选项-e robots=off忽略robots.txt文件。但是,如果the服务器不是您的,忽略robots.txt文件是不礼貌的。

票数 3
EN
页面原文内容由Ask Ubuntu提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://askubuntu.com/questions/582595

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档