首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >是否有一种简单的方法来实现‘--没有父母’的效果,并使用wget从特定的顶级目录抓取文件?

是否有一种简单的方法来实现‘--没有父母’的效果,并使用wget从特定的顶级目录抓取文件?
EN

Stack Overflow用户
提问于 2019-10-28 18:12:53
回答 1查看 660关注 0票数 0

使用wget版本1.20.3或更高版本..。

我目前正在使用类似这样的命令来保存我的博客的静态“备份”,但只有“/blog”下的页面:

wget --mirror --convert-links --adjust-extension --page-requisites --wait=1 https://example.com/blog

但是,我的一些博客页面引用了存储在顶级“静态”目录中的静态可下载文件(通常是PDF;因此扩展名是已知的和可预测的),例如,

https://example.com/static-files/file1.pdfhttps://example.com/static-files/file2.png

我想要--no-parent的行为,它只下载/blog下的页面,但我也特别想归档所有链接到的、存在于static-files目录中的文件。

有一种简单的方法可以用一个wget命令来完成这个任务吗?

如果没有,是否有合理的妥协?

EN

回答 1

Stack Overflow用户

发布于 2019-10-29 14:31:23

我认为这将满足我的需要(它确实下载了静态文件)。因此,它似乎下载了略有不同的文件集,所以我不能100%肯定什么是不同的:

代码语言:javascript
复制
wget --mirror --convert-links --adjust-extension --page-requisites --wait=1  --include-directories="/s,/blog" https://example.com/blog/

我现在拥有的输出目录是blogstatic-filesblog包含的比它多..。但我还没看过为什么。

这里的主要区别是,我们不是排除父目录,而是只包括我们想要内容的目录。

我欢迎任何人解释不同之处,并解释为何这可能是正确的答案,也可能不是正确的答案。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58596276

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档