首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何防止Httrack再次下载相同的文件?

如何防止Httrack再次下载相同的文件?
EN

Stack Overflow用户
提问于 2012-08-10 11:25:07
回答 3查看 9.2K关注 0票数 4

我正在使用httrack下载这个网站:http://4minutearticles.com/

然而,问题是作者在他的网站的每个页面上都有返回到主页的链接

例如http://4minutearticles.com/ext/

父目录链接重定向到主页,软件再次开始下载

我如何防止这种循环的发生?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2012-08-10 14:00:33

在下面提供的链接上阅读问题的答案:

“我有重复的文件!这是怎么回事?”

链接:http://www.httrack.com/html/faq.html#Q1b11

也可以看看下面链接上的"Filters:Advanced“:

http://www.httrack.com/html/filters.html

它可能会对你的问题有所帮助。

票数 3
EN

Stack Overflow用户

发布于 2012-08-10 13:43:10

您可以使用筛选器阻止HTTRACK下载相同的文件或文件夹。要执行此操作,请单击“首选项和镜像选项”标签前面的“设置选项”按钮,然后打开“扫描规则”选项卡,然后单击“排除链接”按钮,根据需要设置规则。

票数 1
EN

Stack Overflow用户

发布于 2014-06-30 23:51:01

对于顶级索引(index.html和

-2.html),通常会出现这种情况。

这是一个常见的问题,但这是不容易避免的!

例如,http://www.foobar.com/http://www.foobar.com/index.html可能是同一个页面。但是,如果网站中的链接同时涉及http://www.foobar.com/http://www.foobar.com/index.html,则这两个页面将被捕获。因为http://www.foobar.com/必须有一个名称,所以HTTrack必须找到一个名称,因为您可能想要在本地浏览网站(/会给出一个目录列表,而不是索引本身!)。因此,将生成两个index.html,其中一个带有-2,表示必须重命名该文件。

考虑到http://www.foobar.com/http://www.foobar.com/index.html是相同的链接,以避免重复文件,这可能是一个好主意,不是吗?不,因为顶级索引(/)可以引用任何文件名,并且如果index.html通常是缺省名称,则可以选择index.htm,也可以选择index.php3、mydog.jpg或您可以想象的任何名称。(有些站长真的很疯狂)

注意:在极少数情况下,当网站重定向到另一个文件时,会发现重复的数据文件。这个问题应该很少见,并且可以使用过滤器来避免。

另请参阅:Updating a project

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11895047

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档