我正在使用httrack下载这个网站:http://4minutearticles.com/
然而,问题是作者在他的网站的每个页面上都有返回到主页的链接
例如http://4minutearticles.com/ext/
父目录链接重定向到主页,软件再次开始下载
我如何防止这种循环的发生?
发布于 2012-08-10 14:00:33
在下面提供的链接上阅读问题的答案:
“我有重复的文件!这是怎么回事?”
链接:http://www.httrack.com/html/faq.html#Q1b11
也可以看看下面链接上的"Filters:Advanced“:
http://www.httrack.com/html/filters.html
它可能会对你的问题有所帮助。
发布于 2012-08-10 13:43:10
您可以使用筛选器阻止HTTRACK下载相同的文件或文件夹。要执行此操作,请单击“首选项和镜像选项”标签前面的“设置选项”按钮,然后打开“扫描规则”选项卡,然后单击“排除链接”按钮,根据需要设置规则。
发布于 2014-06-30 23:51:01
对于顶级索引(index.html和
-2.html),通常会出现这种情况。
这是一个常见的问题,但这是不容易避免的!
例如,http://www.foobar.com/和http://www.foobar.com/index.html可能是同一个页面。但是,如果网站中的链接同时涉及http://www.foobar.com/和http://www.foobar.com/index.html,则这两个页面将被捕获。因为http://www.foobar.com/必须有一个名称,所以HTTrack必须找到一个名称,因为您可能想要在本地浏览网站(/会给出一个目录列表,而不是索引本身!)。因此,将生成两个index.html,其中一个带有-2,表示必须重命名该文件。
考虑到http://www.foobar.com/和http://www.foobar.com/index.html是相同的链接,以避免重复文件,这可能是一个好主意,不是吗?不,因为顶级索引(/)可以引用任何文件名,并且如果index.html通常是缺省名称,则可以选择index.htm,也可以选择index.php3、mydog.jpg或您可以想象的任何名称。(有些站长真的很疯狂)
注意:在极少数情况下,当网站重定向到另一个文件时,会发现重复的数据文件。这个问题应该很少见,并且可以使用过滤器来避免。
另请参阅:Updating a project
https://stackoverflow.com/questions/11895047
复制相似问题