首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >边界Heritrix深度

边界Heritrix深度
EN

Stack Overflow用户
提问于 2010-06-20 20:05:55
回答 2查看 658关注 0票数 1

我是Heritrix的新手,正在使用heritirx 1.14。我不知道如何做以下事情: 1)绑定下载链接的BFS深度到一个特定的数字,例如3.2)限制下载的类型为html和text。

非常感谢您的关注。

EN

回答 2

Stack Overflow用户

发布于 2010-06-20 20:44:10

首先,我可能混淆了Heritrix 2(我使用得更多)和Heritrix 1(我很久没用过了)的概念。抱歉,如果我这样做了。

深度是前线的一个范围设置。BroadScope将具有深度限制设置。或者,您可以使用DecidingScope作为作用域。

至于下载什么类型的文件,我认为应该在你尝试用来归档爬网文件的MirrorWriterProcessor (它是2.x中的DecideRules序列)上进行设置。

顺便说一下,对于这种类型的任务,wget / httrack更容易配置,至少当你只需要最新的网页副本时是这样。

票数 0
EN

Stack Overflow用户

发布于 2010-06-22 04:04:57

1)将下载链接的BFS深度绑定到一个具体的数字,例如3。

max-link-hops设置为3。请参见6.3.2。manual的作用域设置。

2)将下载的类型限制为html和文本。

在ContentTypeRegExpFilter中将其配置为仅匹配text/plaintext/html。请参见第6.2.2.2节。提供来自manual的筛选器。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3079151

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档