我是Heritrix的新手,正在使用heritirx 1.14。我不知道如何做以下事情: 1)绑定下载链接的BFS深度到一个特定的数字,例如3.2)限制下载的类型为html和text。
非常感谢您的关注。
发布于 2010-06-20 20:44:10
首先,我可能混淆了Heritrix 2(我使用得更多)和Heritrix 1(我很久没用过了)的概念。抱歉,如果我这样做了。
深度是前线的一个范围设置。BroadScope将具有深度限制设置。或者,您可以使用DecidingScope作为作用域。
至于下载什么类型的文件,我认为应该在你尝试用来归档爬网文件的MirrorWriterProcessor (它是2.x中的DecideRules序列)上进行设置。
顺便说一下,对于这种类型的任务,wget / httrack更容易配置,至少当你只需要最新的网页副本时是这样。
发布于 2010-06-22 04:04:57
1)将下载链接的BFS深度绑定到一个具体的数字,例如3。
将max-link-hops设置为3。请参见6.3.2。manual的作用域设置。
2)将下载的类型限制为html和文本。
在ContentTypeRegExpFilter中将其配置为仅匹配text/plain和text/html。请参见第6.2.2.2节。提供来自manual的筛选器。
https://stackoverflow.com/questions/3079151
复制相似问题