问如何从heritrix爬网中排除除链接/外链以外的所有内容？
EN

Stack Overflow用户

提问于 2013-07-25 20:24:58

回答 1查看 277关注 0票数 0

我正在与Heritrix合作，但我有点纠结于管理它的输出。

我正在研究PageRank，我需要Heritrix生成一个文件来应用排名算法。我需要的文件应该只有每个访问页面的链接和外链。

我希望避免(尽可能多地)后处理。是否可以通过指定哪些内容应包含哪些内容不应包含来自定义Heritrix的输出？我已经尝试过修改cxml文件，但是输出中仍然有很多无用的信息(比如内容页面)。

发布于 2013-12-18 10:48:10

不写代码就不可能直接做你所描述的事情。如果您准备编写代码，可以编写一个非常简单的处理器或ScriptedProcessor，它以您喜欢的任何格式转储CrawlURI.getOutLinks()。

但我建议使用后处理。我不知道你为什么要避开它。你可以使用https://github.com/internetarchive/warctools的"warcfilter“工具。运行"warcfilter --type “只过滤掉包含外链列表的元数据记录。您可以使用grep进一步减少它。

Inlink是一个更大的问题。您必须搜索所有warcs的外部链接，才能获得任何给定url的内部链接。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/17857972

复制

相似问题

问如何从heritrix爬网中排除除链接/外链以外的所有内容？EN