我正在与Heritrix合作,但我有点纠结于管理它的输出。
我正在研究PageRank,我需要Heritrix生成一个文件来应用排名算法。我需要的文件应该只有每个访问页面的链接和外链。
我希望避免(尽可能多地)后处理。是否可以通过指定哪些内容应包含哪些内容不应包含来自定义Heritrix的输出?我已经尝试过修改cxml文件,但是输出中仍然有很多无用的信息(比如内容页面)。
发布于 2013-12-18 10:48:10
不写代码就不可能直接做你所描述的事情。如果您准备编写代码,可以编写一个非常简单的处理器或ScriptedProcessor,它以您喜欢的任何格式转储CrawlURI.getOutLinks()。
但我建议使用后处理。我不知道你为什么要避开它。你可以使用https://github.com/internetarchive/warctools的"warcfilter“工具。运行"warcfilter --type “只过滤掉包含外链列表的元数据记录。您可以使用grep进一步减少它。
Inlink是一个更大的问题。您必须搜索所有warcs的外部链接,才能获得任何给定url的内部链接。
https://stackoverflow.com/questions/17857972
复制相似问题